TH Köln erhält einen HPC Rechencluster

Rechner des TH-KIplus Clusters am Standort Gummersbach. Ein weiterer Knoten wird in Leverkusen eingerichtet.

Im Rahmen des von Prof. Dr. Thomas Bartz-Beielstein gemeinsam mit 23 weiteren Professorinnen und Professoren der TH Köln sowie drei weiteren assoziierten Mitgliedern eingeworbenen BMBF-Antrags “TH Köln – Künstliche Intelligenz_plus” wurde ein Hochleistungsrechencluster beschafft, der für die KI-Berechnungen der TH Köln zur Verfügung steht. Er besitzt eine GPU-Leistung von 32 NVIDEA L40S und 8 NVIDEA H100. Der Hochleistungsrechencluster befindet sich momentan im Probebetrieb und soll im Sommersemester 2025 für die Forschung und im Wintersemester 2025 zusätzlich für die Lehre in Betrieb genommen werden.

Der THK-KI-Cluster verfügt über verschiedene Sätze von Rechenknoten, die auf die Standorte Gummersbach und Leverkusen verteilt sind.

  • Gummersbach:
    • Prozessor: 2x AMD EPYC™ GENOA 9654 Processor, 96-Core, 2,4 – 3,7 GHz
    • Grafikkarte: 8x HGX H100 á 80GB VRAM
    • RAM: 24x96GB (~2,3TB) DDR5 RAM mit 4800MHz
  • Leverkusen (pro Rechenknoten):
    • Prozessor: 2x AMD EPYC™ GENOA 9334 Prozessor, 32-Core 32C/64T, 2.70-3.90 GHz
    • Grafikkarte: 4x PCIe 4 x16 Graphics Card NVIDIA® L40S NVIDIA® Ada Lovelace Architecture (á 48 GB VRAM)
    • RAM: 24x 64GB (1.5TB) DDR5 RAM mit 4800MHz

Für einen Job wird aktuell lediglich eine einzelne H100 oder L40S Grafikkarte verwendet, was bedeutet, dass auch die anderen Ressourcen lediglich zu 1/ 8 (Gummersbach) oder 1/ 4 (Leverkusen) genutzt werden. Der Planer des THK-KI-Clusters weist mehrere Jobs demselben Knoten zu, wenn dessen Rechenressourcen noch nicht erschöpft sind, und verschwendet keine, falls lediglich eine einzige GPU verwendet wird.

Die Einrichtung des Hochleistungsrechenclusters wird von Marco Uebachs in enger Abstimmung mit Dr. Gregor Zimmermann von der Campus IT durchgeführt. Zur Abstimmung gibt es regelmäßige Treffen, an denen auch Vizepräsident Prof. Dr. Klaus Becker sowie Prof. Dr. Thomas Bartz-Beielstein teilnehmen. Nach der erfolgreichen Beschaffung, die in 2024 abgeschlossen wurde, erfolgt nun eine Testphase. Aktuell werden Prozesse für die folgenden Themen definiert:

  • Nutzerverwaltung,
  • Softwareverwaltung und
  • Abrechnung der angefallenen Kosten.