Search

DE-102025145743-A1 - INTEGRATION VON HOCHLEISTUNGSRECHNER-CLUSTERN IN EINE CLOUD-NATIVE CONTAINER-ORCHESTRIERUNGSUMGEBUNG

DE102025145743A1DE 102025145743 A1DE102025145743 A1DE 102025145743A1DE-102025145743-A1

Abstract

Ein Verfahren empfängt eine Charge von einer oder mehreren ersten Jobanforderungen, die von einem Hochleistungsrechner-Cluster ausgeführt werden sollen. Die Charge von ersten Jobanforderungen wird von einer Container-Orchestrierungsplattform empfangen. Die Charge von einer oder mehreren ersten Jobanforderungen wird in eine oder mehrere zweite Jobanforderungen übersetzt. Die zweiten Jobanforderungen sind von einem dem HPC-Cluster entsprechenden Planer interpretierbar. Die zweiten Jobanforderungen werden an den Planer gesendet.

Inventors

  • Carlos Arango Gutierrez

Assignees

  • NVIDIA CORPORATION

Dates

Publication Date
20260507
Application Date
20251106
Priority Date
20241107

Claims (20)

  1. Verfahren, umfassend: Empfangen einer Charge von einer oder mehreren ersten Jobanforderungen, die von einem Hochleistungsrechnercluster (HPC-Cluster) ausgeführt werden sollen, von einer Container-Orchestrierungsplattform, Übersetzen der Charge von einer oder mehreren ersten Jobanforderungen in eine oder mehrere zweite Jobanforderungen, wobei die eine oder mehreren zweiten Jobanforderungen von einem dem HPC-Cluster entsprechenden Planer interpretierbar sind; und Senden der einen oder mehreren zweiten Jobanforderungen an den Planer.
  2. Verfahren nach Anspruch 1 , wobei die Container-Orchestrierungsplattform eine Mehrfachnutzungs-Steuerungsebene ist, die zum Verwalten isolierter Ressourcencluster konfiguriert ist.
  3. Verfahren nach Anspruch 1 oder 2 , ferner umfassend: Bestimmen eines oder mehrerer zweiter Jobstatus, die der einen oder den mehreren zweiten Jobanforderungen entsprechen; Übersetzen des einen oder der mehreren zweiten Jobstatus in einen oder mehrere erste Jobstatus, die der einen oder den mehreren ersten Jobanforderungen entsprechen; und Senden des einen oder der mehreren ersten Jobstatus an einen Schlüsselwertspeicher, der von der Container-Orchestrierungsplattform, die zum Orchestrieren containerisierter Arbeitsbelastungen konfiguriert ist, gepflegt wird.
  4. Verfahren nach einem der vorstehenden Ansprüche, wobei die eine oder mehreren ersten Jobanforderungen Operationen entsprechen, die einem Training eines Modells für künstliche Intelligenz (KI) zugeordnet sind.
  5. Verfahren nach einem der vorstehenden Ansprüche, wobei die eine oder mehreren zweiten Jobanforderungen basierend auf einer Topologie des HPC-Clusters generiert werden.
  6. Verfahren nach einem der vorstehenden Ansprüche, ferner umfassend: Erfassen eines Ereignisses, das der Ausführung der einen oder mehreren zweiten Jobanforderungen innerhalb des HPC-Clusters zugeordnet ist; und Aktualisieren eines Zustands einer oder mehrerer benutzerdefinierter Ressourcen, die von der Container-Orchestrierungsplattform für die Charge einer oder mehrerer erster Jobanforderungen, die der einen oder den mehreren zweiten Jobanforderungen zugeordnet sind, zugewiesen wurden, wobei der aktualisierte Zustand der einen oder mehreren benutzerdefinierten Ressourcen für die Container-Orchestrierungsplattform eine Benachrichtigung über das Ereignis bereitstellt.
  7. Verfahren nach einem der vorstehenden Ansprüche, wobei die eine oder mehreren ersten Jobanforderungen zumindest eines aus einer Containerabbildung, Argumenten für einen Einstiegspunkt der Containerabbildung, einer oder mehreren Umgebungsvariablen oder Ressourcenanforderungen einer übermittelten Arbeitslast spezifizieren.
  8. Vorrichtung, umfassend: einen oder mehrere Prozessoren; und einen Speicher, auf dem Befehle gespeichert sind, die, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, die Vorrichtung veranlassen zum: Empfangen einer Charge von einer oder mehreren ersten Jobanforderungen, die von einem Hochleistungsrechner-Cluster (HPC-Cluster) ausgeführt werden sollen, von einer Container-Orchestrierungsplattform; Übersetzen der Charge von einer oder mehreren ersten Jobanforderungen in eine oder mehrere zweite Jobanforderungen, wobei die eine oder mehreren zweiten Jobanforderungen von einem dem HPC-Cluster entsprechenden Planer interpretierbar sind; und Senden der einen oder mehreren zweiten Jobanforderungen an den Planer.
  9. Vorrichtung nach Anspruch 8 , wobei die Container-Orchestrierungsplattform eine Mehrfachnutzungs-Steuerungsebene ist, die zum Verwalten isolierter Ressourcencluster konfiguriert ist.
  10. Vorrichtung nach Anspruch 8 oder 9 , wobei die Anweisungen ferner die Vorrichtung veranlassen zum: Bestimmen eines oder mehrerer zweiter Jobstatus entsprechend der einen oder den mehreren zweiten Jobanforderungen; Übersetzen des einen oder der mehreren zweiten Jobstatus in einen oder mehrere erste Jobstatus, die dem einen oder den mehreren ersten Jobanforderungen entsprechen; und Senden des einen oder der mehreren ersten Jobstatus an einen Schlüsselwertspeicher, der von der Container-Orchestrierungsplattform, die zum Orchestrieren containerisierter Arbeitslasten konfiguriert ist, gepflegt wird.
  11. Vorrichtung nach einem der Ansprüche 8 bis 10 , wobei die eine oder die mehreren ersten Jobanforderungen Operationen entsprechen, die einem Training eines Modells für künstliche Intelligenz (KI) zugeordnet sind.
  12. Vorrichtung nach einem der Ansprüche 8 bis 11 , wobei die eine oder mehreren zweiten Jobanforderungen basierend auf einer Topologie des HPC-Clusters generiert werden.
  13. Vorrichtung nach einem der Ansprüche 8 bis 12 , wobei die Anweisungen ferner die Vorrichtung veranlassen zum: Erfassen eines Ereignisses, das mit der Ausführung der einen oder mehreren zweiten Jobanforderungen innerhalb des HPC-Clusters verbunden ist; und Aktualisieren eines Zustands einer oder mehrerer benutzerdefinierter Ressourcen, die von der Container-Orchestrierungsplattform für die Charge einer oder mehrerer erster Jobanforderungen, die der einen oder den mehreren zweiten Jobanforderungen zugeordnet sind, zugewiesen wurden, wobei der aktualisierte Zustand der einen oder mehreren benutzerdefinierten Ressourcen für die Container-Orchestrierungsplattform eine Benachrichtigung über das Ereignis bereitstellt.
  14. Vorrichtung nach einem der Ansprüche 8 bis 13 , wobei die eine oder mehreren ersten Jobanforderungen mindestens eines aus einer Containerabbildung, Argumenten für einen Einstiegspunkt der Containerabbildung, einer oder mehreren Umgebungsvariablen oder Ressourcenanforderungen einer übermittelten Arbeitslast spezifizieren.
  15. System, umfassend: eine Container-Orchestrierungsplattform, die für den Betrieb in einer Cloud-nativen Container-Orchestrierungsumgebung konfiguriert ist; ein Hochleistungsrechner-Cluster (HPC-Cluster); und eine Schnittstelle zwischen der Container-Orchestrierungsplattform und dem HPC-Cluster, wobei die Schnittstelle konfiguriert ist zum: Empfangen einer Charge von einer oder mehreren ersten Jobanforderungen, die vom Hochleistungsrechner-Cluster (HPC) ausgeführt werden sollen, von der Container-Orchestrierungsplattform; Übersetzen der Charge von einer oder mehreren ersten Jobanforderungen in eine oder mehrere zweite Jobanforderungen, wobei die eine oder mehreren zweiten Jobanforderungen von einem dem HPC-Cluster entsprechenden Planer interpretierbar sind; und Senden der einen oder mehreren zweiten Jobanforderungen an den Planer.
  16. System nach Anspruch 15 , wobei die Schnittstelle in die Container-Orchestrierungsplattform integriert ist.
  17. System nach Anspruch 15 oder 16 , wobei die Schnittstelle konfiguriert ist zum: Bestimmen einer oder mehrerer zweiten Jobstatus entsprechend der einen oder den mehreren zweiten Jobanforderungen zu; Übersetzen des einen oder der mehreren zweiten Jobstatus in einen oder mehrere erste Jobstatus, die dem einen oder den mehreren ersten Jobanforderungen entsprechen; und Senden des einen oder der mehreren ersten Jobstatus an einen Schlüsselwertspeicher, der von der Container-Orchestrierungsplattform, die zum Orchestrieren containerisierter Arbeitslasten konfiguriert ist, verwaltet wird.
  18. System nach einem der Ansprüche 15 bis 17 , wobei die eine oder die mehreren ersten Jobanforderungen Operationen entsprechen, die einem Training eines Modells für künstliche Intelligenz (KI) zugeordnet sind.
  19. System nach einem der Ansprüche 15 bis 18 , wobei die Schnittstelle ferner konfiguriert ist zum: Erfassen eines Ereignisses, das der Ausführung der einen oder mehreren zweiten Jobanforderungen innerhalb des HPC-Clusters zugeordnet ist; und Aktualisieren eines Zustands einer oder mehrerer benutzerdefinierter Ressourcen, die von der Container-Orchestrierungsplattform für die Charge einer oder mehrerer erster Jobanforderungen, die der einen oder den mehreren zweiten Jobanforderungen zugeordnet sind, zugewiesen wurden, wobei der aktualisierte Zustand der einen oder mehreren benutzerdefinierten Ressourcen für die Container-Orchestrierungsplattform eine Benachrichtigung über das Ereignis bereitstellt.
  20. System nach einem der Ansprüche 15 bis 19 , wobei die eine oder die mehreren ersten Jobanforderungen mindestens eines aus einer Containerabbildung, Argumenten für einen Einstiegspunkt des Container-Images, einer oder mehrerer Umgebungsvariablen oder Ressourcenanforderungen einer übermittelten Arbeitslast spezifizieren.

Description

TECHNISCHES GEBIET Mindestens eine Ausführungsform betrifft die Integration von Hochleistungsrechner-Clustern (HPC-Clustern) in eine Cloud-native Container-Orchestrierungsumgebung. HINTERGRUND Eine Cloud-native Container-Orchestrierungsumgebung ist ein System, das zur Verwaltung, Skalierung und Bereitstellung von in Containern gepackten Anwendungen über verteilte Rechenressourcen hinweg entwickelt wurde. Diese Umgebung nutzt Orchestrierungstools wie Kubernetes®, um die Bereitstellung, Skalierung und den Betrieb von Containern zu automatisieren. Cloud-native Umgebungen sind für die Cloud-Infrastruktur optimiert und ermöglichen die Ausführung von Anwendungen über mehrere Server, Rechenzentren oder Cloud-Anbieter hinweg. Hochleistungsrechner-Cluster (high-performance computing cluster bzw. HPC-Cluster) sind Sammlungen miteinander verbundener Computer, die zusammenarbeiten, um komplexe Berechnungen durchzuführen. HPC-Cluster werden häufig für Aufgaben wie wissenschaftliche Simulationen, groß angelegte Datenanalysen oder die Modellierung künstlicher Intelligenz (KI) eingesetzt. Diese Cluster können Parallelverarbeitung nutzen, bei der viele Prozessoren verschiedene Teile einer Aufgabe gleichzeitig bearbeiten. HPC-Cluster sind in der Regel darauf ausgelegt, die Rechenleistung, den Speicher und die Netzwerkfähigkeiten zu maximieren, um den hohen Leistungsanforderungen von Forschungs-, Ingenieurs- und wissenschaftlichen Anwendungen gerecht zu werden. KURZBESCHREIBUNG DER ZEICHNUNGEN 1 zeigt ein System mit einer Steuerungsebene und einem HPC-Cluster.2 zeigt ein System mit einer Kubernetes®-Steuerungsebene (KCP) und einem Slurm®-Ressourcenmanager gemäß einer Ausführungsform.3 ist ein Flussdiagramm eines Beispielverfahrens zum Betreiben eines HPC-Clusters innerhalb einer Cloud-nativen Container-Orchestrierungsumgebung gemäß mindestens einer Ausführungsform.4 ist ein Flussdiagramm eines Beispielverfahrens zum Übersetzen von Daten zwischen einer Cloud-nativen Container-Orchestrierungsplattform, wie beispielsweise einer Steuerungsebene, und einem HPC-Cluster gemäß mindestens einer Ausführungsform.5A veranschaulicht eine Inferenz- und/oder Trainingslogik gemäß mindestens einer Ausführungsform der vorliegenden Offenbarung.5B veranschaulicht eine Inferenz- und/oder Trainingslogik gemäß mindestens einer Ausführungsform;6 veranschaulicht das Training und die Bereitstellung eines neuronalen Netzwerks gemäß mindestens einer Ausführungsform.7 ist ein beispielhaftes Datenflussdiagramm für eine fortschrittliche Rechenpipeline gemäß mindestens einer Ausführungsform;8 ist ein Systemdiagramm für ein Beispielsystem zum Trainieren, Anpassen, Instanziieren und Bereitstellen von Modellen für maschinelles Lernen in einer fortschrittlichen Rechenpipeline gemäß mindestens einer Ausführungsform.9 veranschaulicht ein Computersystem gemäß mindestens einer Ausführungsform.10 veranschaulicht ein Computersystem gemäß mindestens einer Ausführungsform.11A ist ein Blockdiagramm eines beispielhaften generativen Sprachmodellsystems, das zur Verwendung bei der Implementierung einiger Ausführungsformen der vorliegenden Offenbarung geeignet ist;11B ist ein Blockdiagramm eines Beispiels für ein generatives Sprachmodell, das einen Transformer-Encoder-Decoder umfasst, der zur Verwendung bei der Implementierung einiger Ausführungsformen der vorliegenden Offenbarung geeignet ist;11C ist ein Blockdiagramm eines Beispiels für ein generatives Sprachmodell, das eine nur aus einem Decoder bestehende Transformer-Architektur umfasst, die zur Verwendung bei der Implementierung einiger Ausführungsformen der vorliegenden Offenbarung geeignet ist;12 ist ein Blockdiagramm einer Beispiel-Vorrichtung, die zur Verwendung bei der Implementierung einiger Ausführungsformen der vorliegenden Offenbarung geeignet ist; und13 ist ein Blockdiagramm eines Beispiel-Rechenzentrums, das zur Verwendung bei der Implementierung einiger Ausführungsformen der vorliegenden Offenbarung geeignet ist. KURZFASSUNG Die Erfindung wird durch die Ansprüche definiert. Zur Veranschaulichung der Erfindung werden hier Aspekte und Ausführungsformen beschrieben, die unter den Geltungsbereich der Ansprüche fallen können oder auch nicht. Es wird ein Verfahren offenbart, das eine Charge von einer oder mehreren ersten Jobanforderungen empfängt, die von einem Hochleistungsrechner-Cluster ausgeführt werden sollen. Die Charge von ersten Jobanforderungen wird von einer Container-Orchestrierungsplattform empfangen. Die Charge von einer oder mehreren ersten Jobanforderungen wird in eine oder mehrere zweite Jobanforderungen übersetzt. Die zweiten Jobanforderungen sind von einem dem HPC-Cluster entsprechenden Planer interpretierbar. Die zweiten Jobanforderungen werden an den Planer gesendet. Weitere Merkmale der Offenbarung sind durch die unabhängigen und abhängigen Ansprüche gekennzeichnet. Jedes Merkmal in einem Aspekt der Offenbarung kann in jeder geeigneten Kombination auf andere Aspekte der Offenbarung angewendet