Übersicht über Anleitungen für KI-Arbeitslasten

Diese Seite bietet eine Übersicht über die AI Hypercomputer-Anleitungen, in denen der vollständige Prozess der Bereitstellung gängiger KI-Modelle auf Google Cloud Produkten beschrieben wird. So können Sie KI-/ML-Arbeitslasten für Proof-of-Concept-Projekte (POC) ausführen.

Diese Anleitungen richten sich an ML-Entwickler, Forscher, Plattformadministratoren und ‑operatoren sowie Daten- und KI-Spezialisten. Um diese Anleitungen effektiv nutzen zu können, sollten Sie grundlegende Kenntnisse der Konzepte des maschinellen Lernens und Erfahrung mit den Google Cloud Diensten haben. Erfahrung mit der Bereitstellung und Verwaltung von KI-Modellen hilft Ihnen ebenfalls, die Inhalte zu verstehen.

Kategorien von Anleitungen

Die Anleitungen zu KI-Arbeitslasten sind in die folgenden Kategorien unterteilt:

  • Inferenz mit vLLM in GKE ausführen
  • Feinabstimmung ausführen
  • Training ausführen

Inferenz mit vLLM in Google Kubernetes Engine ausführen

In diesen Anleitungen wird beschrieben, wie Sie große Sprachmodelle (LLMs) für die Inferenz mit dem vLLM-Bereitstellungs-Framework in Google Kubernetes Engine (GKE) bereitstellen und bereitstellen. Sie lernen, wie Sie die Containerorchestrierungsfunktionen von GKE für effiziente Inferenzarbeitslasten nutzen. In diesen Anleitungen wird beschrieben, wie Sie mit Hugging Face auf Modelle zugreifen, GKE-Cluster einrichten (z. B. im Autopilot-Modus), Anmeldedaten verwalten und vLLM-Container für die Interaktion mit LLMs wie Gemma 3, Llama 4 und Qwen3 bereitstellen.

Feinabstimmung ausführen

In diesen Anleitungen wird beschrieben, wie Sie LLMs für bestimmte Aufgaben in verschiedenen Google Cloud Clustertypen, einschließlich GKE und Slurm, feinabstimmen. Sie können beispielsweise Gemma 3 in GKE-Clustern mit mehreren Knoten und mehreren GPUs (z. B. mit A4-VM-Instanzen mit NVIDIA B200 GPUs) und Slurm-Clustern feinabstimmen. Sie erstellen benutzerdefinierte VM-Images, konfigurieren RDMA-Netzwerke und führen verteilte Feinabstimmungsjobs mit Bibliotheken wie Hugging Face Accelerate und FSDP aus. In einigen Anleitungen wird auch die Verwendung von Frameworks wie Ray für Aufgaben im Bereich Computer Vision behandelt.

Training ausführen

In diesen Anleitungen wird beschrieben, wie Sie LLMs in Hochleistungsclustern trainieren oder vortrainieren. Sie lernen beispielsweise, wie Sie Modelle wie Qwen2 in Slurm-Clustern mit mehreren Knoten und mehreren GPUs mit A4-VMs vortrainieren. Sie stellen Slurm Cluster mit dem Google Cloud Cluster Toolkit bereit, erstellen benutzerdefinierte VM-Images, konfigurieren freigegebene Filestore-Instanzen, konfigurieren Hochgeschwindigkeits- RDMA-Netzwerke und führen verteilte Vortrainingsjobs mit Hugging Face Accelerate aus.

Nächste Schritte

Weitere Informationen finden Sie in den AI Hypercomputer-Anleitungen: