Diese Seite bietet eine Übersicht über die AI Hypercomputer-Anleitungen, in denen der vollständige Prozess der Bereitstellung gängiger KI-Modelle auf Google Cloud Produkten beschrieben wird. So können Sie KI-/ML-Arbeitslasten für Proof-of-Concept-Projekte (POC) ausführen.
Diese Anleitungen richten sich an ML-Entwickler, Forscher, Plattformadministratoren und ‑operatoren sowie Daten- und KI-Spezialisten. Um diese Anleitungen effektiv nutzen zu können, sollten Sie grundlegende Kenntnisse der Konzepte des maschinellen Lernens und Erfahrung mit den Google Cloud Diensten haben. Erfahrung mit der Bereitstellung und Verwaltung von KI-Modellen hilft Ihnen ebenfalls, die Inhalte zu verstehen.
Kategorien von Anleitungen
Die Anleitungen zu KI-Arbeitslasten sind in die folgenden Kategorien unterteilt:
- Inferenz mit vLLM in GKE ausführen
- Feinabstimmung ausführen
- Training ausführen
Inferenz mit vLLM in Google Kubernetes Engine ausführen
In diesen Anleitungen wird beschrieben, wie Sie große Sprachmodelle (LLMs) für die Inferenz mit dem vLLM-Bereitstellungs-Framework in Google Kubernetes Engine (GKE) bereitstellen und bereitstellen. Sie lernen, wie Sie die Containerorchestrierungsfunktionen von GKE für effiziente Inferenzarbeitslasten nutzen. In diesen Anleitungen wird beschrieben, wie Sie mit Hugging Face auf Modelle zugreifen, GKE-Cluster einrichten (z. B. im Autopilot-Modus), Anmeldedaten verwalten und vLLM-Container für die Interaktion mit LLMs wie Gemma 3, Llama 4 und Qwen3 bereitstellen.
Feinabstimmung ausführen
In diesen Anleitungen wird beschrieben, wie Sie LLMs für bestimmte Aufgaben in verschiedenen Google Cloud Clustertypen, einschließlich GKE und Slurm, feinabstimmen. Sie können beispielsweise Gemma 3 in GKE-Clustern mit mehreren Knoten und mehreren GPUs (z. B. mit A4-VM-Instanzen mit NVIDIA B200 GPUs) und Slurm-Clustern feinabstimmen. Sie erstellen benutzerdefinierte VM-Images, konfigurieren RDMA-Netzwerke und führen verteilte Feinabstimmungsjobs mit Bibliotheken wie Hugging Face Accelerate und FSDP aus. In einigen Anleitungen wird auch die Verwendung von Frameworks wie Ray für Aufgaben im Bereich Computer Vision behandelt.
Training ausführen
In diesen Anleitungen wird beschrieben, wie Sie LLMs in Hochleistungsclustern trainieren oder vortrainieren. Sie lernen beispielsweise, wie Sie Modelle wie Qwen2 in Slurm-Clustern mit mehreren Knoten und mehreren GPUs mit A4-VMs vortrainieren. Sie stellen Slurm Cluster mit dem Google Cloud Cluster Toolkit bereit, erstellen benutzerdefinierte VM-Images, konfigurieren freigegebene Filestore-Instanzen, konfigurieren Hochgeschwindigkeits- RDMA-Netzwerke und führen verteilte Vortrainingsjobs mit Hugging Face Accelerate aus.
Nächste Schritte
Weitere Informationen finden Sie in den AI Hypercomputer-Anleitungen:
- Mit vLLM in GKE Gemma 3 27B-Inferenz bereitstellen
- Gemma 3 in einem A4-GKE-Cluster feinabstimmen
- Qwen2 in einem A4-Slurm-Cluster trainieren
- Qwen2-72B mit vLLM auf TPUs bereitstellen