Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Übersicht über Speicherdienste für KI- und ML-Arbeitslasten in AI Hypercomputer

Speicherdienste bieten die erforderliche Datenarchitektur, die das leistungsstarke Training, die Inferenz und die Feinabstimmung von Modellen im AI Hypercomputer-Ökosystem ermöglicht. In Google Cloudsind zwar mehrere Speicherdienste verfügbar, die beste Wahl hängt jedoch von Ihren Anforderungen an E/A, Durchsatz, Skalierung und Latenz für Anwendungsfälle im Lebenszyklus von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) ab.

In diesem Dokument werden Speicherdienste in Google Cloud vorgestellt und verglichen, mit denen Sie die GPU- oder TPU-Leistung am besten optimieren können. Außerdem werden Empfehlungen für den idealen Dienst für bestimmte KI- und ML-Anwendungsfälle gegeben.

Einführung in Speicherdienste

Google Cloud bietet mehrere Speicherlösungen, die für KI- und ML-Anwendungsfälle optimiert sind:

Cloud Storage ist ein Objektspeichersystem, das für die Verarbeitung und Speicherung großer Datasets wie der für das Training oder die Bulk-Inferenz erforderlichen Datasets konzipiert ist. Cloud Storage bietet mehrere Funktionen, mit denen Sie Ihren Datenspeicher für KI- und ML-Aufgaben optimieren können.
Google Cloud Managed Lustre ist ein vollständig verwaltetes und POSIX-kompatibles paralleles Dateisystem, das für die spezielle Metadatenleistung mit niedriger Latenz und hoher Parallelität entwickelt wurde, die für Trainings- und Inferenzarbeitslasten erforderlich ist.

In den folgenden Abschnitten finden Sie weitere Informationen zu den einzelnen Speicherdiensten.

Cloud Storage

Cloud Storage ist ein grundlegender Objektspeicher, der globale Skalierbarkeit, Langlebigkeit und Kosteneffizienz bietet. Wenn Sie Cloud Storage verwenden, speichern Sie Daten als Objekte in Containern, die als Buckets bezeichnet werden. Cloud Storage bietet mehrere Funktionen für Ihre Buckets, mit denen Sie die Leistung von KI- und ML-Arbeitslasten optimieren können:

Produkte der Cloud Storage Rapid-Familie wurden entwickelt, um Datenengpässe für Ihre KI- und ML-Arbeitslasten zu beseitigen, indem Ihre Daten näher an Ihre Rechenressourcen gebracht werden. Mit diesen Produkten können Sie Ihre Daten in denselben Zonen wie Ihre Rechenarbeitslasten speichern und eine leistungsstarke und kostengünstige Skalierung des Datenspeichers für Ihre GPU- oder TPU-Cluster ermöglichen. Cloud Storage Rapid-Produkte umfassen Folgendes:
- Rapid Bucket bietet die schnellste Lese- und Schreibleistung in Cloud Storage für zonale Buckets. Objekte in zonalen Buckets werden in der Speicherklasse „Rapid Storage“ gespeichert, einer leistungsstarken Speicherklasse, die für E/A-intensive Arbeitslasten optimiert ist. Neben der geringeren Latenz bietet Rapid Bucket einen deutlich höheren Durchsatz (bis zu 15 TB/s) im Vergleich zu anderen Produkten und Bucket-Standorten in Cloud Storage.
- Rapid Cache beschleunigt das Lesen von Daten aus vorhandenen Buckets, ohne dass Codeänderungen erforderlich sind. Rapid Cache ist ein zonenbasierter SSD-Lesecache für Cloud Storage-Buckets, der zum Bereitstellen von Daten für Datenleseanfragen verwendet wird. Das Produkt bietet einen höheren Durchsatz (bis zu 2,5 TB/s) und eine geringere Latenz als Buckets ohne Cache.
  
  Rapid Cache wird häufig für multiregionale Buckets eingerichtet, bei denen die Accelerator-Kapazität auf Google Cloud Regionen verteilt ist. Für Daten, die aus dem Cache gelesen werden, fallen geringere Gebühren für die Datenübertragung an als für Daten, die direkt aus einem multiregionalen Bucket gelesen werden.
Cloud Storage FUSE ist ein Open-Source-FUSE-Adapter, mit dem Sie Buckets als lokale Dateisysteme bereitstellen können. So können Anwendungen mit der Standardsemantik des Dateisystems mit dem Objektspeicher interagieren. So können Sie die globale Skalierbarkeit, Langlebigkeit und Kosteneffizienz von Cloud Storage mit lokalem Dateizugriff nutzen. Cloud Storage FUSE wird von Googleaktiv gewartet und unterstützt.

Cloud Storage FUSE bietet mehrere clientseitige Caching- und Optimierungsparameter, z. B. parallele Downloads. Diese Funktionen können die Komplexität der Entwicklung abstrahieren und dazu beitragen, die Spitzenleistung durch Sharding oder Parallelisierung von Streams zu erreichen.
Hierarchischer Namespace ermöglicht eine echte Dateisystemstruktur in Buckets und bietet effiziente Funktionen für die Datenverwaltung, einschließlich des atomaren Umbenennens von Ordnern und schnellerer Dateisuchen, wenn der Bucket mit Cloud Storage FUSE eingebunden wird. Der hierarchische Namespace bietet achtmal mehr Anfragen pro Sekunde (Queries per Second, QPS) für das Lesen und Schreiben von Objekten als Buckets ohne hierarchischen Namespace. Weitere Informationen zu den Vorteilen der Verwendung eines hierarchischen Namespace finden Sie unter Leistungs- und Verwaltungsvorteile.

Die Aktivierung des hierarchischen Namespaces wird dringend empfohlen, wenn Sie Arbeitslasten haben, die einen hohen Durchsatz beim Laden von Daten und häufige Modell-Checkpoints erfordern. Die Aktivierung des hierarchischen Namespaces ist erforderlich, wenn Sie zonale Buckets mit Rapid Bucket erstellen.

Managed Lustre

Google Cloud Managed Lustre ist ein leistungsstarkes, POSIX-kompatibles, vollständig verwaltetes paralleles Dateisystem, das für KI- und ML-Anwendungen optimiert ist. Die Managed Lustre-Architektur ist ideal für KI/ML-Arbeitslasten mit hohem Durchsatz, niedriger Latenz und hoher Metadaten-Concurrency, z. B. für Prüfpunkte, schnelle Gewichtspropagierung beim Reinforcement Learning und Key-Value-Caching (KV-Caching).

Weitere Informationen zu häufigen Anwendungsfällen für Managed Lustre finden Sie unter Anwendungsfälle.

Vergleich von Speicherdiensten

In der folgenden Tabelle finden Sie einen allgemeinen Vergleich von Cloud Storage und Managed Lustre anhand wichtiger Merkmale:

Merkmale	Cloud Storage	Managed Lustre
Architektur	Objektspeicher Daten werden standardmäßig in flachen Buckets gespeichert. Alle Bucket-Typen (zonal, regional, dual-regional und multiregional) bieten Optionen für Georedundanz, die mit Cloud Storage Rapid-Funktionen beschleunigt werden können. Optional können Sie den hierarchischen Namespace aktivieren, um Buckets zu erstellen, die das Speichern von Daten in einer Dateisystemstruktur unterstützen. Optional können Sie Cloud Storage FUSE aktivieren, um Buckets als lokale Dateisysteme bereitzustellen.	Paralleles Dateisystem Daten werden als Dateien in Managed Lustre-Instanzen gespeichert und als lokale Dateisysteme in Ihren Beschleunigerclustern bereitgestellt. Eine zusätzliche Optimierung ist nicht erforderlich.
Speicherkapazität	Kann auf Exabytes skaliert werden.	Die Kapazität kann je nach Leistungsstufe der Instanz auf bis zu 80 PB skaliert werden.
Leistung	Folgendes wird unterstützt: Latenz von weniger als einer Millisekunde für geöffnete Dateien mit Rapid Bucket Zehn Millionen IOPs/TiB mit Rapid Bucket Bis zu 2,5 TB/s Bandbreite mit Rapid Cache Bis zu 15 TB/s Bandbreite mit Rapid Bucket Anträge auf Erhöhung der Bandbreite	Folgendes wird unterstützt: Latenz von weniger als einer Millisekunde Zehn Millionen IOPs/TiB Bis zu 10 TB/s Bandbreite
Preise	Weitere Informationen finden Sie unter Cloud Storage – Preise.	Weitere Informationen finden Sie unter Managed Lustre-Preise.
Empfehlungen nach Anforderungen	Empfohlen für Anwendungen, die einen skalierbaren Objektspeicher und allgemeine Kosteneffizienz für Trainingsdatasets, asynchrones mehrstufiges Checkpointing und die Speicherung von Modellgewichten benötigen. Cloud Storage Rapid ist insbesondere für die leistungsstarke und kostengünstige Datenskalierung zu empfehlen.	Empfohlen für Anwendungen, die ein vollständig POSIX-konformes paralleles Dateisystem oder Home-Verzeichnisse benötigen. Auch für latenzempfindliche oder Arbeitslasten mit hoher Metadaten-Concurrency wie KV-Caching-Offloads, synchrones Checkpointing und schnelle Gewichtspropagierung für Reinforcement Learning empfohlen.

Empfehlungen für Speicherdienste nach Anwendungsfall

Anwendungsfall	Empfehlung für Speicherdienst	Grund für Empfehlung
Datasets trainieren und vorbereiten	Primäre Empfehlung: Cloud Storage Rapid Bucket	Cloud Storage-Buckets bieten die Kapazität, den Durchsatz, die Kosteneffizienz und die Langlebigkeit, die häufig für große Mengen an Trainings- und Inferenz-Datasets erforderlich sind. Wenn Sie mit Rapid Bucket einen zonalen Bucket erstellen, profitiert dieser von einem sehr hohen Durchsatz (bis zu 15 TB/s) und einer Latenz von weniger als einer Millisekunde für geöffnete Dateien zu optimalen Kosten.
Datasets trainieren und vorbereiten	Zweite Empfehlung: Managed Lustre	Managed Lustre bietet eine Latenz von weniger als einer Millisekunde. Sie ist hilfreich als dedizierter, ultraschneller Arbeitsbereich für Ihre rechenintensivsten Trainings- und Dataset-Vorbereitungsaufgaben, bei denen niedrige Latenz und Metadaten-Concurrency-Leistung eine hohe Priorität haben.
Modellgewichte für Prüfpunkte oder Gewichtsübertragungen verschieben oder speichern	Primäre Empfehlung: Managed Lustre	Managed Lustre bietet Latenzzeiten im Submillisekundenbereich und parallelen Datenzugriff. So können Tausende von Rollout-Workern gleichzeitig auf dieselbe Gewichtsdatei zugreifen, ohne dass es zu Verlangsamungen kommt.
	Zweite Empfehlung: Cloud Storage Rapid Bucket	Rapid Bucket eignet sich gut für asynchrones mehrstufiges oder verteiltes Checkpointing, wenn es mit GCSFS über `fsspec` oder Cloud Storage FUSE mit clientseitiger Leistungsoptimierung verwendet wird.
Modelle für die Inferenz speichern und herunterladen	Primäre Empfehlung: Cloud Storage Rapid Cache oder Rapid Bucket	Rapid Cache fungiert als Booster, der den Kaltstart der Inferenz reduziert. Mit Rapid Cache können die Modellgewichte in derselben Zone wie Ihre Inferenzknoten vorab geladen werden. So kann eine neue Inferenzinstanz die Modellgewichte schnell herunterladen und die erste Anfrage verarbeiten. Rapid Bucket dient als leistungsstarke, beschleunigte zonale Speicher-Engine, mit der Sie Modellgewichte in derselben Zone wie Ihre Inferenzflotte speichern können. Für die Modellbereitstellung empfehlen wir die Verwendung von Run:ai Model Streamer for vLLM für maximale Downloadleistung. Bei anderen Inferenzstacks kann die Optimierung der Parameter für den parallelen Download von Cloud Storage FUSE die Kaltstartlatenz beim Herunterladen von Modellgewichten erheblich verringern.
Modelle für die Inferenz speichern und herunterladen	Zweite Empfehlung: Managed Lustre	Managed Lustre bietet Latenzen von unter einer Millisekunde und parallelen Datenzugriff, was sich positiv auf leistungssensible Modelle und die Skalierung von gleichzeitigen GPUs auswirkt, die dasselbe Modell gleichzeitig herunterladen.
KV-Cache-Offloading	Primäre Empfehlung: Managed Lustre	Managed Lustre bietet eine Latenz von weniger als einer Millisekunde und parallelen Datenzugriff. So können verschiedene Knoten den KV-Cache „abrufen“ und Chats fortsetzen, ohne den gesamten Chatverlauf neu zu verarbeiten.

Nächste Schritte

Weitere Informationen zu Cloud Storage Rapid, einer Produktfamilie in Cloud Storage, die für KI, ML und datenintensive Analysen entwickelt wurde.
Hier erfahren Sie, wie Sie die Leistung beim Herunterladen von Datasets mit Cloud Storage FUSE oder dem Cloud Storage FUSE CSI-Treiber optimieren.
Informationen zum Beschleunigen des Ladens von Modellen in Google Kubernetes Engine

Übersicht über Speicherdienste für KI- und ML-Arbeitslasten in AI Hypercomputer Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.