Speicherdienste bieten die erforderliche Datenarchitektur, die das leistungsstarke Training, die Inferenz und die Feinabstimmung von Modellen im AI Hypercomputer-Ökosystem ermöglicht. In Google Cloudsind zwar mehrere Speicherdienste verfügbar, die beste Wahl hängt jedoch von Ihren Anforderungen an E/A, Durchsatz, Skalierung und Latenz für Anwendungsfälle im Lebenszyklus von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) ab.
In diesem Dokument werden Speicherdienste in Google Cloud vorgestellt und verglichen, mit denen Sie die GPU- oder TPU-Leistung am besten optimieren können. Außerdem werden Empfehlungen für den idealen Dienst für bestimmte KI- und ML-Anwendungsfälle gegeben.
Einführung in Speicherdienste
Google Cloud bietet mehrere Speicherlösungen, die für KI- und ML-Anwendungsfälle optimiert sind:
Cloud Storage ist ein Objektspeichersystem, das für die Verarbeitung und Speicherung großer Datasets wie der für das Training oder die Bulk-Inferenz erforderlichen Datasets konzipiert ist. Cloud Storage bietet mehrere Funktionen, mit denen Sie Ihren Datenspeicher für KI- und ML-Aufgaben optimieren können.
Google Cloud Managed Lustre ist ein vollständig verwaltetes und POSIX-kompatibles paralleles Dateisystem, das für die spezielle Metadatenleistung mit niedriger Latenz und hoher Parallelität entwickelt wurde, die für Trainings- und Inferenzarbeitslasten erforderlich ist.
In den folgenden Abschnitten finden Sie weitere Informationen zu den einzelnen Speicherdiensten.
Cloud Storage
Cloud Storage ist ein grundlegender Objektspeicher, der globale Skalierbarkeit, Langlebigkeit und Kosteneffizienz bietet. Wenn Sie Cloud Storage verwenden, speichern Sie Daten als Objekte in Containern, die als Buckets bezeichnet werden. Cloud Storage bietet mehrere Funktionen für Ihre Buckets, mit denen Sie die Leistung von KI- und ML-Arbeitslasten optimieren können:
Produkte der Cloud Storage Rapid-Familie wurden entwickelt, um Datenengpässe für Ihre KI- und ML-Arbeitslasten zu beseitigen, indem Ihre Daten näher an Ihre Rechenressourcen gebracht werden. Mit diesen Produkten können Sie Ihre Daten in denselben Zonen wie Ihre Rechenarbeitslasten speichern und eine leistungsstarke und kostengünstige Skalierung des Datenspeichers für Ihre GPU- oder TPU-Cluster ermöglichen. Cloud Storage Rapid-Produkte umfassen Folgendes:
Rapid Bucket bietet die schnellste Lese- und Schreibleistung in Cloud Storage für zonale Buckets. Objekte in zonalen Buckets werden in der Speicherklasse „Rapid Storage“ gespeichert, einer leistungsstarken Speicherklasse, die für E/A-intensive Arbeitslasten optimiert ist. Neben der geringeren Latenz bietet Rapid Bucket einen deutlich höheren Durchsatz (bis zu 15 TB/s) im Vergleich zu anderen Produkten und Bucket-Standorten in Cloud Storage.
Rapid Cache beschleunigt das Lesen von Daten aus vorhandenen Buckets, ohne dass Codeänderungen erforderlich sind. Rapid Cache ist ein zonenbasierter SSD-Lesecache für Cloud Storage-Buckets, der zum Bereitstellen von Daten für Datenleseanfragen verwendet wird. Das Produkt bietet einen höheren Durchsatz (bis zu 2,5 TB/s) und eine geringere Latenz als Buckets ohne Cache.
Rapid Cache wird häufig für multiregionale Buckets eingerichtet, bei denen die Accelerator-Kapazität auf Google Cloud Regionen verteilt ist. Für Daten, die aus dem Cache gelesen werden, fallen geringere Gebühren für die Datenübertragung an als für Daten, die direkt aus einem multiregionalen Bucket gelesen werden.
Cloud Storage FUSE ist ein Open-Source-FUSE-Adapter, mit dem Sie Buckets als lokale Dateisysteme bereitstellen können. So können Anwendungen mit der Standardsemantik des Dateisystems mit dem Objektspeicher interagieren. So können Sie die globale Skalierbarkeit, Langlebigkeit und Kosteneffizienz von Cloud Storage mit lokalem Dateizugriff nutzen. Cloud Storage FUSE wird von Googleaktiv gewartet und unterstützt.
Cloud Storage FUSE bietet mehrere clientseitige Caching- und Optimierungsparameter, z. B. parallele Downloads. Diese Funktionen können die Komplexität der Entwicklung abstrahieren und dazu beitragen, die Spitzenleistung durch Sharding oder Parallelisierung von Streams zu erreichen.
Hierarchischer Namespace ermöglicht eine echte Dateisystemstruktur in Buckets und bietet effiziente Funktionen für die Datenverwaltung, einschließlich des atomaren Umbenennens von Ordnern und schnellerer Dateisuchen, wenn der Bucket mit Cloud Storage FUSE eingebunden wird. Der hierarchische Namespace bietet achtmal mehr Anfragen pro Sekunde (Queries per Second, QPS) für das Lesen und Schreiben von Objekten als Buckets ohne hierarchischen Namespace. Weitere Informationen zu den Vorteilen der Verwendung eines hierarchischen Namespace finden Sie unter Leistungs- und Verwaltungsvorteile.
Die Aktivierung des hierarchischen Namespaces wird dringend empfohlen, wenn Sie Arbeitslasten haben, die einen hohen Durchsatz beim Laden von Daten und häufige Modell-Checkpoints erfordern. Die Aktivierung des hierarchischen Namespaces ist erforderlich, wenn Sie zonale Buckets mit Rapid Bucket erstellen.
Managed Lustre
Google Cloud Managed Lustre ist ein leistungsstarkes, POSIX-kompatibles, vollständig verwaltetes paralleles Dateisystem, das für KI- und ML-Anwendungen optimiert ist. Die Managed Lustre-Architektur ist ideal für KI/ML-Arbeitslasten mit hohem Durchsatz, niedriger Latenz und hoher Metadaten-Concurrency, z. B. für Prüfpunkte, schnelle Gewichtspropagierung beim Reinforcement Learning und Key-Value-Caching (KV-Caching).
Weitere Informationen zu häufigen Anwendungsfällen für Managed Lustre finden Sie unter Anwendungsfälle.
Vergleich von Speicherdiensten
In der folgenden Tabelle finden Sie einen allgemeinen Vergleich von Cloud Storage und Managed Lustre anhand wichtiger Merkmale:
| Merkmale | Cloud Storage | Managed Lustre |
|---|---|---|
| Architektur | Objektspeicher
|
Paralleles Dateisystem
|
| Speicherkapazität | Kann auf Exabytes skaliert werden. |
Die Kapazität kann je nach Leistungsstufe der Instanz auf bis zu 80 PB skaliert werden. |
| Leistung | Folgendes wird unterstützt:
|
Folgendes wird unterstützt:
|
| Preise |
Weitere Informationen finden Sie unter Cloud Storage – Preise. |
Weitere Informationen finden Sie unter Managed Lustre-Preise. |
| Empfehlungen nach Anforderungen | Empfohlen für Anwendungen, die einen skalierbaren Objektspeicher und allgemeine Kosteneffizienz für Trainingsdatasets, asynchrones mehrstufiges Checkpointing und die Speicherung von Modellgewichten benötigen. Cloud Storage Rapid ist insbesondere für die leistungsstarke und kostengünstige Datenskalierung zu empfehlen. |
Empfohlen für Anwendungen, die ein vollständig POSIX-konformes paralleles Dateisystem oder Home-Verzeichnisse benötigen. Auch für latenzempfindliche oder Arbeitslasten mit hoher Metadaten-Concurrency wie KV-Caching-Offloads, synchrones Checkpointing und schnelle Gewichtspropagierung für Reinforcement Learning empfohlen. |
Empfehlungen für Speicherdienste nach Anwendungsfall
| Anwendungsfall | Empfehlung für Speicherdienst | Grund für Empfehlung |
|---|---|---|
| Datasets trainieren und vorbereiten | Primäre Empfehlung: Cloud Storage Rapid Bucket | Cloud Storage-Buckets bieten die Kapazität, den Durchsatz, die Kosteneffizienz und die Langlebigkeit, die häufig für große Mengen an Trainings- und Inferenz-Datasets erforderlich sind. Wenn Sie mit Rapid Bucket einen zonalen Bucket erstellen, profitiert dieser von einem sehr hohen Durchsatz (bis zu 15 TB/s) und einer Latenz von weniger als einer Millisekunde für geöffnete Dateien zu optimalen Kosten. |
| Zweite Empfehlung: Managed Lustre | Managed Lustre bietet eine Latenz von weniger als einer Millisekunde. Sie ist hilfreich als dedizierter, ultraschneller Arbeitsbereich für Ihre rechenintensivsten Trainings- und Dataset-Vorbereitungsaufgaben, bei denen niedrige Latenz und Metadaten-Concurrency-Leistung eine hohe Priorität haben. | |
| Modellgewichte für Prüfpunkte oder Gewichtsübertragungen verschieben oder speichern | Primäre Empfehlung: Managed Lustre | Managed Lustre bietet Latenzzeiten im Submillisekundenbereich und parallelen Datenzugriff. So können Tausende von Rollout-Workern gleichzeitig auf dieselbe Gewichtsdatei zugreifen, ohne dass es zu Verlangsamungen kommt. |
| Zweite Empfehlung: Cloud Storage Rapid Bucket | Rapid Bucket eignet sich gut für asynchrones mehrstufiges oder verteiltes Checkpointing, wenn es mit GCSFS über fsspec oder Cloud Storage FUSE mit clientseitiger Leistungsoptimierung verwendet wird.
|
|
| Modelle für die Inferenz speichern und herunterladen | Primäre Empfehlung: Cloud Storage Rapid Cache oder Rapid Bucket | Rapid Cache fungiert als Booster, der den Kaltstart der Inferenz reduziert. Mit Rapid Cache können die Modellgewichte in derselben Zone wie Ihre Inferenzknoten vorab geladen werden. So kann eine neue Inferenzinstanz die Modellgewichte schnell herunterladen und die erste Anfrage verarbeiten. Rapid Bucket dient als leistungsstarke, beschleunigte zonale Speicher-Engine, mit der Sie Modellgewichte in derselben Zone wie Ihre Inferenzflotte speichern können. Für die Modellbereitstellung empfehlen wir die Verwendung von Run:ai Model Streamer for vLLM für maximale Downloadleistung. Bei anderen Inferenzstacks kann die Optimierung der Parameter für den parallelen Download von Cloud Storage FUSE die Kaltstartlatenz beim Herunterladen von Modellgewichten erheblich verringern. |
| Zweite Empfehlung: Managed Lustre | Managed Lustre bietet Latenzen von unter einer Millisekunde und parallelen Datenzugriff, was sich positiv auf leistungssensible Modelle und die Skalierung von gleichzeitigen GPUs auswirkt, die dasselbe Modell gleichzeitig herunterladen. | |
| KV-Cache-Offloading | Primäre Empfehlung: Managed Lustre | Managed Lustre bietet eine Latenz von weniger als einer Millisekunde und parallelen Datenzugriff. So können verschiedene Knoten den KV-Cache „abrufen“ und Chats fortsetzen, ohne den gesamten Chatverlauf neu zu verarbeiten. |
Nächste Schritte
Weitere Informationen zu Cloud Storage Rapid, einer Produktfamilie in Cloud Storage, die für KI, ML und datenintensive Analysen entwickelt wurde.
Hier erfahren Sie, wie Sie die Leistung beim Herunterladen von Datasets mit Cloud Storage FUSE oder dem Cloud Storage FUSE CSI-Treiber optimieren.
Informationen zum Beschleunigen des Ladens von Modellen in Google Kubernetes Engine