Google Cloud hat heute die öffentliche Vorschau seiner Spanner Columnar Engine vorgestellt und bietet analytische Abfragegeschwindigkeiten, die bis zu 200-mal schneller sind, während Transaktionsfähigkeiten in Echtzeit erhalten bleiben. Die neue Dual-Speicher-Architektur ermöglicht es der Cloud Spanner-Datenbank, sowohl operative als auch analytische Workloads gleichzeitig und ohne Leistungseinbußen zu verarbeiten. Dies positioniert sie als eine einheitliche Lösung für Organisationen, die komplexe Datenpipelines zwischen transaktionalen und analytischen Systemen eliminieren möchten.
Die Verbesserung wird erzielt, indem Daten gleichzeitig in zeilen- und spaltenbasierten Formaten vorgehalten werden, wobei Spanners Query Processor Anfragen automatisch an die optimale Speicherebene weiterleitet. Kurze transaktionale Abfragen nutzen weiterhin den Row Store für Hochdurchsatz-Operationen, während analytische Abfragen laut der Google Cloud-Dokumentation den Columnar Store für umfangreiche Scans und Aggregationen verwenden.
Das System nutzt vektorisierte Ausführung und verarbeitet Daten in Batches statt zeilenweise, um seine Leistungsgewinne zu erzielen. Die Google Cloud-Benchmarks mit Clickbench zeigten, dass bestimmte Abfragen auf einem einzelnen Knoten um das 46,3-fache und 58,6-fache schneller liefen, was die allgemeinen Aussagen zur bis zu 200-fachen Beschleunigung bei analytischen Workloads stützt.
Apache Iceberg Integration
Eine zentrale Architekturentscheidung betrifft die Integration von Spanner mit Apache Iceberg Lakehouses über ein Muster, das Google als „Reverse ETL“ bezeichnet. Anstatt Iceberg-Dateien in Data Lakes direkt abzufragen, nimmt Spanner kuratierte Daten aus dem Cold Storage auf und transformiert sie in operative Hot Data für den Zugriff mit geringer Latenz, wie das Unternehmen in seinem Blogbeitrag erklärte.
Die Integration erfolgt über mehrere Pfade, wobei die Komponente BigQuery BigLake als primärer Connector zum Lesen von Iceberg-Tabellen in Google Cloud Storage dient. Organisationen können auch Dataflow-Templates für komplexe Pipelines nutzen oder Daten aus Plattformen wie Databricks UniForm und Snowflake über BigQuery anbinden, wodurch die Interoperabilität des Systems erweitert wird.
Kommerzieller Einfluss und Verfügbarkeit
Zu den ersten Anwendern zählen Palo Alto Networks, die Daten zur Bedrohungserkennung in Echtzeit benötigen, sowie Vodafone, die darauf abzielen, analytische und operative Daten zu verknüpfen, um das Kundenerlebnis zu verbessern, so die Ankündigung von Google Cloud.
Die Spanner Columnar Engine ist derzeit in der Public Preview verfügbar, wobei die Preisgestaltung auf dem Speicherverbrauch basiert. Wenn das Feature aktiviert ist, entstehen zusätzliche spaltenbasierte Repräsentationen, die zu den Standard-Spanner-Speicherpreisen abgerechnet werden, heißt es in der Google Cloud-Dokumentation. Während der Vorschau sind Einschränkungen zu beachten, wie etwa Instanz-Backups, die keine Columnar-Daten enthalten, sowie potenzielle Leistungsbeeinträchtigungen durch hochfrequente Updates oder zufällige Inserts.
Das System bietet zudem eine direkte Integration mit Vertex AI, die es Nutzern ermöglicht, Machine-Learning-Modelle innerhalb von SQL-Abfragen über die ML.PREDICT-Funktion aufzurufen, womit Spanner sowohl als Datenbank als auch als Serving Layer für KI-gesteuerte Anwendungen positioniert wird.
Sources
- Google Cloud Blog
- Google Cloud Documentation

