Google Cloud a dévoilé aujourd’hui son moteur colonnaire Spanner en préversion publique, offrant des vitesses de requêtes analytiques jusqu’à 200 fois plus rapides tout en conservant des capacités transactionnelles en temps réel. La nouvelle architecture à double stockage permet à la base de données Cloud Spanner de traiter simultanément les charges de travail opérationnelles et analytiques sans dégradation des performances, la positionnant comme une solution unifiée pour les organisations cherchant à éliminer les pipelines de données complexes entre systèmes transactionnels et analytiques.
L’amélioration consiste à maintenir les données à la fois dans des formats orientés lignes et orientés colonnes, le processeur de requêtes de Spanner dirigeant automatiquement les demandes vers le niveau de stockage optimal. Les courtes requêtes transactionnelles continuent d’utiliser le stockage en ligne pour des opérations à haut débit, tandis que les requêtes analytiques exploitent le stockage colonnaire pour des balayages et des agrégations à grande échelle, selon la documentation de Google Cloud.
Le système emploie l’exécution vectorisée, traitant les données par lots plutôt que ligne par ligne pour obtenir ses gains de performance. Les benchmarks de Google Cloud utilisant Clickbench ont montré que certaines requêtes s’exécutent 46,3 fois et 58,6 fois plus rapidement sur un seul nœud, contribuant à l’affirmation globale selon laquelle les charges analytiques peuvent être accélérées jusqu’à 200 fois.
Apache Iceberg Integration
Une décision architecturale clé concerne l’intégration de Spanner avec les lakehouses Apache Iceberg via ce que Google nomme un modèle de « reverse ETL ». Plutôt que d’interroger directement les fichiers Iceberg dans les lacs de données, Spanner ingère des données triées depuis le stockage à froid et les transforme en données opérationnelles actives pour un accès à faible latence, a expliqué l’entreprise dans son billet de blog.
L’intégration repose sur plusieurs mécanismes, la composante BigLake de BigQuery servant de connecteur principal pour lire les tables Iceberg dans le Google Cloud Storage. Les organisations peuvent aussi utiliser les modèles Dataflow pour des pipelines complexes ou connecter des données depuis des plateformes comme Databricks UniForm et Snowflake via BigQuery, élargissant l’interopérabilité du système.
Commercial Impact and Availability
Les premiers adoptants incluent Palo Alto Networks, qui nécessite des analyses de détection de menaces en temps réel, et Vodafone, cherchant à faire le pont entre données analytiques et opérationnelles pour améliorer l’expérience client, selon l’annonce de Google Cloud.
Le moteur colonnaire est actuellement disponible en préversion publique, avec une tarification basée sur la consommation de stockage. L’activation de la fonctionnalité crée des représentations colonnaires supplémentaires facturées selon les tarifs de stockage standard de Spanner, indique la documentation Google Cloud. Les limitations notables durant la préversion concernent des sauvegardes d’instances ne contenant pas de données colonnaires et des impacts potentiels sur les performances dus à des mises à jour à haut débit ou des insertions aléatoires.
Le système offre aussi une intégration directe avec Vertex AI, permettant aux utilisateurs d’invoquer des modèles d’apprentissage automatique dans des requêtes SQL via la fonction ML.PREDICT, positionnant Spanner à la fois comme une base de données et une couche de service pour les applications pilotées par l’IA.
Sources
- Blog de Google Cloud
- Documentation de Google Cloud

