Vue intérieure de la réception des bureaux de Google Cloud, avec une femme debout près d'un comptoir et des supports promotionnels exposés.

Pourquoi le nouveau moteur de Google Spanner change la donne

Google Cloud a dévoilé aujourd’hui son moteur colonnaire Spanner en préversion publique, offrant des vitesses de requêtes analytiques jusqu’à 200 fois plus rapides tout en conservant des capacités transactionnelles en temps réel. La nouvelle architecture à double stockage permet à la base de données Cloud Spanner de traiter simultanément les charges de travail opérationnelles et analytiques sans dégradation des performances, la positionnant comme une solution unifiée pour les organisations cherchant à éliminer les pipelines de données complexes entre systèmes transactionnels et analytiques.

L’amélioration consiste à maintenir les données à la fois dans des formats orientés lignes et orientés colonnes, le processeur de requêtes de Spanner dirigeant automatiquement les demandes vers le niveau de stockage optimal. Les courtes requêtes transactionnelles continuent d’utiliser le stockage en ligne pour des opérations à haut débit, tandis que les requêtes analytiques exploitent le stockage colonnaire pour des balayages et des agrégations à grande échelle, selon la documentation de Google Cloud.

Le système emploie l’exécution vectorisée, traitant les données par lots plutôt que ligne par ligne pour obtenir ses gains de performance. Les benchmarks de Google Cloud utilisant Clickbench ont montré que certaines requêtes s’exécutent 46,3 fois et 58,6 fois plus rapidement sur un seul nœud, contribuant à l’affirmation globale selon laquelle les charges analytiques peuvent être accélérées jusqu’à 200 fois.

Apache Iceberg Integration

Une décision architecturale clé concerne l’intégration de Spanner avec les lakehouses Apache Iceberg via ce que Google nomme un modèle de « reverse ETL ». Plutôt que d’interroger directement les fichiers Iceberg dans les lacs de données, Spanner ingère des données triées depuis le stockage à froid et les transforme en données opérationnelles actives pour un accès à faible latence, a expliqué l’entreprise dans son billet de blog.

L’intégration repose sur plusieurs mécanismes, la composante BigLake de BigQuery servant de connecteur principal pour lire les tables Iceberg dans le Google Cloud Storage. Les organisations peuvent aussi utiliser les modèles Dataflow pour des pipelines complexes ou connecter des données depuis des plateformes comme Databricks UniForm et Snowflake via BigQuery, élargissant l’interopérabilité du système.

Commercial Impact and Availability

Les premiers adoptants incluent Palo Alto Networks, qui nécessite des analyses de détection de menaces en temps réel, et Vodafone, cherchant à faire le pont entre données analytiques et opérationnelles pour améliorer l’expérience client, selon l’annonce de Google Cloud.

Le moteur colonnaire est actuellement disponible en préversion publique, avec une tarification basée sur la consommation de stockage. L’activation de la fonctionnalité crée des représentations colonnaires supplémentaires facturées selon les tarifs de stockage standard de Spanner, indique la documentation Google Cloud. Les limitations notables durant la préversion concernent des sauvegardes d’instances ne contenant pas de données colonnaires et des impacts potentiels sur les performances dus à des mises à jour à haut débit ou des insertions aléatoires.

Le système offre aussi une intégration directe avec Vertex AI, permettant aux utilisateurs d’invoquer des modèles d’apprentissage automatique dans des requêtes SQL via la fonction ML.PREDICT, positionnant Spanner à la fois comme une base de données et une couche de service pour les applications pilotées par l’IA.

Sources

  • Blog de Google Cloud
  • Documentation de Google Cloud

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.