Por qué el nuevo motor de Google Spanner lo cambia todo

Google Cloud ha presentado hoy su motor columnar de Spanner en vista previa pública, ofreciendo velocidades de consulta analítica hasta 200 veces más rápidas, manteniendo al mismo tiempo las capacidades transaccionales en tiempo real. La nueva arquitectura de almacenamiento dual permite a la base de datos Cloud Spanner procesar cargas de trabajo operativas y analíticas simultáneamente sin degradación del rendimiento, posicionándolo como una solución unificada para las organizaciones que buscan eliminar complejos flujos de datos entre sistemas transaccionales y analíticos.

La mejora funciona manteniendo los datos en formatos basados en filas y columnas simultáneamente, con el procesador de consultas de Spanner dirigiendo automáticamente las solicitudes a la capa de almacenamiento óptima. Las consultas transaccionales breves continúan utilizando el almacén de filas para operaciones de alto rendimiento, mientras que las consultas analíticas aprovechan el almacén columnar para escaneos y agregaciones a gran escala, según la documentación de Google Cloud.

El sistema emplea ejecución vectorizada, procesando datos en lotes en lugar de fila por fila para lograr sus mejoras de rendimiento. Las pruebas de referencia de Google Cloud utilizando Clickbench mostraron consultas específicas ejecutándose 46,3 veces y 58,6 veces más rápido en un solo nodo, contribuyendo a las afirmaciones de mejora general de una aceleración de hasta 200 veces para cargas de trabajo analíticas.

Integración con Apache Iceberg

Una decisión arquitectónica clave implica la integración de Spanner con los lakehouses de Apache Iceberg a través de lo que Google denomina un patrón de «ETL inverso». En lugar de consultar directamente archivos Iceberg en lagos de datos, Spanner ingiere datos tratados desde el almacenamiento en frío y los transforma en datos operativos en caliente para lograr un acceso de baja latencia, según explicó la empresa en su blog.

La integración se sustenta en varias vías, con el componente BigLake de BigQuery actuando como conector principal para leer tablas Iceberg en Google Cloud Storage. Las organizaciones también pueden usar plantillas de Dataflow para flujos de datos complejos o conectar datos desde plataformas como Databricks UniForm y Snowflake a través de BigQuery, ampliando así la interoperabilidad del sistema.

Impacto comercial y disponibilidad

Entre los primeros usuarios se encuentran Palo Alto Networks, que requiere información estratégica de detección de amenazas en tiempo real, y Vodafone, que busca conectar datos analíticos y operativos para mejorar la experiencia del cliente, según el anuncio de Google Cloud.

El motor columnar está actualmente disponible en vista previa pública, con precios basados en el consumo de almacenamiento. Habilitar la función crea representaciones columnares adicionales que se facturan a las tarifas de almacenamiento estándar de Spanner, según la documentación de Google Cloud. Las limitaciones señaladas durante la vista previa incluyen copias de seguridad de instancias que no contienen datos columnares y posibles impactos en el rendimiento debido a actualizaciones de alta frecuencia o inserciones aleatorias.

El sistema también cuenta con una integración directa con Vertex AI, lo que permite a los usuarios invocar modelos de aprendizaje automático dentro de consultas SQL utilizando la función ML.PREDICT, posicionando a Spanner tanto como una base de datos como una capa de servicio para aplicaciones impulsadas por IA.

Sources

Blog de Google Cloud
Documentación de Google Cloud

Por qué el nuevo motor de Google Spanner lo cambia todo

La newsletter del futuro

Integración con Apache Iceberg

Impacto comercial y disponibilidad

Sources

La newsletter del futuro