Dataflow

Google Cloud ha sido designado como uno de los líderes en el informe The Forrester Wave del 2023 sobre plataformas de datos de streaming. Más información

Ir a

Dataflow

Procesamiento de datos de streaming y por lotes unificado, rápido, rentable y sin servidor

Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Dataflow.

Probar Dataflow gratis Contactar con Ventas

Información valiosa y activación en tiempo real con flujos de datos y aprendizaje automático
Servicio totalmente gestionado de procesamiento de datos
Aprovisionamiento y gestión automáticos de recursos de procesamiento
Autoescalado horizontal y vertical de recursos de trabajadores para sacarles el máximo partido
Innovación en software libre motivada por la comunidad mediante el SDK de Apache Beam

Miniatura de un gran edificio sobre el que se muestra un icono de Dataflow. A su derecha, un hombre hace malabares con los iconos de Pub/Sub, Cloud Storage y Cloud AutoML

VÍDEO

Aprende a usar Dataflow en un minuto, incluido su funcionamiento y algunos de los usos más habituales.

1:48

Ventajas

Haz analíticas de datos de streaming con rapidez

Dataflow permite desarrollar flujos de procesamiento de datos de streaming con menos latencia de datos de manera rápida y más sencilla.

Simplifica las operaciones y la gestión

Como Dataflow funciona sin servidor, desaparece la sobrecarga operativa que generan las cargas de trabajo de ingeniería de datos. Así, los equipos se pueden dedicar a programar en lugar de a gestionar clústeres de servidores.

Reduce el coste total de propiedad

Dataflow combina el autoescalado de recursos con las funciones de procesamiento por lotes con optimización de costes. Por eso, ofrece una capacidad casi ilimitada para gestionar cargas de trabajo temporales y con picos, y sin gastar más de la cuenta.

Características principales

IA en tiempo real lista para usar

Las funciones de IA en tiempo real de Dataflow se habilitan con funciones de aprendizaje automático listas para usar, como GPU NVIDIA y patrones listos para usarse, y permiten generar reacciones en tiempo real con inteligencia casi humana a grandes cantidades de eventos.

Los clientes pueden elaborar soluciones inteligentes de todo tipo, como análisis predictivos, detección de anomalías, personalización en tiempo real y otros usos de analíticas avanzadas.

Entrena, despliega y gestiona flujos de procesamiento de aprendizaje automático completos, incluidas la inferencia local y remota, mediante flujos de procesamiento por lotes y de streaming.

Autoescalado de recursos y restablecimiento dinámico del equilibrio de trabajo

Reduce al mínimo la latencia del flujo de procesamiento, aumenta la utilización de recursos y disminuye los costes de procesamiento de los registros de datos mediante el autoescalado de recursos basado en datos. El sistema realiza particiones automáticas de las entradas de datos que, a su vez, se nivelan constantemente para equilibrar la utilización de recursos de trabajadores y reducir el efecto de las "claves en caliente" en el rendimiento del flujo de procesamiento.

Monitorización y observabilidad

Observa los datos en cada paso de un flujo de procesamiento de Dataflow. Diagnostica problemas y soluciónalos de forma eficaz con muestras de datos reales. Compara diferentes ejecuciones de la tarea para identificar problemas fácilmente.

Ver todas las características

Captura de pantalla de una aplicación para comprar donde se muestran varios modelos de zapatillas

VÍDEO

Mejora las experiencias de comercio online con ofertas personalizadas en tiempo real (Demostración)

7:18

Clientes

Aprende de clientes que usan Dataflow

Blog post

Cómo solucionó Renault los desafíos en cuanto al escalado y los costes con Dataflow y BigQuery.

Lectura de 5 minutos

Case study

Dow Jones saca a la luz conjuntos de datos sobre eventos históricos clave con Dataflow.

Lectura de 5 minutos

Case study

Sky actualiza su plataforma de Big Data para satisfacer las necesidades de sus productos de última generación.

Lectura de 5 minutos

Case study

Unity utiliza Dataflow para transformar datos en información valiosa, decisiones y productos.

46:29

Ver todos los clientes

Novedades

Regístrate en la versión de vista previa de Dataflow Prime.

Miniatura donde se representan datos que salen desde unas marcas de verificación verdes y que, a través de llaves amarillas, llegan a un escudo azul sobre una nube con un candado blanco.

Blog post

La nueva generación de Dataflow: Dataflow Prime, Dataflow Go y Dataflow MLLeer el blog

Blog post

Google Cloud recibe la designación de líder en el informe The Forrester Wave™: Streaming Analytics correspondiente al segundo trimestre del 2021Leer el blog

Blog post

Mejora a la gestión de los datos con la GPU de DataflowLeer el blog

Lupa con el logotipo de Google Cloud junto a un gráfico de barras

Blog post

Dataflow Prime aporta sencillez y eficacia a la hora de procesar big dataLeer el blog

Video

Obtener valor de forma instantánea con analíticas en tiempo realVer vídeo

Blog post

Real-time Change Data Capture for data replication into BigQueryLeer el blog

Documentación

Tutorial

Procesamiento de datos sin servidor con Dataflow: Foundations

Formación básica sobre todo lo que necesitas saber sobre Dataflow.

Más información

Tutorial

Guía de inicio rápido de Dataflow con Python

Configura tu proyecto de Google Cloud y el entorno de desarrollo de Python, hazte con el SDK de Apache Beam para Python y ejecuta y modifica el ejemplo de WordCount en el servicio Dataflow.

Más información

Tutorial

Usar Dataflow SQL

Usa la interfaz de usuario de Dataflow SQL para crear consultas SQL y desplegar las tareas de Dataflow que las ejecutan.

Más información

Tutorial

Instalar el SDK de Apache Beam

Instala el SDK de Apache Beam para ejecutar los flujos de procesamiento en el servicio Dataflow.

Más información

Tutorial

Aprendizaje automático con Apache Beam y TensorFlow

Preprocesa y entrena modelos de aprendizaje automático de energía molecular con Apache Beam, Dataflow y TensorFlow. Después, úsalos para hacer predicciones.

Más información

Tutorial

Tutorial de recuento de palabras de Dataflow usando Java

En este tutorial, aprenderás los conceptos básicos del servicio Cloud Dataflow. Para ello, ejecutarás un sencillo flujo de procesamiento de ejemplo usando el SDK de Apache Beam para Java.

Más información

Tutorial

Experimentos prácticos: procesar datos con Google Cloud Dataflow

Descubre cómo procesar un conjunto de datos basado en texto en tiempo real mediante Python y Dataflow para, posteriormente, almacenarlo en BigQuery.

Más información

Tutorial

Experimentos prácticos: procesamiento de streaming con Pub/Sub y Dataflow

Aprende a usar Dataflow para leer mensajes publicados en un tema de Pub/Sub, visualizar mensajes en función de sus marcas de tiempo y escribir mensajes en Cloud Storage.

Más información

Google Cloud Basics

Recursos de Dataflow

Consulta información sobre precios, cuotas de recursos y preguntas frecuentes, entre otros.

Más información

¿No encuentras lo que buscas?

Ver toda la documentación de producto

Notas de la versión

Más información sobre las últimas versiones de Dataflow

Casos prácticos

Caso práctico

Analíticas de streaming

Gracias a las analíticas de streaming de Google, los datos están más organizados y son más útiles. Además, puedes acceder a ellos desde el instante en que se generan. Nuestra solución de streaming se basa en Dataflow, en Pub/Sub y en BigQuery. Aprovisiona los recursos que hacen falta para ingerir, procesar y analizar volúmenes variables de datos en tiempo real para obtener información empresarial útil al instante. Además de reducir la complejidad, este aprovisionamiento abstracto facilita que tanto analistas como ingenieros de datos hagan analíticas en tiempo real.

Flujo de 5 columnas: Activadores, Ingestión, Enriquecimiento, Análisis y Activación. Cada columna tiene una sección superior y otra inferior. En la sección superior de la columna Activadores se muestran varios dispositivos perimetrales (dispositivos móviles, sitios web, almacenes de datos e Internet de las cosas). Desde los dispositivos, los datos pasan a Pub/Sub, en la columna Ingestión y, después, a Apache Beam y al streaming de Dataflow, en la columna Enriquecimiento. Después, pasan a la columna Análisis y Activación, desde donde vuelven a los dispositivos perimetrales de la columna 1. Los datos van y vienen desde Apache Beam, en la columna 3, hacia BigQuery, AI Platform y Bigtable, en la columna Análisis. Los tres elementos pasan por la reposición y el reprocesamiento por lotes de Dataflow. Después, los datos pasan desde BigQuery a la columna Activación y, en concreto, a Data Studio, las herramientas de inteligencia empresarial de terceros y Cloud Functions, desde donde vuelven a los dispositivos perimetrales en la columna 1. En la sección inferior de las columnas, aparece el texto "Flujo de creación". En la columna Activadores se muestra el texto "Configura una fuente para enviar los mensajes de evento al tema de Pub/Sub". En la columna Ingestión, se lee "Crea temas de Pub/Sub y suscripciones" En la columna Enriquecimiento, se muestra el texto "Despliega tareas de Dataflow de streaming o por lotes con plantillas, la interfaz de línea de comandos o los cuadernos". En la columna Análisis se lee "Crea conjuntos de datos, tablas y modelos para recibir la emisión". Finalmente, en la columna Activación, se muestra el texto "Crea paneles en tiempo real y haz llamadas a APIs externas".

Caso práctico

Inteligencia artificial en tiempo real

Dataflow envía eventos de streaming a las soluciones AI Platform y TensorFlow Extended (TFX) de Google Cloud para habilitar las analíticas predictivas, la detección de fraudes, la personalización en tiempo real y otros usos de analíticas avanzadas. TFX usa Dataflow y Apache Beam como motor de procesamiento distribuido de datos en diversos aspectos del ciclo de vida del aprendizaje automático, y todos ellos son compatibles con la integración y la entrega continuas (CI/CD) para aprendizaje automático mediante flujos de procesamiento de Kubeflow.

Pattern

Detección de anomalías

Identifica y soluciona problemas en tiempo real con la detección de valores atípicos en el ámbito del software malicioso, las actividades de cuentas, las transacciones financieras y mucho más.

Más información

Pattern

Reconocimiento de patrones

Optimiza las operaciones y la experiencia de los clientes con la detección de patrones en imágenes, vídeos y datos.

Más información

Pattern

Previsión predictiva

Predice flujos de datos de series temporales que abarcan desde las actividades de los usuarios hasta el estado de tus equipos para solucionar de forma proactiva los problemas que surjan.

Más información

Caso práctico

Procesamiento de datos de sensores y de registros

Obtén información valiosa para tu empresa a partir de tu red mundial de dispositivos con una plataforma inteligente del Internet de las cosas.

Ver todas las guías técnicas

Todas las características

Dataflow ML	Despliega y gestiona fácilmente los flujos de procesamiento de aprendizaje automático. Usa modelos de aprendizaje automático para realizar inferencias locales y remotas con flujos de procesamiento por lotes y en streaming. Utiliza herramientas de procesamiento de datos para preparar tus datos para el entrenamiento de modelos y procesar sus resultados.
GPU de Dataflow	Sistema de tratamiento de datos optimizado para mejorar el rendimiento y el coste de uso de la GPU. Compatibilidad con una amplia gama de GPUs NVIDIA.
Autoescalado vertical	Ajusta dinámicamente la capacidad de computación asignada a cada trabajador según el uso. El autoescalado vertical va de la mano del autoescalado horizontal para adaptar los trabajadores a las necesidades del flujo de procesamiento sin problemas y de la forma más adecuada.
Autoescalado horizontal	Con el autoescalado horizontal, el servicio Dataflow puede seleccionar de forma automática la cantidad adecuada de instancias de trabajador necesarias para ejecutar las tareas. También es posible reasignar de manera dinámica más o menos trabajadores durante la ejecución de las tareas para adaptarse a sus requisitos específicos.
Ajuste adecuado	Con la función de ajuste adecuado, se crean grupos de recursos específicos que se optimizan para cada fase con el objetivo de reducir el desaprovechamiento de recursos.
Diagnósticos inteligentes	Conjunto de varias funciones. En primer lugar, se incluye la gestión de flujos de procesamiento de datos basados en objetivos de nivel de servicio. En segundo lugar, se ofrecen funciones de visualización que permiten a los usuarios inspeccionar su gráfico de tareas de una forma visual e identificar cuellos de botella. Por último, se incluyen recomendaciones automáticas para identificar y ajustar los problemas de rendimiento y disponibilidad.
Streaming Engine	Streaming Engine separa la computación del espacio de almacenamiento de estados y traslada partes de la ejecución de flujos de procesamiento fuera de las máquinas virtuales de trabajadores para ubicarlas en el backend del servicio Dataflow. Eso mejora considerablemente el autoescalado y la latencia de los datos.
Dataflow Shuffle	La función basada en servicios Dataflow Shuffle hace que la operación Shuffle, que se utiliza para agrupar y unir datos de flujos de procesamiento por lotes, se realice en el backend del servicio Dataflow en lugar de en las máquinas virtuales de trabajadores. De este modo, los flujos de procesamiento por lotes se pueden escalar de manera óptima y sin necesidad de ajustes para manejar cientos de terabytes.
Dataflow SQL	Dataflow SQL te permite aplicar tus conocimientos de SQL para desarrollar flujos de procesamiento de streaming de Dataflow directamente desde la interfaz web de BigQuery. Puedes combinar los datos de streaming de Pub/Sub con archivos de Cloud Storage o tablas de BigQuery, escribir resultados en BigQuery y crear paneles en tiempo real mediante Hojas de cálculo de Google u otras herramientas de inteligencia empresarial.
FlexRS	Dataflow FlexRS reduce los costes del procesamiento por lotes mediante técnicas avanzadas de programación, el servicio Dataflow Shuffle y una combinación de instancias de máquina virtual interrumpible y máquinas virtuales convencionales.
plantillas de Dataflow	Con las plantillas de Dataflow, podrás compartir fácilmente tus flujos de procesamiento con los miembros del equipo y con toda la organización. Si lo prefieres, también puedes utilizar alguna de las muchas plantillas creadas por Google para implementar tareas de procesamiento de datos sencillas pero útiles. Se incluyen plantillas de captura de datos de cambios para casos prácticos de analíticas en tiempo real. Con las plantillas flexibles, podrás crear plantillas a partir de cualquier flujo de procesamiento de Dataflow.
Integración con Notebooks	Crea flujos de procesamiento desde cero de forma iterativa con Vertex AI Notebooks y despliégalos con el ejecutor de Dataflow. Para crear flujos de procesamiento de Apache Beam paso a paso, inspecciona los gráficos de los flujos en un flujo de trabajo de lectura, evaluación, impresión y bucle (REPL). Con Notebooks, que está disponible en Vertex AI de Google, podrás escribir flujos de procesamiento en un entorno intuitivo gracias a los frameworks de ciencia de datos y de aprendizaje automático de última generación.
Captura de datos de cambios en tiempo real	Sincroniza o replica datos de forma fiable y con una latencia mínima en fuentes de datos heterogéneas para mejorar las analíticas en tiempo real. Las plantillas de Dataflow ampliables se integran con Datastream para replicar datos procedentes de Cloud Storage en BigQuery, PostgreSQL o Spanner. El conector de Debezium de Apache Beam es una opción de código abierto para ingerir los cambios de datos desde MySQL, PostgreSQL, SQL Server y Db2.
Monitorización integrada	Con la monitorización integrada de Dataflow, podrás acceder directamente a las métricas de las tareas para solucionar problemas en los flujos de procesamiento por lotes y de streaming. Podrás acceder a los gráficos de monitorización desde los niveles de visibilidad de paso y de trabajador, así como configurar alertas según condiciones concretas, como que haya datos inactivos o que la latencia del sistema sea elevada.
Claves de encriptado gestionadas por el cliente	Puedes crear flujos de procesamiento por lotes o de streaming y protegerlos con claves de encriptado gestionadas por el cliente (CMEK), así como acceder a datos de fuentes y de sumideros que estén protegidos con ese tipo de claves.
Controles de Servicio de VPC de Dataflow	Gracias a la integración de Dataflow con los Controles de Servicio de VPC, te resultará más fácil evitar las filtraciones externas de datos. Esta capa de seguridad adicional reforzará tu entorno de procesamiento de datos.
IP privadas	Si desactivas las IP públicas, proteges mejor la infraestructura de procesamiento de datos. Al no utilizar direcciones IP públicas para tus trabajadores de Dataflow, también reduces el número de direcciones que consumes de cara a la cuota de tus proyectos de Google Cloud.

Precios

Las tareas de Dataflow se facturan por segundos, según el uso real de trabajadores de procesamiento por lotes o de streaming de Dataflow. Si utilizas otros recursos, como Cloud Storage o Pub/Sub, se te cobrarán las tarifas correspondientes a cada servicio.

Ver detalles de precios

Partners

Descubrir soluciones de partners

Algunos Google Cloud Partners han desarrollado integraciones con Dataflow para ejecutar tareas potentes de procesamiento de datos de forma rápida y sencilla, independientemente de su tamaño.

Ver todos los partners

Los productos de inteligencia artificial de Cloud cumplen las políticas del acuerdo de nivel de servicio. Pueden ofrecer garantías de latencia o disponibilidad diferentes respecto a otros servicios de Google Cloud.

Ve un paso más allá

Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.

Probar Dataflow gratis

¿Necesitas ayuda para empezar?
Contactar con Ventas
Trabaja con un partner de confianza
Buscar un partner
Sigue explorando
Ver todos los productos

Haz analíticas de datos de streaming con rapidez

Simplifica las operaciones y la gestión

Reduce el coste total de propiedad

Características principales

IA en tiempo real lista para usar

Autoescalado de recursos y restablecimiento dinámico del equilibrio de trabajo

Monitorización y observabilidad

Aprende de clientes que usan Dataflow

Novedades

Documentación

Procesamiento de datos sin servidor con Dataflow: Foundations

Guía de inicio rápido de Dataflow con Python

Usar Dataflow SQL

Instalar el SDK de Apache Beam

Aprendizaje automático con Apache Beam y TensorFlow

Tutorial de recuento de palabras de Dataflow usando Java

Experimentos prácticos: procesar datos con Google Cloud Dataflow

Experimentos prácticos: procesamiento de streaming con Pub/Sub y Dataflow

Recursos de Dataflow

¿No encuentras lo que buscas?

Consulta más documentación

Casos prácticos

Analíticas de streaming

Inteligencia artificial en tiempo real

Procesamiento de datos de sensores y de registros

Todas las características

Precios

Descubrir soluciones de partners

Ve un paso más allá

¿Necesitas ayuda para empezar?

Trabaja con un partner de confianza

Sigue explorando