Dataflow

Google Cloud ha ricevuto il titolo di Leader nel report 2023 Forrester Wave: Streaming Data Platforms. Ulteriori informazioni.

Vai a

Dataflow

Elaborazione unificata dei dati in modalità flusso e batch serverless, veloce e conveniente.

I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere su Dataflow.

Prova Dataflow gratuitamente Contatta il team di vendita

Insight e attivazione in tempo reale con flussi di dati e machine learning
Servizio di elaborazione dati completamente gestito
Provisioning e gestione automatizzati delle risorse di elaborazione
Scalabilità automatica orizzontale e verticale delle risorse worker per massimizzare l'utilizzo delle risorse
Innovazione guidata dalla community del software open source con l'SDK Apache Beam

Immagine in miniatura di un edificio di grandi dimensioni sovrastato dall'icona di Daflow e sulla destra un uomo che fa roteare le icone di Pub/Sub, Cloud Storage e Cloud AutoML

VIDEO

Scopri Dataflow, il suo funzionamento e i casi d'uso più comuni in un minuto.

1:48

Vantaggi

Analizza rapidamente i flussi di dati

Dataflow velocizza e semplifica lo sviluppo di pipeline di dati in modalità flusso garantendo una latenza dei dati minore.

Semplifica operazioni e gestione

Puoi consentire ai team di concentrarsi sulla programmazione invece che sulla gestione dei cluster di server grazie all'approccio serverless di Dataflow, che elimina i problemi di sovraccarico operativo dai carichi di lavoro di data engineering.

Riduci il costo totale di proprietà

Grazie alla scalabilità automatica delle risorse e all'ottimizzazione dei costi per l'elaborazione batch, Dataflow offre una capacità praticamente illimitata per gestire i carichi di lavoro durante i picchi e i periodi di punta stagionali senza spendere troppo.

Funzionalità principali

IA in tempo reale pronta all'uso

Abilitate tramite funzionalità ML pronte all'uso, tra cui la GPU NVIDIA e pattern pronti all'uso, le funzionalità di AI in tempo reale di Dataflow consentono reazioni in tempo reale con intelligenza quasi umana a grandi flussi di eventi.

I clienti possono creare soluzioni intelligenti che vanno dall'analisi predittiva e dal rilevamento di anomalie alla personalizzazione in tempo reale e ad altri casi d'uso di analisi avanzata.

Addestra, esegui il deployment e gestisci pipeline di machine learning (ML) complete, inclusa l'inferenza locale e remota con pipeline in modalità flusso e batch.

Scalabilità automatica delle risorse e ridistribuzione dinamica del lavoro

Riduci al minimo i tempi di latenza della pipeline, ottimizza l'utilizzo delle risorse e abbatti i costi di elaborazione per record di dati mediante la scalabilità automatica delle risorse sensibili ai dati. Gli input di dati vengono partizionati automaticamente e ridistribuiti costantemente per livellare l'utilizzo delle risorse dei worker e ridurre l'effetto dei "tasti di scelta rapida" sulle prestazioni della pipeline.

Monitoraggio e osservabilità

Osserva i dati in ogni passaggio di una pipeline Dataflow. Diagnostica i problemi e risolvili in modo efficace utilizzando dei campioni di dati effettivi. Confronta diverse esecuzioni del job per identificare facilmente i problemi.

Visualizza tutte le funzionalità

Screenshot di un'app per acquisti, che mostra due righe con quattro scarpe

VIDEO

Migliora le esperienze retail online con offerte in tempo reale personalizzate: demo

7:18

Clienti

Impara dai clienti che utilizzano Dataflow

Blog post

Come Renault ha risolto le sfide di scalabilità e costi con Dataflow e BigQuery.

Lettura di 5 minuti

Case study

Dow Jones sfrutta al meglio i set di dati di eventi storici chiave con Dataflow.

Lettura di 5 minuti

Case study

Sky aggiorna la sua piattaforma di big data per soddisfare le esigenze dei suoi prodotti di nuova generazione.

Lettura di 5 minuti

Case study

Unity utilizza Dataflow per trasformare i dati in insight, decisioni e prodotti.

46:29

Visualizza tutti i clienti

Novità

Registrati per l'anteprima di Dataflow Prime.

Miniatura di dati che passano da segni di spunta verdi attraverso chiavi gialle fino a uno scudo blu nel cloud con un lucchetto bianco

Blog post

La prossima generazione di Dataflow: Dataflow Prime, Dataflow Go e Dataflow MLLeggi il blog

Blog post

Google Cloud ha ricevuto il titolo di Leader nel report The Forrester Wave™: Streaming Analytics, Q2 2021Leggi il blog

Blog post

Potenzia l'elaborazione dei dati con la GPU DataflowLeggi il blog

Blog post

Dataflow Prime, per portare efficienza e semplicità all'elaborazione dei big dataLeggi il blog

Video

Acquisizione di valore in tempo reale con l'analisi dei flussi di datiGuarda il video

Blog post

Change Data Capture in tempo reale per la replica dei dati in BigQueryLeggi il blog

Documentazione

Tutorial

Serverless Data Processing with Dataflow: Foundations

Formazione di base su tutto ciò che devi sapere su Dataflow.

Scopri di più

Tutorial

Guida rapida di Dataflow mediante Python

Configura un progetto Google Cloud e un ambiente di sviluppo Python, scarica l'SDK Apache Beam Python, quindi esegui e modifica l'esempio WordCount nel servizio Dataflow.

Scopri di più

Tutorial

Utilizzo di Dataflow SQL

Crea una query SQL ed esegui il deployment di un job Dataflow per eseguire la query SQL dall'interfaccia utente di Dataflow SQL.

Scopri di più

Tutorial

Installazione dell'SDK Apache Beam

Installa l'SDK Apache Beam per eseguire le pipeline nel servizio Dataflow.

Scopri di più

Tutorial

Machine learning con Apache Beam e TensorFlow

Preelabora, addestra ed esegui previsioni su un modello di machine learning per l'energia molecolare utilizzando Apache Beam, Dataflow e TensorFlow.

Scopri di più

Tutorial

Tutorial sul conteggio di parole Dataflow tramite Java

In questo tutorial apprenderai il funzionamento di base del servizio Cloud Dataflow eseguendo una semplice pipeline di esempio tramite l'SDK Apache Beam Java.

Scopri di più

Tutorial

Lab pratici: elaborazione dei dati con Google Cloud Dataflow

Scopri come elaborare un set di dati di testo in tempo reale utilizzando Python e Dataflow, per poi archiviarlo in BigQuery.

Scopri di più

Tutorial

Lab pratici: elaborazione dei flussi con Pub/Sub e Dataflow

Scopri come utilizzare Dataflow per leggere messaggi pubblicati per un argomento Pub/Sub, visualizzare i messaggi per timestamp e scrivere i messaggi su Cloud Storage.

Scopri di più

Google Cloud Basics

Risorse Dataflow

Trova informazioni su prezzi, quote per le risorse, domande frequenti e altro ancora.

Scopri di più

Non trovi ciò che stai cercando?

Visualizza tutta la documentazione del prodotto

Note di rilascio

Ulteriori informazioni sulle release più recenti di Dataflow

Casi d'uso

Caso d'uso

Analisi dei flussi

L'analisi dei flussi di Google rende i dati più organizzati, utili e accessibili fin dal momento in cui vengono generati. Basata su Dataflow insieme a Pub/Sub e BigQuery, la nostra soluzione per i flussi di dati fornisce le risorse necessarie per importare, elaborare e analizzare volumi variabili di dati in tempo reale per ottenere degli insight sull'attività in tempo reale. Questo provisioning astratto riduce la complessità e rende l'analisi dei flussi accessibile sia ai data analyst che ai data engineer.

Flusso tra 5 colonne, da Trigger, a Ingest, Enrich, Analyze e Activate. Ogni colonna contiene una sezione superiore e inferiore. Nella parte superiore della colonna Trigger si trovano i dispositivi periferici (dispositivi mobili, web, datastore e IoT) che passano a Pub/Sub nella colonna Ingest e poi nella colonna Enrich a Apache Beam/Dataflow Streaming, quindi passa ai riquadri Analyze e Activate da cui ritorna ai dispositivi periferici nella prima colonna. Da Apache Beam nella colonna 3, il flusso passa da/a la colonna Analyze, in BigQuery, AI Platform e Bigtable: tutti e tre provenivano da Backfill/ Reprocess - Dataflow Batch. Il flusso si sposta da BigQuery alla colonna Activate, a Data Studio, BI di terze parti e Cloud Functions, che passa di nuovo ai dispositivi periferici nella colonna 1. La sezione inferiore delle colonne riporta il flusso di creazione: Trigger indica "Configure source to push event message to Pub/Sub topic". Passa a Ingest "Create Pub/Sub Topic and subscription". Poi a Enrich "Deploy streaming or batch Dataflow job using templates, CLI, or notebooks". Poi ad Analyze "Create dataset, tables, and models to receive stream". Poi ad Activate "Build real-time dashboards and call external APIs".

Caso d'uso

AI in tempo reale

Dataflow integra gli eventi di flusso nell'ambiente Vertex AI e TensorFlow Extended (TFX) di Google Cloud per consentire l'analisi predittiva, il rilevamento delle frodi, la personalizzazione in tempo reale e altri casi d'uso di analisi avanzata. TFX utilizza Dataflow e Apache Beam come motore di elaborazione di dati distribuiti al fine di gestire vari aspetti del ciclo di vita ML, tutti supportati con CI/CD per ML tramite pipeline Kubeflow.

Pattern

Rilevamento delle anomalie

Identifica e risolvi i problemi in tempo reale con il rilevamento degli outlier relativi a malware, attività dell'account, transazioni finanziarie e altro ancora.

Scopri di più

Pattern

Riconoscimento di pattern

Ottimizza le operazioni e le esperienze cliente con il rilevamento di pattern su immagini, video e dati.

Scopri di più

Pattern

Previsione predittiva

Prevedi i flussi di dati delle serie temporali che vanno dall'attività utente all'integrità delle apparecchiature, per risolvere proattivamente i problemi.

Scopri di più

Caso d'uso

Elaborazione dei dati di sensori e log

Ricava insight sull'attività dalla tua rete di dispositivi globale grazie a una piattaforma IoT intelligente.

Visualizza tutte le guide tecniche

Tutte le funzionalità

Dataflow ML	Esegui il deployment e gestisci facilmente le pipeline di machine learning (ML). Utilizza i modelli di machine learning per eseguire l'inferenza locale e remota con pipeline in modalità flusso e batch. Utilizza gli strumenti di elaborazione dati per preparare i dati per l'addestramento del modello e per elaborare i risultati dei modelli.
GPU Dataflow	Sistema di elaborazione dati ottimizzato per le prestazioni e i costi dell'utilizzo della GPU. Supporto per un'ampia gamma di GPU NVIDIA.
Scalabilità automatica verticale	Regola dinamicamente la capacità di calcolo allocata a ciascun worker in base all'utilizzo. La scalabilità automatica verticale si integra alla perfezione con la scalabilità automatica orizzontale per scalare senza problemi i worker per adattarsi al meglio alle esigenze della pipeline.
Scalabilità automatica orizzontale	La scalabilità automatica consente al servizio Dataflow di scegliere automaticamente il numero appropriato di istanze worker necessarie per eseguire il tuo job. Il servizio Dataflow può anche riallocare dinamicamente più o meno worker durante il runtime in base alle caratteristiche del tuo job.
Adattabilità	L'adattabilità crea pool di risorse specifiche per fase, ottimizzati per ciascuna fase per ridurre lo spreco di risorse.
Diagnostica smart	Una suite di funzionalità che comprendono 1) gestione delle pipeline di dati basata su SLO, 2) funzionalità di visualizzazione del job che offrono agli utenti un modo visivo per ispezionare il grafico del job e individuare i colli di bottiglia, 3) suggerimenti automatici per identificare e correggere i problemi di prestazioni e disponibilità.
Streaming Engine	Streaming Engine separa il computing dall'archiviazione dello stato e trasferisce parte dell'esecuzione delle pipeline dalle VM worker al servizio Dataflow backend, migliorando notevolmente la scalabilità automatica e la latenza dei dati.
Dataflow Shuffle	Dataflow Shuffle, basato su servizi, trasferisce l'operazione di shuffle, usata per il raggruppamento e l'unione dei dati, dalle VM worker al servizio Dataflow backend per le pipeline batch. Le pipeline batch possono essere facilmente scalate, senza necessità di tuning, in centinaia di terabyte.
Dataflow SQL	Dataflow SQL ti permette di sfruttare le tue competenze su SQL per sviluppare pipeline di Dataflow in modalità flusso direttamente dall'interfaccia utente web di BigQuery. Puoi unire flussi di dati di Pub/Sub a file di Cloud Storage o tabelle di BigQuery, scrivere i risultati in BigQuery e creare dashboard in tempo reale con Fogli Google o altri strumenti di business intelligence.
Pianificazione flessibile delle risorse (FlexRS)	Dataflow FlexRS riduce i costi di elaborazione batch grazie a tecniche di pianificazione avanzate, al servizio Dataflow Shuffle e a una combinazione di istanze di macchine virtuali prerilasciabili e VM standard.
modelli Dataflow	Con i modelli Dataflow puoi condividere facilmente le tue pipeline con i membri del team e dell'intera organizzazione oppure sfruttare i numerosi modelli forniti da Google per implementare attività di elaborazione dati semplici ma utili. Sono inclusi i modelli Change Data Capture per i casi d'uso sull'analisi dei flussi di dati. Con i modelli flessibili, puoi creare un modello da qualsiasi pipeline Dataflow.
Integrazione con Notebooks	Crea in modo iterativo pipeline complete con Vertex AI Notebooks ed esegui il deployment con l'esecutore di Dataflow. Genera pipeline Apache Beam dettagliate ispezionando i grafici delle pipeline in un flusso di lavoro Read–Eval–Print Loop (REPL). Disponibile tramite Vertex AI di Google, Notebooks ti consente di scrivere pipeline in un ambiente intuitivo con i più recenti framework di data science e machine learning.
Change Data Capture in tempo reale	Sincronizza o replica i dati in modo affidabile e con una latenza minima tra le origini dati eterogenee per ottimizzare l'analisi dei flussi di dati. I modelli Dataflow estensibili si integrano con Datastream per replicare i dati da Cloud Storage in BigQuery, PostgreSQL o Cloud Spanner. Il connettore Debezium di Apache Beam offre un'opzione open source per importare le modifiche dei dati da MySQL, PostgreSQL, SQL Server e Db2.
Monitoraggio incorporato	La funzionalità di monitoraggio incorporato di Dataflow ti consente di accedere direttamente alle metriche dei job per facilitare la risoluzione dei problemi relativi alle pipeline in modalità batch e flusso. Puoi accedere ai grafici di monitoraggio con visibilità a livello sia di fase che di worker e impostare avvisi per condizioni come dati inattivi ed elevata latenza di sistema.
Chiavi di crittografia gestite dal cliente	Puoi creare una pipeline in modalità batch o flusso protetta con una chiave di crittografia gestita dal cliente (CMEK) o accedere a dati protetti tramite CMEK in origini e sink.
Controlli di servizio VPC di Dataflow	L'integrazione di Dataflow con i Controlli di servizio VPC aumenta la sicurezza dell'ambiente di elaborazione dati migliorando la tua capacità di ridurre il rischio di esfiltrazione di dati.
IP privati	La disattivazione degli IP pubblici assicura una maggiore protezione dell'infrastruttura di elaborazione dati. Evitando di utilizzare indirizzi IP pubblici per i worker di Dataflow, riduci anche il numero di indirizzi IP pubblici conteggiati nella tua quota di progetto Google Cloud.

Prezzi

I job di Dataflow vengono fatturati al secondo, sulla base dell'utilizzo effettivo dei worker in modalità batch o flusso di Dataflow. Ulteriori risorse, come Cloud Storage o Pub/Sub, vengono fatturate in base al prezzo del servizio corrispondente.

Visualizza i dettagli dei prezzi

Partner

Esplora le soluzioni dei partner

I partner Google Cloud hanno sviluppato integrazioni con Dataflow che consentono di eseguire in modo rapido e semplice attività avanzate di elaborazione dati di qualsiasi dimensione.

Visualizza tutti i partner

I prodotti di AI Cloud sono conformi alle nostre norme relative allo SLA. Possono offrire garanzie di latenza o disponibilità diverse rispetto ad altri servizi Google Cloud.

Fai il prossimo passo

Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.

Prova Dataflow gratuitamente

Hai bisogno di aiuto per iniziare?
Contatta il team di vendita
Collabora con un partner di fiducia
Trova un partner
Continua la navigazione
Visualizza tutti i prodotti

Analizza rapidamente i flussi di dati

Semplifica operazioni e gestione

Riduci il costo totale di proprietà

Funzionalità principali

IA in tempo reale pronta all'uso

Scalabilità automatica delle risorse e ridistribuzione dinamica del lavoro

Monitoraggio e osservabilità

Impara dai clienti che utilizzano Dataflow

Novità

Documentazione

Serverless Data Processing with Dataflow: Foundations

Guida rapida di Dataflow mediante Python

Utilizzo di Dataflow SQL

Installazione dell'SDK Apache Beam

Machine learning con Apache Beam e TensorFlow

Tutorial sul conteggio di parole Dataflow tramite Java

Lab pratici: elaborazione dei dati con Google Cloud Dataflow

Lab pratici: elaborazione dei flussi con Pub/Sub e Dataflow

Risorse Dataflow

Non trovi ciò che stai cercando?

Esplora altri documenti

Casi d'uso

Analisi dei flussi

AI in tempo reale

Elaborazione dei dati di sensori e log

Tutte le funzionalità

Prezzi

Esplora le soluzioni dei partner

Fai il prossimo passo

Hai bisogno di aiuto per iniziare?

Collabora con un partner di fiducia

Continua la navigazione