Dataflow

Google Cloud dinobatkan sebagai Pemimpin dalam laporan Forrester Wave: Streaming Data Platforms 2023. Pelajari lebih lanjut.

Langsung ke

Dataflow

Pemrosesan data streaming dan batch terpadu, yang serverless, cepat, dan hemat biaya.

Pelanggan baru mendapatkan $300 dalam bentuk kredit gratis untuk dibelanjakan di Dataflow.

Coba gratis Dataflow Hubungi bagian penjualan

Insight dan aktivasi real-time dengan aliran data dan machine learning
Layanan pemrosesan data yang terkelola sepenuhnya
Penyediaan dan pengelolaan resource pemrosesan yang otomatis
Penskalaan horizontal dan vertikal otomatis terhadap resource pekerja untuk memaksimalkan penggunaan resource
Inovasi berbasis komunitas OSS dengan Apache Beam SDK

Gambar thumbnail yang menampilkan gedung besar dengan ikon Dataflow di atasnya, dan di sebelah kanannya, ada seorang laki-laki melakukan juggling pada ikon Pub/Sub, Cloud Storage, dan Cloud AutoML

VIDEO

Pelajari Dataflow dalam sekejap, termasuk cara kerjanya dan kasus penggunaan umum.

1:48

Manfaat

Melakukan streaming analisis data dengan cepat

Dataflow memungkinkan pengembangan pipeline data streaming yang cepat dan sederhana dengan latensi data yang lebih rendah.

Mempermudah pengoperasian dan pengelolaan

Biarkan tim untuk berfokus pada pemrograman, dan bukan pengelolaan cluster server karena pendekatan serverless Dataflow menghilangkan beban operasional dari workload data engineering.

Mengurangi total biaya kepemilikan

Dengan penskalaan otomatis resource serta kemampuan batch processing yang menggunakan pengoptimalan biaya, Dataflow menawarkan kapasitas tanpa batas untuk mengelola workload musiman atau naik turun tanpa memboroskan anggaran.

Fitur utama

AI real-time yang siap digunakan

Diaktifkan melalui fitur ML siap pakai termasuk NVIDIA GPU dan pola yang siap digunakan, kemampuan AI real-time Dataflow memungkinkan reaksi real-time dengan kecerdasan yang hampir mirip manusia terhadap banyaknya rentetan event.

Pelanggan dapat membuat solusi cerdas, mulai dari analisis prediktif, deteksi anomali, hingga personalisasi real-time dan kasus penggunaan analisis lanjutan lainnya.

Melatih, men-deploy, dan mengelola pipeline machine learning (ML) lengkap, termasuk inferensi lokal dan jarak jauh dengan pipeline streaming dan batch.

Penskalaan otomatis resource dan penyeimbangan ulang tugas dinamis

Minimalkan latensi pipeline, maksimalkan penggunaan resource, dan kurangi biaya pemrosesan per kumpulan data dengan penskalaan otomatis resource yang sadar data. Input data dipartisi secara otomatis dan terus diseimbangkan kembali untuk meratakan penggunaan resource worker dan mengurangi efek “hot key” terhadap performa pipeline.

Kemampuan observasi dan pemantauan

Mengamati data di setiap langkah pipeline Dataflow. Mendiagnosis masalah dan memecahkan masalah secara efektif dengan sampel data aktual. Membandingkan berbagai operasi tugas untuk mengidentifikasi masalah dengan mudah.

Lihat semua fitur

Screenshot dari aplikasi belanja, yang menampilkan dua baris yang masing-masing berisi empat sepatu

VIDEO

Meningkatkan pengalaman retail online dengan penawaran real-time yang dipersonalisasi: Demo

7:18

Pelanggan

Belajar dari pelanggan yang menggunakan Dataflow

Blog post

Cara Renault menyelesaikan masalah penskalaan dan biaya dengan Dataflow dan BigQuery.

Waktu baca: 5 menit

Case study

Dow Jones mengurai makna dari set data peristiwa historis penting dengan Dataflow.

Waktu baca: 5 menit

Case study

Sky memperbarui platform big data-nya untuk memenuhi kebutuhan produk generasi berikutnya.

Waktu baca: 5 menit

Case study

Unity menggunakan Dataflow untuk mengubah data menjadi insight, keputusan, dan produk.

46:29

Lihat semua pelanggan

Yang baru

Daftar untuk mendapatkan pratinjau Dataflow Prime.

Thumbnail yang menampilkan data yang mengalir dari centang hijau melewati kunci kuning menuju perisai biru dengan ikon gembok putih di perisai tersebut di cloud

Blog post

Dataflow generasi berikutnya: Dataflow Prime, Dataflow Go, dan Dataflow MLBaca blog

Blog post

Google Cloud dinobatkan sebagai Pemimpin dalam laporan The Forrester Wave™: Streaming Analytics, Q2 2021Baca blog

Cangkir dengan pensil, pulpen, kuas yang disimpan di dalamnya

Blog post

Meningkatkan pemrosesan data dengan Dataflow GPUBaca blog

Blog post

Dataflow Prime, yang memberikan efisiensi dan kemudahan dalam pemrosesan big dataBaca blog

Video

Mendapatkan nilai real-time dengan Analisis StreamingTonton video

Blog post

Pengambilan Data Perubahan Real-Time untuk replikasi data ke BigQueryBaca blog

Dokumentasi

Tutorial

Pemrosesan Data Serverless dengan Dataflow: Dasar-dasar

Pelatihan dasar terkait semua hal yang perlu Anda tahu tentang Dataflow.

Pelajari lebih lanjut

Tutorial

Panduan memulai Dataflow menggunakan Python

Siapkan project Google Cloud dan lingkungan pengembangan Python, dapatkan Apache Beam Python SDK, lalu jalankan dan ubah contoh WordCount di layanan Dataflow.

Pelajari lebih lanjut

Tutorial

Menggunakan Dataflow SQL

Buat kueri SQL dan deploy tugas Dataflow untuk menjalankan kueri Anda dari UI Dataflow SQL.

Pelajari lebih lanjut

Tutorial

Menginstal Apache Beam SDK

Instal Apache Beam SDK sehingga Anda dapat menjalankan pipeline di layanan Dataflow.

Pelajari lebih lanjut

Tutorial

Machine learning dengan Apache Beam dan TensorFlow

Lakukan prapemrosesan, latih, dan buat prediksi pada model machine learning energi molekul, menggunakan Apache Beam, Dataflow, dan TensorFlow.

Pelajari lebih lanjut

Tutorial

Tutorial jumlah kata Dataflow menggunakan Java

Dalam tutorial ini, Anda akan mempelajari dasar-dasar layanan Cloud Dataflow dengan menjalankan contoh pipeline simpel menggunakan Apache Beam Java SDK.

Pelajari lebih lanjut

Tutorial

Lab interaktif: Memproses Data dengan Google Cloud Dataflow

Pelajari cara memproses set data real-time berbasis teks menggunakan Python dan Dataflow, lalu menyimpannya di BigQuery.

Pelajari lebih lanjut

Tutorial

Lab interaktif: Stream Processing dengan Pub/Sub dan Dataflow

Pelajari cara menggunakan Dataflow untuk membaca pesan yang dipublikasikan ke topik Pub/Sub, mengelompokkan pesan berdasarkan stempel waktu, dan menulis pesan ke Cloud Storage.

Pelajari lebih lanjut

Google Cloud Basics

Referensi Dataflow

Temukan informasi terkait harga, kuota resource, FAQ, dan lain-lain.

Pelajari lebih lanjut

Tidak menemukan yang Anda cari?

Lihat semua dokumentasi produk

Catatan rilis

Baca rilis terbaru untuk Dataflow

Kasus penggunaan

Analisis streaming

Analisis streaming Google menjadikan data lebih terkelola, bermanfaat, dan mudah diakses secara langsung setelah dibuat. Solusi streaming kami, yang dibangun berdasarkan Dataflow serta Pub/Sub dan BigQuery, menyediakan resource yang dibutuhkan untuk menyerap, memproses, dan menganalisis data real-time dengan volume yang berfluktuasi untuk insight bisnis real-time. Penyediaan secara terpisah ini mengurangi kompleksitas dan menjadikan analisis streaming dapat diakses oleh para analis data dan data engineer.

Alur berurutan pada 5 kolom, mulai dari Pemicu, hingga Serap, Perkaya, Analisis & Aktifkan. Setiap kolom memiliki bagian atas dan bawah. Di bagian atas kolom Pemicu adalah perangkat edge (seluler, web, Penyimpanan Data, dan IoT) yang mengarah ke Pub/Sub di kolom Serap, lalu ke kolom Perkaya dan Streaming Apache Beam/Dataflow, lalu ke bawah kotak Analisis kemudian kotak Aktifkan yang akhirnya mengarah kembali ke perangkat edge di Kol 1. Dari Apache Beam di kolom 3, panah mengarah bolak-balik ke kolom Analisis, ke BigQuery, AI Platform, dan Bigtable: ketiganya ditunjuk oleh Pengisian Ulang/Proses Ulang - Dataflow Batch. Alur berpindah dari kolom BigQuery ke kolom Aktifkan, menuju Data Studio, BI pihak ketiga, dan Cloud Functions, yang mengarah kembali ke perangkat edge di kolom 1. Di bagian bawah kolom, ada keterangan Alur Pembuatan: Pemicu yang menyatakan “Konfigurasikan sumber untuk mengirimkan pesan peristiwa push ke topik Pub/Sub.” Mengarah ke Serap “Buat Topik dan langganan Pub/Sub.” Ke Perkaya “Deploy streaming atau tugas Dataflow batch menggunakan template, CLI, atau notebooks.” Ke Analisis “Buat set data, tabel, dan model untuk menerima stream.” Ke Aktifkan “Buat dasbor real-time dan panggil API eksternal.”

Kasus penggunaan

AI Real-time

Dataflow menghadirkan peristiwa streaming ke Vertex AI dan TensorFlow Extended (TFX) Google Cloud untuk memungkinkan analisis prediktif, deteksi penipuan, personalisasi real-time, dan kasus penggunaan analisis lanjutan lainnya. TFX menggunakan Dataflow dan Apache Beam sebagai mesin pemrosesan data terdistribusi untuk memungkinkan beberapa aspek siklus proses ML, semuanya didukung dengan CI/CD untuk ML melalui pipeline Kubeflow.

Pattern

Deteksi anomali

Identifikasi dan selesaikan masalah secara real time dengan deteksi pencilan untuk malware, aktivitas akun, transaksi keuangan, dan lain-lain.

Pelajari lebih lanjut

Pattern

Pengenalan pola

Sederhanakan operasi dan pengalaman pelanggan dengan deteksi pola pada gambar, video, dan data.

Pelajari lebih lanjut

Pattern

Perkiraan prediktif

Perkirakan aliran data deret waktu, mulai dari aktivitas pengguna hingga kondisi peralatan, untuk menyelesaikan masalah secara proaktif.

Pelajari lebih lanjut

Kasus penggunaan

Pemrosesan data log dan sensor

Hasilkan insight bisnis dari jaringan perangkat global Anda dengan platform IoT yang cerdas.

Lihat semua panduan teknis

Semua fitur

ML Dataflow	Men-deploy dan mengelola pipeline machine learning (ML) dengan mudah. Menggunakan model ML untuk melakukan inferensi lokal dan jarak jauh dengan pipeline streaming dan batch. Menggunakan alat pemrosesan data guna menyiapkan data Anda untuk pelatihan model dan memproses hasil model.
GPU Dataflow	Sistem pemrosesan data yang dioptimalkan untuk performa dan biaya penggunaan GPU Anda. Dukungan untuk berbagai GPU NVIDIA.
Penskalaan otomatis vertikal	Secara dinamis menyesuaikan kapasitas komputasi yang dialokasikan ke setiap worker berdasarkan pemakaian. Penskalaan otomatis vertikal dapat dimanfaatkan secara bersama dengan penskalaan otomatis horizontal untuk menskalakan worker secara lancar agar sesuai dengan kebutuhan pipeline.
Penskalaan horizontal otomatis	Penskalaan horizontal otomatis memungkinkan layanan Dataflow secara otomatis memilih jumlah instance worker yang diperlukan untuk menjalankan tugas Anda. Layanan Dataflow juga dapat secara dinamis mengalokasikan lebih banyak atau lebih sedikit worker selama runtime agar sesuai dengan karakteristik tugas Anda.
Penyesuaian yang tepat	Penyesuaian yang tepat akan membuat kumpulan resource untuk tahap tertentu yang dioptimalkan untuk setiap tahap guna mengurangi pemborosan resource.
Diagnostik cerdas	Rangkaian fitur yang mencakup 1) Pengelolaan pipeline data berbasis SLO, 2) Kemampuan visualisasi tugas yang memberi pengguna informasi visual untuk memeriksa grafik tugas dan mengidentifikasi bottleneck, 3) Rekomendasi otomatis untuk mengidentifikasi serta memperbaiki performa dan masalah ketersediaan.
Streaming Engine	Streaming Engine memisahkan komputasi dari penyimpanan state serta memindahkan sebagian eksekusi pipeline dari VM worker ke backend layanan Dataflow, sehingga meningkatkan penskalaan otomatis dan mengurangi latensi data secara signifikan.
Dataflow Shuffle	Dataflow Shuffle berbasis layanan memindahkan operasi shuffle, yang digunakan untuk mengelompokkan dan menggabungkan data, dari VM worker dan ke backend layanan Dataflow untuk pipeline batch. Pipeline batch melakukan penskalaan dengan lancar, tanpa memerlukan penyesuaian, ke ratusan terabyte.
Dataflow SQL	Dataflow SQL memungkinkan Anda menggunakan keterampilan SQL Anda untuk mengembangkan pipeline Dataflow streaming langsung dari UI web BigQuery. Anda dapat menggabungkan data streaming dari Pub/Sub dengan file di Cloud Storage atau tabel di BigQuery, menulis hasil ke BigQuery, dan membangun dasbor real-time menggunakan Google Spreadsheet atau alat BI lainnya.
Penjadwalan Resource yang Fleksibel (FlexRS)	Dataflow FlexRS mengurangi biaya batch processing menggunakan teknik penjadwalan lanjutan, layanan Dataflow Shuffle, dan kombinasi instance preemptible virtual machine (VM) dan VM reguler.
Template Dataflow	Template Dataflow memungkinkan Anda dengan mudah berbagi pipeline dengan anggota tim dan dengan seluruh organisasi Anda atau memanfaatkan berbagai template yang disediakan Google untuk menerapkan tugas pemrosesan data yang sederhana tetapi bermanfaat. Hal ini meliputi template Pengambilan Data Perubahan untuk kasus penggunaan analisis streaming. Dengan Template Flex, Anda dapat membuat template dari pipeline Dataflow apa pun.
Integrasi Notebooks	Bangun pipeline secara iteratif dari awal dengan Vertex AI Notebooks dan deploy dengan runner Dataflow. Tulis pipeline Apache Beam langkah demi langkah dengan memeriksa grafik pipeline dalam alur kerja read-eval-print-loop (REPL). Tersedia melalui Vertex AI Google, Notebooks memungkinkan Anda menulis pipeline di lingkungan intuitif dengan kerangka machine learning dan data science terbaru.
Pengambilan data perubahan real-time	Sinkronkan atau replikasikan data secara andal dan dengan latensi minimal di beragam sumber data untuk mendukung analisis streaming. Template Dataflow yang dapat dikembangkan lagi diintegrasikan dengan Datastream untuk mereplikasi data dari Cloud Storage ke BigQuery, PostgreSQL, atau Cloud Spanner. Konektor Debezium Apache Beam akan memberi opsi open source untuk menyerap perubahan data dari MySQL, PostgreSQL, SQL Server, dan Db2.
Pemantauan inline	Pemantauan inline Dataflow memungkinkan Anda mengakses metrik tugas secara langsung untuk membantu pemecahan masalah pipeline streaming dan batch. Anda dapat mengakses diagram pemantauan di visibilitas tingkat langkah dan worker serta menyetel pemberitahuan untuk kondisi seperti data tidak berlaku dan latensi sistem yang tinggi.
Kunci enkripsi yang dikelola pelanggan	Anda dapat membuat pipeline streaming atau batch yang dilindungi dengan kunci enkripsi yang dikelola pelanggan (CMEK) atau mengakses data yang dilindungi CMEK di sumber dan sink.
Kontrol Layanan VPC Dataflow	Integrasi Dataflow dengan Kontrol Layanan VPC memberikan keamanan tambahan terhadap lingkungan pemrosesan data Anda dengan meningkatkan kemampuan Anda untuk mengurangi risiko pemindahan data yang tidak sah.
IP Pribadi	Dengan menonaktifkan IP publik, Anda dapat mengamankan infrastruktur pemrosesan data secara lebih baik. Dengan tidak menggunakan alamat IP publik untuk worker Dataflow, Anda juga mengurangi jumlah alamat IP publik yang Anda gunakan dari kuota project Google Cloud.

Harga

Tugas Dataflow dikenai biaya per detik, berdasarkan penggunaan sebenarnya dari worker batch atau streaming Dataflow. Resource tambahan seperti Cloud Storage atau Pub/Sub dikenai biaya berdasarkan harga setiap layanan tersebut.

Lihat detail harga

Partner

Mempelajari solusi partner

Partner Google Cloud telah mengembangkan integrasi dengan Dataflow untuk menjalankan tugas pemrosesan data berbagai ukuran secara cepat dan mudah.

Lihat semua partner

Produk-produk Cloud AI mematuhi Kebijakan SLA kami. Produk tersebut mungkin menawarkan latensi atau jaminan ketersediaan yang berbeda dari layanan Google Cloud lainnya.

Langkah selanjutnya

Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.

Coba gratis Dataflow

Perlu bantuan untuk memulai?
Hubungi bagian penjualan
Bekerja sama dengan partner tepercaya
Temukan partner
Lanjutkan menjelajah
Lihat semua produk

Melakukan streaming analisis data dengan cepat

Mempermudah pengoperasian dan pengelolaan

Mengurangi total biaya kepemilikan

Fitur utama

AI real-time yang siap digunakan

Penskalaan otomatis resource dan penyeimbangan ulang tugas dinamis

Kemampuan observasi dan pemantauan

Belajar dari pelanggan yang menggunakan Dataflow

Yang baru

Dokumentasi

Pemrosesan Data Serverless dengan Dataflow: Dasar-dasar

Panduan memulai Dataflow menggunakan Python

Menggunakan Dataflow SQL

Menginstal Apache Beam SDK

Machine learning dengan Apache Beam dan TensorFlow

Tutorial jumlah kata Dataflow menggunakan Java

Lab interaktif: Memproses Data dengan Google Cloud Dataflow

Lab interaktif: Stream Processing dengan Pub/Sub dan Dataflow

Referensi Dataflow

Tidak menemukan yang Anda cari?

Pelajari dokumen lainnya

Kasus penggunaan

Analisis streaming

AI Real-time

Pemrosesan data log dan sensor

Semua fitur

Harga

Mempelajari solusi partner

Langkah selanjutnya

Perlu bantuan untuk memulai?

Bekerja sama dengan partner tepercaya

Lanjutkan menjelajah