Google Cloud dinobatkan sebagai Pemimpin dalam laporan Forrester Wave: Streaming Data Platforms 2023. Pelajari lebih lanjut.
Pemrosesan data streaming dan batch terpadu, yang serverless, cepat, dan hemat biaya.
Pelanggan baru mendapatkan $300 dalam bentuk kredit gratis untuk dibelanjakan di Dataflow.
Insight dan aktivasi real-time dengan aliran data dan machine learning
Layanan pemrosesan data yang terkelola sepenuhnya
Penyediaan dan pengelolaan resource pemrosesan yang otomatis
Penskalaan horizontal dan vertikal otomatis terhadap resource pekerja untuk memaksimalkan penggunaan resource
Inovasi berbasis komunitas OSS dengan Apache Beam SDK
Manfaat
Dataflow memungkinkan pengembangan pipeline data streaming yang cepat dan sederhana dengan latensi data yang lebih rendah.
Biarkan tim untuk berfokus pada pemrograman, dan bukan pengelolaan cluster server karena pendekatan serverless Dataflow menghilangkan beban operasional dari workload data engineering.
Dengan penskalaan otomatis resource serta kemampuan batch processing yang menggunakan pengoptimalan biaya, Dataflow menawarkan kapasitas tanpa batas untuk mengelola workload musiman atau naik turun tanpa memboroskan anggaran.
Fitur utama
Diaktifkan melalui fitur ML siap pakai termasuk NVIDIA GPU dan pola yang siap digunakan, kemampuan AI real-time Dataflow memungkinkan reaksi real-time dengan kecerdasan yang hampir mirip manusia terhadap banyaknya rentetan event.
Pelanggan dapat membuat solusi cerdas, mulai dari analisis prediktif, deteksi anomali, hingga personalisasi real-time dan kasus penggunaan analisis lanjutan lainnya.
Melatih, men-deploy, dan mengelola pipeline machine learning (ML) lengkap, termasuk inferensi lokal dan jarak jauh dengan pipeline streaming dan batch.
Minimalkan latensi pipeline, maksimalkan penggunaan resource, dan kurangi biaya pemrosesan per kumpulan data dengan penskalaan otomatis resource yang sadar data. Input data dipartisi secara otomatis dan terus diseimbangkan kembali untuk meratakan penggunaan resource worker dan mengurangi efek “hot key” terhadap performa pipeline.
Mengamati data di setiap langkah pipeline Dataflow. Mendiagnosis masalah dan memecahkan masalah secara efektif dengan sampel data aktual. Membandingkan berbagai operasi tugas untuk mengidentifikasi masalah dengan mudah.
Pelanggan
Dokumentasi
Kasus penggunaan
Analisis streaming Google menjadikan data lebih terkelola, bermanfaat, dan mudah diakses secara langsung setelah dibuat. Solusi streaming kami, yang dibangun berdasarkan Dataflow serta Pub/Sub dan BigQuery, menyediakan resource yang dibutuhkan untuk menyerap, memproses, dan menganalisis data real-time dengan volume yang berfluktuasi untuk insight bisnis real-time. Penyediaan secara terpisah ini mengurangi kompleksitas dan menjadikan analisis streaming dapat diakses oleh para analis data dan data engineer.
Dataflow menghadirkan peristiwa streaming ke Vertex AI dan TensorFlow Extended (TFX) Google Cloud untuk memungkinkan analisis prediktif, deteksi penipuan, personalisasi real-time, dan kasus penggunaan analisis lanjutan lainnya. TFX menggunakan Dataflow dan Apache Beam sebagai mesin pemrosesan data terdistribusi untuk memungkinkan beberapa aspek siklus proses ML, semuanya didukung dengan CI/CD untuk ML melalui pipeline Kubeflow.
Hasilkan insight bisnis dari jaringan perangkat global Anda dengan platform IoT yang cerdas.
Semua fitur
ML Dataflow | Men-deploy dan mengelola pipeline machine learning (ML) dengan mudah. Menggunakan model ML untuk melakukan inferensi lokal dan jarak jauh dengan pipeline streaming dan batch. Menggunakan alat pemrosesan data guna menyiapkan data Anda untuk pelatihan model dan memproses hasil model. |
GPU Dataflow | Sistem pemrosesan data yang dioptimalkan untuk performa dan biaya penggunaan GPU Anda. Dukungan untuk berbagai GPU NVIDIA. |
Penskalaan otomatis vertikal | Secara dinamis menyesuaikan kapasitas komputasi yang dialokasikan ke setiap worker berdasarkan pemakaian. Penskalaan otomatis vertikal dapat dimanfaatkan secara bersama dengan penskalaan otomatis horizontal untuk menskalakan worker secara lancar agar sesuai dengan kebutuhan pipeline. |
Penskalaan horizontal otomatis | Penskalaan horizontal otomatis memungkinkan layanan Dataflow secara otomatis memilih jumlah instance worker yang diperlukan untuk menjalankan tugas Anda. Layanan Dataflow juga dapat secara dinamis mengalokasikan lebih banyak atau lebih sedikit worker selama runtime agar sesuai dengan karakteristik tugas Anda. |
Penyesuaian yang tepat | Penyesuaian yang tepat akan membuat kumpulan resource untuk tahap tertentu yang dioptimalkan untuk setiap tahap guna mengurangi pemborosan resource. |
Diagnostik cerdas | Rangkaian fitur yang mencakup 1) Pengelolaan pipeline data berbasis SLO, 2) Kemampuan visualisasi tugas yang memberi pengguna informasi visual untuk memeriksa grafik tugas dan mengidentifikasi bottleneck, 3) Rekomendasi otomatis untuk mengidentifikasi serta memperbaiki performa dan masalah ketersediaan. |
Streaming Engine | Streaming Engine memisahkan komputasi dari penyimpanan state serta memindahkan sebagian eksekusi pipeline dari VM worker ke backend layanan Dataflow, sehingga meningkatkan penskalaan otomatis dan mengurangi latensi data secara signifikan. |
Dataflow Shuffle | Dataflow Shuffle berbasis layanan memindahkan operasi shuffle, yang digunakan untuk mengelompokkan dan menggabungkan data, dari VM worker dan ke backend layanan Dataflow untuk pipeline batch. Pipeline batch melakukan penskalaan dengan lancar, tanpa memerlukan penyesuaian, ke ratusan terabyte. |
Dataflow SQL | Dataflow SQL memungkinkan Anda menggunakan keterampilan SQL Anda untuk mengembangkan pipeline Dataflow streaming langsung dari UI web BigQuery. Anda dapat menggabungkan data streaming dari Pub/Sub dengan file di Cloud Storage atau tabel di BigQuery, menulis hasil ke BigQuery, dan membangun dasbor real-time menggunakan Google Spreadsheet atau alat BI lainnya. |
Penjadwalan Resource yang Fleksibel (FlexRS) | Dataflow FlexRS mengurangi biaya batch processing menggunakan teknik penjadwalan lanjutan, layanan Dataflow Shuffle, dan kombinasi instance preemptible virtual machine (VM) dan VM reguler. |
Template Dataflow | Template Dataflow memungkinkan Anda dengan mudah berbagi pipeline dengan anggota tim dan dengan seluruh organisasi Anda atau memanfaatkan berbagai template yang disediakan Google untuk menerapkan tugas pemrosesan data yang sederhana tetapi bermanfaat. Hal ini meliputi template Pengambilan Data Perubahan untuk kasus penggunaan analisis streaming. Dengan Template Flex, Anda dapat membuat template dari pipeline Dataflow apa pun. |
Integrasi Notebooks | Bangun pipeline secara iteratif dari awal dengan Vertex AI Notebooks dan deploy dengan runner Dataflow. Tulis pipeline Apache Beam langkah demi langkah dengan memeriksa grafik pipeline dalam alur kerja read-eval-print-loop (REPL). Tersedia melalui Vertex AI Google, Notebooks memungkinkan Anda menulis pipeline di lingkungan intuitif dengan kerangka machine learning dan data science terbaru. |
Pengambilan data perubahan real-time | Sinkronkan atau replikasikan data secara andal dan dengan latensi minimal di beragam sumber data untuk mendukung analisis streaming. Template Dataflow yang dapat dikembangkan lagi diintegrasikan dengan Datastream untuk mereplikasi data dari Cloud Storage ke BigQuery, PostgreSQL, atau Cloud Spanner. Konektor Debezium Apache Beam akan memberi opsi open source untuk menyerap perubahan data dari MySQL, PostgreSQL, SQL Server, dan Db2. |
Pemantauan inline | Pemantauan inline Dataflow memungkinkan Anda mengakses metrik tugas secara langsung untuk membantu pemecahan masalah pipeline streaming dan batch. Anda dapat mengakses diagram pemantauan di visibilitas tingkat langkah dan worker serta menyetel pemberitahuan untuk kondisi seperti data tidak berlaku dan latensi sistem yang tinggi. |
Kunci enkripsi yang dikelola pelanggan | Anda dapat membuat pipeline streaming atau batch yang dilindungi dengan kunci enkripsi yang dikelola pelanggan (CMEK) atau mengakses data yang dilindungi CMEK di sumber dan sink. |
Kontrol Layanan VPC Dataflow | Integrasi Dataflow dengan Kontrol Layanan VPC memberikan keamanan tambahan terhadap lingkungan pemrosesan data Anda dengan meningkatkan kemampuan Anda untuk mengurangi risiko pemindahan data yang tidak sah. |
IP Pribadi | Dengan menonaktifkan IP publik, Anda dapat mengamankan infrastruktur pemrosesan data secara lebih baik. Dengan tidak menggunakan alamat IP publik untuk worker Dataflow, Anda juga mengurangi jumlah alamat IP publik yang Anda gunakan dari kuota project Google Cloud. |
Harga
Tugas Dataflow dikenai biaya per detik, berdasarkan penggunaan sebenarnya dari worker batch atau streaming Dataflow. Resource tambahan seperti Cloud Storage atau Pub/Sub dikenai biaya berdasarkan harga setiap layanan tersebut.
Partner
Partner Google Cloud telah mengembangkan integrasi dengan Dataflow untuk menjalankan tugas pemrosesan data berbagai ukuran secara cepat dan mudah.
Produk-produk Cloud AI mematuhi Kebijakan SLA kami. Produk tersebut mungkin menawarkan latensi atau jaminan ketersediaan yang berbeda dari layanan Google Cloud lainnya.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.