Bagikan melalui


Konsep Streaming Terstruktur

Artikel ini menyediakan pengantar Streaming Terstruktur di Azure Databricks.

Apa itu Streaming Terstruktur?

Apache Spark Structured Streaming adalah mesin pemrosesan mendekati real-time yang menawarkan toleransi kesalahan end-to-end dengan jaminan pemrosesan tepat sekali menggunakan API Spark yang sudah dikenal. Streaming Terstruktur memungkinkan Anda mengekspresikan komputasi pada data streaming dengan cara yang sama seperti Anda mengekspresikan komputasi batch pada data statis. Mesin Streaming Terstruktur melakukan komputasi secara bertahap dan terus memperbarui hasilnya saat data streaming tiba.

Membaca dari aliran data

Anda dapat menggunakan Streaming Terstruktur untuk menyerap data secara bertahap dari sumber data yang didukung. Sumber data umum meliputi yang berikut ini:

Setiap sumber data menyediakan sejumlah opsi untuk menentukan cara memuat batch data. Selama konfigurasi pembaca, Anda mungkin perlu mengonfigurasi opsi untuk melakukan hal berikut:

  • Tentukan sumber data atau format (misalnya, jenis file, pemisah, dan skema).
  • Mengonfigurasi akses ke sistem sumber (misalnya, pengaturan port dan kredensial).
  • Menentukan titik awal dalam aliran (misalnya, offset Kafka atau membaca semua berkas yang sudah ada).
  • Kontrol berapa banyak data yang diproses di setiap batch (misalnya, offset maks, file, atau byte per batch). Lihat Mengonfigurasi ukuran batch Streaming Terstruktur di Azure Databricks.

Menulis ke sink data

Sink data adalah target operasi penulisan streaming. Sink umum yang digunakan dalam beban kerja streaming Azure Databricks meliputi yang berikut ini:

  • Delta Lake
  • Bus dan antrean pesan
  • Database kunci-nilai

Seperti sumber data, sebagian besar sink data menyediakan sejumlah opsi untuk mengontrol bagaimana data ditulis ke sistem target. Selama konfigurasi penulis, Anda menentukan opsi berikut:

  • Mode output (tambahkan secara default). Lihat Pilih mode output untuk Streaming Terstruktur.
  • Lokasi titik pemeriksaan (diperlukan untuk setiap penulis). Lihat Titik pemeriksaan Streaming Terstruktur.
  • Interval pemicu. Lihat Mengonfigurasi interval pemicu Streaming Terstruktur.
  • Opsi yang menentukan sink atau format data (misalnya, jenis file, pemisah, dan skema).
  • Opsi yang mengonfigurasi akses ke sistem target (misalnya, pengaturan port dan kredensial).