Gunakan alur DLT dengan metastore Hive yang sudah ada

Artikel
03/06/2025

Artikel ini merinci konfigurasi dan peringatan khusus untuk pipeline DLT yang dikonfigurasi untuk menerbitkan data ke metastore Hive lama. Databricks merekomendasikan penggunaan Unity Catalog untuk semua alur baru. Lihat Gunakan Unity Catalog dengan pipeline DLT Anda.

Nota

Artikel ini membahas fungsionalitas untuk mode penerbitan default yang saat ini berlaku untuk pipeline. Alur yang dibuat sebelum 5 Februari 2025 mungkin menggunakan mode publikasi lama dan skema virtual LIVE. Lihat skema LANGSUNG (warisan).

Cara melakukan kueri pada tabel streaming dan tampilan terwujud di metastore lama Hive.

Setelah pembaruan selesai, Anda dapat melihat skema dan tabel, mengkueri data, atau menggunakan data dalam aplikasi hilir.

Setelah diterbitkan, tabel DLT dapat dikueri dari lingkungan apa pun dengan akses ke skema target. Ini termasuk Databricks SQL, notebook, dan alur DLT lainnya.

Penting

Saat Anda membuat konfigurasi target, hanya tabel dan metadata terkait yang diterbitkan. Pandangan tidak diterbitkan ke metastore.

Mengonfigurasi alur agar menerbitkan ke metastore Apache Hive

Saat membuat alur baru, Anda dapat menentukan metastore Apache Hive di bawah opsi Storage untuk diterbitkan ke metastore Apache Hive warisan. Anda harus menentukan skema target default saat menerbitkan ke metastore Apache Hive. Lihat Konfigurasikan sebuah alur DLT.

Tentukan lokasi penyimpanan

Anda dapat menentukan lokasi penyimpanan untuk pipeline yang diterbitkan ke metastore Hive. Motivasi utama untuk menentukan lokasi adalah mengontrol lokasi penyimpanan objek untuk data yang ditulis oleh alur Anda. Databricks merekomendasikan selalu menentukan lokasi penyimpanan untuk menghindari penulisan ke akar DBFS.

Karena semua tabel, data, titik pemeriksaan, dan metadata untuk alur DLT dikelola sepenuhnya oleh DLT, sebagian besar interaksi dengan himpunan data DLT terjadi melalui tabel yang terdaftar ke metastore Apache Hive atau Katalog Unity.

konfigurasi penyimpanan cloud

Untuk mengakses penyimpanan Azure, Anda harus mengonfigurasi parameter yang diperlukan, termasuk token akses, menggunakan pengaturan spark.conf dalam konfigurasi kluster Anda. Untuk contoh mengonfigurasi akses ke akun penyimpanan Azure Data Lake Storage Gen2 (ADLS Gen2), lihat Mengakses kredensial penyimpanan dengan aman dengan rahasia dalam alur.

Bekerja dengan log peristiwa untuk alur metastore Apache Hive

Jika alur Anda menerbitkan tabel ke metastore Apache Hive, log peristiwa disimpan di /system/events di bawah lokasi storage. Misalnya, jika Anda telah mengonfigurasi pengaturan alur storage sebagai /Users/username/data, log peristiwa disimpan di jalur /Users/username/data/system/events di DBFS.

Jika Anda belum mengonfigurasi pengaturan storage, lokasi log peristiwa default /pipelines/<pipeline-id>/system/events di DBFS. Misalnya, jika ID alur Anda 91de5e48-35ed-11ec-8d3d-0242ac130003, lokasi penyimpanan /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events.

Anda bisa membuat tampilan untuk menyederhanakan meminta catatan peristiwa. Contoh berikut membuat tampilan sementara yang disebut event_log_raw. Tampilan ini digunakan dalam contoh kueri log peristiwa yang disertakan dalam artikel ini:

CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;

Ganti <event-log-path> dengan lokasi log peristiwa.

Setiap instans eksekusi alur disebut pembaruan . Anda sering ingin mengekstrak informasi untuk pembaruan terbaru. Jalankan kueri berikut untuk menemukan pengidentifikasi untuk pembaruan terbaru dan simpan dalam tampilan sementara latest_update_id. Tampilan ini digunakan dalam contoh kueri log peristiwa yang disertakan dalam artikel ini:

CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;

Anda bisa mengkueri log peristiwa di buku catatan Azure Databricks atau editor SQL . Gunakan buku catatan atau editor SQL untuk menjalankan contoh kueri log peristiwa.

Contoh buku catatan kode sumber alur untuk ruang kerja tanpa Katalog Unity

Anda dapat mengimpor buku catatan berikut ke ruang kerja Azure Databricks tanpa Mengaktifkan Katalog Unity dan menggunakannya untuk menyebarkan alur DLT. Impor buku catatan bahasa pilihan Anda dan tentukan jalurnya di bidang kode sumber saat mengonfigurasi alur dengan opsi penyimpanan metastore Hive. Lihat Mengonfigurasi alur pemrosesan DLT.

Mulai menggunakan notebook DLT Python

Dapatkan buku catatan

Mulai menggunakan notebook DLT SQL