Bagikan melalui


Menyambungkan ke penyimpanan dan layanan objek cloud menggunakan Katalog Unity

Artikel ini memberikan gambaran umum tentang koneksi penyimpanan cloud yang diperlukan untuk bekerja dengan data menggunakan Katalog Unity, bersama dengan informasi tentang bagaimana Katalog Unity mengatur akses ke penyimpanan cloud dan layanan cloud eksternal.

Catatan

Jika ruang kerja Anda dibuat sebelum 9 November 2023, ruang kerja tersebut mungkin tidak diaktifkan untuk Katalog Unity. Admin akun harus mengaktifkan Katalog Unity untuk ruang kerja Anda. Lihat Mengaktifkan ruang kerja untuk Unity Catalog.

Bagaimana Katalog Unity menggunakan penyimpanan cloud?

Databricks merekomendasikan penggunaan Unity Catalog untuk mengelola akses ke semua data yang telah Anda simpan di penyimpanan objek cloud. Unity Catalog menyediakan serangkaian alat untuk mengonfigurasi koneksi aman ke penyimpanan objek cloud. Koneksi ini menyediakan akses untuk menyelesaikan tindakan berikut:

  • Memasukkan data mentah ke dalam lakehouse.
  • Membuat dan membaca tabel yang dikelola serta volume data tidak terstruktur yang dikelola di penyimpanan cloud yang dikelola Katalog Unity.
  • Daftarkan atau buat tabel eksternal yang berisi data tabular dan volume eksternal yang berisi data yang tidak terstruktur dalam penyimpanan cloud yang dikelola menggunakan penyedia cloud Anda.
  • Membaca dan menulis data yang tidak terstruktur (sebagai volume Katalog Unity).

Agar lebih spesifik, Unity Catalog menggunakan penyimpanan cloud dengan dua cara utama:

  • Lokasi penyimpanan default (atau "terkelola") untuk tabel terkelola dan volume terkelola (data non-tabular yang tidak terstruktur) yang Anda buat di Databricks. Lokasi penyimpanan terkelola ini dapat ditentukan di tingkat metastore, katalog, atau skema. Anda membuat lokasi penyimpanan terkelola di penyedia cloud Anda, tetapi siklus hidupnya dikelola sepenuhnya oleh Unity Catalog.
  • Lokasi penyimpanan tempat tabel dan volume eksternal disimpan. Ini adalah tabel dan volume yang aksesnya dari Azure Databricks dikelola oleh Unity Catalog, tetapi siklus hidup data dan tata letak filenya dikelola menggunakan penyedia cloud dan platform data lainnya. Biasanya Anda menggunakan tabel eksternal untuk mendaftarkan sejumlah besar data yang ada di Azure Databricks, atau jika Anda juga memerlukan akses tulis ke data menggunakan alat di luar Azure Databricks.

Untuk informasi selengkapnya tentang tabel dan volume terkelola vs eksternal, lihat Apa itu tabel? dan Apa itu volume Katalog Unity?.

Peringatan

Jangan beri pengguna akhir akses tingkat penyimpanan ke tabel atau volume terkelola Unity Catalog. Ini mengorbankan keamanan dan tata kelola data.

Memberikan pengguna, perwakilan layanan, atau identitas terkelola akses langsung ke kontainer Azure Data Lake Storage Gen2 yang berisi data yang dikelola oleh Unity Catalog mengabaikan Unity Catalog. Ini mengekspos data ke pemberian izin berlebihan, eksfiltrasi, dan akses tidak sah, sambil mempersulit audit dan meningkatkan beban kerja manajemen.

Akses penyimpanan langsung tidak didukung untuk tabel terkelola Unity Catalog.

Penyedia penyimpanan cloud mana yang didukung?

Azure Databricks mendukung kontainer Azure Data Lake Storage Gen2 dan wadah Cloudflare R2 sebagai lokasi penyimpanan cloud untuk data dan aset AI yang terdaftar di Unity Catalog. R2 ditujukan terutama untuk kasus penggunaan di mana Anda ingin menghindari biaya keluar data, seperti Berbagi Delta di seluruh cloud dan wilayah. Untuk informasi selengkapnya, lihat Menggunakan replika Cloudflare R2 atau memigrasikan penyimpanan ke R2.

Bagaimana Katalog Unity mengatur akses ke penyimpanan cloud?

Untuk mengelola akses ke penyimpanan cloud yang mendasar yang menyimpan tabel dan volume, Katalog Unity menggunakan objek yang dapat diamankan yang disebut lokasi eksternal, yang menentukan jalur ke lokasi penyimpanan cloud dan kredensial yang diperlukan untuk mengakses lokasi tersebut. Kredensial tersebut, pada gilirannya, didefinisikan dalam objek yang memiliki sekuritas Katalog Unity yang disebut sebagai kredensial penyimpanan. Dengan memberikan dan mencabut akses ke lokasi eksternal yang dapat diamankan di Unity Catalog, Anda mengontrol akses ke data di lokasi penyimpanan cloud. Dengan memberikan dan mencabut akses ke keamanan kredensial penyimpanan di Unity Catalog, Anda mengontrol kemampuan untuk membuat objek lokasi eksternal.

Untuk detailnya, lihat Mengelola akses ke penyimpanan cloud menggunakan Unity Catalog.

Akses berbasis jalur ke penyimpanan cloud

Meskipun Unity Catalog mendukung akses berbasis jalur ke tabel eksternal dan volume eksternal menggunakan URI penyimpanan cloud, Databricks merekomendasikan agar pengguna membaca dan menulis semua tabel Unity Catalog menggunakan nama tabel, dan mengakses data dalam volume dengan menggunakan jalur /Volumes. Volume adalah objek yang dapat diamankan yang harus digunakan sebagian besar pengguna Azure Databricks untuk berinteraksi langsung dengan data non-tabular dalam penyimpanan objek cloud. Lihat Apa itu volume Katalog Unity?.

Peringatan

Jika Anda memperbarui metadata tabel eksternal menggunakan klien non-Databricks atau menggunakan akses berbasis jalur dari dalam Databricks, metadata tersebut tidak secara otomatis menyinkronkan status dengan Unity Catalog. Databricks tidak merekomendasikan pembaruan metadata tersebut, tetapi jika Anda melakukannya, Anda harus menjalankan MSCK REPAIR TABLE <table-name> SYNC METADATA untuk memperbarui skema di Unity Catalog. Lihat REPAIR TABLE.

Praktik terbaik untuk penyimpanan cloud dengan Katalog Unity

Azure Databricks memerlukan penggunaan Azure Data Lake Storage Gen2 sebagai layanan penyimpanan Azure untuk data yang diproses di Azure Databricks menggunakan tata kelola Katalog Unity. Azure Data Lake Storage Gen2 memungkinkan Anda memisahkan biaya penyimpanan dan komputasi dan memanfaatkan kontrol akses terperintah yang disediakan oleh Unity Catalog. Jika data disimpan di OneLake (data lake Microsoft Fabric) dan diproses oleh Databricks (melewati Unity Catalog), Anda akan dikenakan biaya penyimpanan dan komputasi yang dibundel. Ini dapat menyebabkan biaya yang sekitar 3x lebih tinggi untuk bacaan dan 1,6x lebih tinggi untuk penulisan dibandingkan dengan Azure Data Lake Storage Gen2 untuk menyimpan, membaca, dan menulis data. Azure Blob Storage juga tidak kompatibel dengan Unity Catalog.

Fitur Azure Blob Storage Azure Data Lake Storage Gen2 OneLake
Didukung oleh Katalog Unity X X
Memerlukan pembelian kapasitas Fabric tambahan X X
Operasi yang didukung oleh mesin eksternal
  • Bacalah
  • Menulis
  • Bacalah
  • Menulis
  • Membaca (Membaca dikenakan biaya 3x dibandingkan dengan membaca data dari Azure Data Lake Storage Gen2).
  • Penulisan tidak didukung.

Untuk detailnya, lihat dokumentasi OneLake.
Penyebaran Wilayah Wilayah Global
Autentikasi Tanda Tangan Akses Bersama Entra ID Tanda Tangan Akses Bersama Entra ID Entra ID
Peristiwa penyimpanan X
Penghapusan sementara
Kontrol akses RBAC RBAC, ABAC, ACL RBAC (Hanya mendukung tabel/folder, ACL pintasan tidak didukung)
Kunci enkripsi X
Tingkat akses Arsip online Panas, sejuk, dingin, arsip Panas saja

Bagaimana Katalog Unity mengatur akses ke layanan cloud lainnya?

Katalog Unity mengatur akses ke layanan non-penyimpanan menggunakan objek yang dapat diamankan yang disebut kredensial layanan. Kredensial layanan menggambarkan kredensial cloud jangka panjang yang menyediakan akses ke layanan eksternal yang harus pengguna sambungkan dari Azure Databricks.

Kredensial layanan tidak dimaksudkan untuk mengatur akses ke penyimpanan cloud yang digunakan sebagai lokasi penyimpanan terkelola Katalog Unity atau lokasi penyimpanan eksternal. Untuk kasus penggunaan tersebut, gunakan kredensial penyimpanan, seperti yang dijelaskan dalam Bagaimana Katalog Unity mengatur akses ke penyimpanan cloud?.

Untuk detailnya, lihat:

Langkah berikutnya

Jika Anda baru saja mulai menggunakan Unity Catalog sebagai admin, lihat:

Jika Anda adalah pengguna baru dan ruang kerja Anda sudah diaktifkan untuk Katalog Unity, lihat:

Untuk mempelajari selengkapnya tentang cara mengelola akses ke penyimpanan cloud, lihat:

Untuk mempelajari selengkapnya tentang cara mengelola akses ke layanan cloud, lihat: