Membuat dan bekerja dengan tabel output di Databricks Clean Rooms
Artikel ini memperkenalkan tabel output, yang merupakan tabel sementara dengan akses baca-saja yang dihasilkan dari jalannya buku catatan dan dibagikan ke metastore Unity Catalog dari orang yang menjalankan buku catatan. Artikel ini menjelaskan cara menggunakan buku catatan untuk membuat tabel output dan bagaimana kolaborator dapat membaca tabel output ini di metastore Unity Catalog mereka.
Gambaran Umum tabel output
Tabel output memungkinkan Anda menyimpan sementara output buku catatan yang dijalankan di ruang bersih ke katalog output di metastore Katalog Unity Anda, di mana Anda dapat membuat data tersedia untuk anggota tim Anda yang tidak memiliki kemampuan untuk menjalankan buku catatan itu sendiri. Anda juga dapat menggunakan pekerjaan Azure Databricks untuk menjalankan buku catatan dan melakukan tugas pada tabel output. Dikombinasikan dengan jenis tugas buku catatan Clean Room dan dukungan untuk nilai tugas, tabel keluaran memungkinkan Anda membuat alur kerja kompleks yang bergantung pada buku catatan Clean Room.
Tabel output bersifat hanya-baca.
Hanya prinsipal tertentu (pengguna, grup, atau entitas layanan) yang menjalankan notebook yang memiliki akses baca default ke tabel hasil. Tidak ada akses tulis. Admin metastore dapat memberikan akses baca kepada pengguna lain di akun Azure Databricks mereka, menggunakan privilege Unity Catalog standar.
Tabel output disimpan selama 30 hari di lokasi penyimpanan default ruang bersih pusat dan dibagikan dengan metastore kolaborator menggunakan Delta Sharing. Jika Anda ingin menyimpan tabel output selama lebih dari 30 hari, Anda harus menyalinnya ke penyimpanan lokal.
Setiap buku catatan yang dijalankan membuat skema baru di katalog output. Eksekusi baru tidak dapat menambahkan tabel output yang ada.
Penting
Tabel output hanya didukung saat ruang bersih pusat dihosting di AWS atau Azure. Namun, kolaborator di Databricks di ketiga cloud—AWS, Azure, dan Google Cloud—dapat berbagi notebook yang membuat tabel output dan dapat membaca tabel output yang dihasilkan saat menjalankan notebook bersama. Kolaborator Google Cloud harus menjadi peserta dalam pratinjau pribadi Clean Rooms.
Membuat tabel output
Untuk membuat tabel output, gunakan parameter cr_output_catalog
dan cr_output_schema
di namespace tabel tiga bagian. Setiap eksekusi notebook menghasilkan skema baru.
Dalam contoh berikut, sel buku catatan membuat tabel output yang disebut overlapping_users
dalam katalog output kolaborator yang mencantumkan pengguna yang alamat emailnya muncul di tabel collaborator.advertiser.profiles
dan creator.publisher.profiles
.
CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email
Membaca tabel output
Tabel output muncul di katalog bersama di metastore notebook runner. Di jendela Katalog Catalog, mereka muncul dalam daftar katalog Bersama.
Membaca tabel output seperti membaca tabel lain di Katalog Unity. Anda harus memiliki SELECT
pada tabel, USE CATALOG
pada katalog output bersama, dan USE SCHEMA
pada skema yang dihasilkan secara otomatis. Pengguna yang menjalankan buku catatan yang membuat tabel memiliki izin ini secara default.
Sebelum Anda memulai
Bagian ini menjelaskan persyaratan cloud, konfigurasi, dan komputasi untuk membaca tabel output.
Persyaratan cloud
Meskipun ruang bersih pusat harus berada di AWS untuk mendukung tabel output, ruang kerja kolaborator dapat berada di salah satu dari tiga cloud: AWS, Azure, atau Google Cloud. Kolaborator Google Cloud harus menjadi peserta dalam pratinjau pribadi Clean Rooms.
Persyaratan katalog output bersama
Sebelum Anda dapat membaca tabel output, pengguna harus membuat katalog yang menyimpannya. Anda hanya perlu melakukan ini sekali per kamar yang bersih. Pemilik ruang bersih memiliki izin untuk membaca dan mengelola katalog output secara default.
Izin diperlukan: EXECUTE_CLEAN_ROOM_TASK
- Di ruang kerja Azure Databricks Anda, klik ikon Katalog
Katalog.
- Pada halaman
- Pilih ruang bersih dari daftar.
- Di panel kanan, di bawah Output, klik Buat katalog.
- Masukkan nama katalog keluaran di atau terima default, yaitu
<clean-room-name>_output
.
Katalog output muncul dalam daftar katalog
Persyaratan komputasi
Kueri pada tabel output memerlukan komputasi tanpa server. Lihat Menyambungkan ke komputasi tanpa server.
Izin yang diperlukan untuk membaca tabel output
Pengguna yang menjalankan buku catatan yang membuat tabel output dan pemilik ruang bersih memiliki izin untuk membaca dan mengelola tabel output secara default. Semua pengguna lain harus memiliki izin berikut yang diberikan kepada mereka:
-
SELECT
pada tabel -
USE CATALOG
pada katalog keluaran -
USE SCHEMA
pada skema output
Jalankan buku catatan
Untuk menghasilkan tabel output bersama di katalog output Anda, pengguna dengan akses ke ruang bersih harus menjalankan buku catatan. Lihat Menjalankan buku catatan di ruang bersih. Setiap buku catatan yang dijalankan membuat skema output dan tabel baru.
Tip
Anda dapat menggunakan pekerjaan Azure Databricks untuk menjalankan notebook dan melakukan tugas pada tabel output, memungkinkan alur kerja yang kompleks. Lihat Menggunakan Alur Kerja Azure Databricks untuk menjalankan buku catatan ruang bersih.
Menemukan dan melihat tabel output
Pengguna yang menjalankan buku catatan yang membuat tabel output dapat menemukan tautan ke tabel output pada riwayat eksekusi buku catatan dan halaman detail eksekusi di Clean Rooms UI. Dalam kedua kasus, tautan berada di bidang skema Output
Riwayat eksekusi:
tautan skema output
Jalankan detail:
tautan skema output
Anda juga dapat menemukan katalog output dalam daftar katalog Bersama di panel Katalog Explorer Anda.
Batasan
Selain persyaratan yang tercantum dalam Gambaran Umum tabel output dan Sebelum Anda mulai, tabel output memiliki batasan berikut:
- Tabel output hanya didukung ketika ruang bersih yang terpusat dihosting di AWS atau Azure dan ketika ruang bersih tersebut dibuat setelah fitur tabel output dirilis.
- Hanya tabel yang didukung. Volume dan tampilan, misalnya, tidak berhubungan.
- Anda bisa membuat hingga 100 tabel output per buku catatan.