Apa itu meja?
Tabel berada dalam skema dan berisi baris data. Semua tabel yang dibuat di Azure Databricks menggunakan Delta Lake secara default. Tabel yang didukung oleh Delta Lake juga disebut tabel Delta .
Tabel Delta menyimpan data sebagai direktori file di penyimpanan objek cloud dan mendaftarkan metadata tabel ke metastore dalam katalog dan skema. Semua tabel terkelola Unity Catalog dan tabel streaming adalah tabel Delta. Tabel eksternal Unity Catalog bisa berupa tabel Delta tetapi tidak harus.
Anda dapat membuat tabel di Databricks yang tidak menggunakan Delta Lake. Tabel ini tidak memberikan jaminan transaksi atau performa tabel Delta yang dioptimalkan.
Tabel menyimpan baris data. Tabel berada dalam skema dan berisi baris data. Contoh berikut menunjukkan tabel prod.people_ops_employees yang berisi data sekitar lima karyawan. Metadata terdaftar di Katalog Unity dan data disimpan di penyimpanan cloud.
Izin dasar pada tabel
Untuk membuat tabel, pengguna harus memiliki izin CREATE TABLE
dan USE SCHEMA
pada skema, dan mereka harus memiliki izin USE CATALOG
pada katalog induknya. Untuk mengkueri tabel, pengguna harus memiliki izin SELECT
pada tabel, izin USE SCHEMA
pada skema induknya, dan izin USE CATALOG
pada katalog induknya.
Untuk informasi selengkapnya tentang izin Katalog Unity, lihat Mengelola hak istimewa di Unity Catalog.
Tabel dalam Katalog Unity
Di Katalog Unity, tabel berada di tingkat ketiga namespace tiga tingkat (catalog.schema.table
), seperti yang diperlihatkan dalam tabel berikut. Tabel eksternal Unity Catalog bisa berupa tabel Delta tetapi tidak harus.
Tabel Delta
Didukung oleh Delta Lake, tabel Delta menyimpan data sebagai direktori file di penyimpanan objek cloud dan mendaftarkan metadata tabel ke metastore dalam katalog dan skema. Karena tabel Delta adalah default pada Databricks, sebagian besar referensi ke tabel menjelaskan perilaku tabel Delta kecuali dinyatakan lain. Semua tabel terkelola Unity Catalog dan tabel streaming adalah tabel Delta. Harap lihat Apa itu Delta Lake?.
Databricks merekomendasikan agar Anda selalu berinteraksi dengan tabel Delta menggunakan nama tabel yang lengkap, daripada jalur berkas.
Tabel terkelola
Tabel yang dikelola mengelola file-file data mendasar bersamaan dengan pendaftaran metastore. Databricks merekomendasikan agar Anda menggunakan tabel terkelola setiap kali Anda membuat tabel baru. Tabel terkelola Unity Catalog adalah default saat Anda membuat tabel di Azure Databricks. Mereka selalu menggunakan Delta Lake. Lihat : Bekerja dengan tabel terkelola.
Tabel eksternal
Tabel eksternal, terkadang disebut tabel yang tidak dikelola, data referensi yang disimpan di luar Databricks dalam sistem penyimpanan eksternal, seperti penyimpanan objek cloud. Mereka memisahkan manajemen file data yang mendasar dari pendaftaran metastore. Unity Catalog >mendukung tabel eksternal dalam beberapa format, termasuk Delta Lake. Tabel eksternal Unity Catalog dapat menyimpan file data menggunakan format umum yang dapat dibaca oleh sistem eksternal. Lihat Bekerja dengan tabel eksternal.
Tabel aliran data
Tabel streaming adalah tabel Delta yang terutama digunakan untuk memproses data inkremental. Sebagian besar pembaruan untuk tabel streaming terjadi melalui operasi refresh.
Anda dapat mendaftarkan tabel streaming di Unity Catalog menggunakan Databricks SQL atau menentukannya sebagai bagian dari alur DLT. Lihat Cara kerja tabel streaming, Memuat data menggunakan tabel streaming di Databricks SQL, dan Apa itu DLT?.
Tabel asing
Tabel eksternal mewakili data yang disimpan dalam sistem eksternal yang terhubung ke Azure Databricks melalui Lakehouse Federation. Tabel eksternal hanya dapat dibaca di Azure Databricks. Lihat Apa itu Federasi Lakehouse?.
Tabel fitur
Setiap tabel Delta yang dikelola oleh Katalog Unity yang memiliki kunci utama adalah tabel fitur. Anda dapat secara opsional mengonfigurasi tabel fitur menggunakan Penyimpanan Fitur online untuk kasus penggunaan latensi rendah. Lihat Cara bekerja dengan tabel fitur di Penyimpanan Karakteristik Ruang Kerja (versi lama).
Tabel Hive (versi lama)
Tabel Apache Hive menjelaskan dua konsep berbeda pada Azure Databricks, yang keduanya merupakan pola warisan dan tidak disarankan.
Tabel yang terdaftar menggunakan metastore Hive versi lama menyimpan data di direktori root DBFS lama, secara default. Databricks merekomendasikan migrasi semua tabel dari HMS warisan ke Unity Catalog. Lihat Objek database di metastore Hive lama.
Apache Spark mendukung pendaftaran dan kueri tabel Apache Hive, tetapi codec ini tidak dioptimalkan untuk Azure Databricks. Databricks merekomendasikan untuk mendaftarkan tabel Apache Hive hanya untuk mendukung kueri terhadap data yang ditulis oleh sistem eksternal. Lihat tabel Apache Hive (warisan).
Tabel langsung (tidak digunakan lagi)
Istilah tabel langsung mengacu pada implementasi fungsionalitas sebelumnya yang sekarang diimplementasikan sebagai tampilan materialisasi. Kode warisan apa pun yang mereferensikan tabel langsung harus diperbarui untuk menggunakan sintaks untuk tampilan materialisasi. Lihat Apa itu DLT? dan Gunakan tampilan materialisasi di Databricks SQL.