Tabel Lakehouse dan Delta Lake

Artikel
03/09/2025

Microsoft Fabric Lakehouse adalah platform arsitektur data untuk menyimpan, mengelola, dan menganalisis data terstruktur dan tidak terstruktur dalam satu lokasi. Untuk mencapai akses data yang mulus di semua mesin komputasi di Microsoft Fabric, Delta Lake dipilih sebagai format tabel terpadu.

Menyimpan data di Lakehouse menggunakan kemampuan seperti Muat ke Tabel atau metode yang dijelaskan dalam Opsi untuk memasukkan data ke Fabric Lakehouse, semua data disimpan dalam format Delta.

Untuk pengenalan yang lebih komprehensif tentang format tabel Delta Lake, ikuti tautan di bagian Langkah berikutnya.

Format big data, Apache Spark, dan tabel warisan

Microsoft Fabric Runtime for Apache Spark menggunakan fondasi yang sama dengan Runtime Azure Synapse Analytics untuk Apache Spark, tetapi berisi perbedaan utama untuk memberikan perilaku yang lebih efisien di semua mesin dalam layanan Microsoft Fabric. Di Microsoft Fabric, fitur performa utama diaktifkan secara default. Pengguna Apache Spark tingkat lanjut dapat mengembalikan konfigurasi ke nilai sebelumnya agar lebih selaras dengan skenario tertentu.

Microsoft Fabric Lakehouse dan mesin Apache Spark mendukung semua jenis tabel, baik yang dikelola maupun tidak dikelola; ini termasuk tampilan dan format tabel Hive non-Delta reguler. Tabel yang ditentukan menggunakan PARQUET, CSV, AVRO, JSON, dan format file apa pun yang kompatibel dengan Apache Hive berfungsi seperti yang diharapkan.

Pengalaman antarmuka pengguna penjelajah Lakehouse bervariasi tergantung pada jenis tabel. Saat ini, perangkat penjelajah Lakehouse hanya merender objek tabel.

Perbedaan konfigurasi dengan Azure Synapse Analytics

Tabel berikut berisi perbedaan konfigurasi antara Azure Synapse Analytics dan Microsoft Fabric Runtime untuk Apache Spark.

Konfigurasi Apache Spark	Nilai Microsoft Fabric	Nilai Azure Synapse Analytics	Catatan
spark.sql.sources.default	delta	parket	Format tabel default
spark.sql.parquet.vorder.default	benar	Tidak Berlaku	Penulis V-Order
spark.sql.parquet.vorder.dictionaryPageSize	2 GB	Tidak Ada	Batas ukuran halaman kamus untuk V-Order
spark.databricks.delta.optimizeWrite.enabled	benar	tidak diatur (false)	Optimalkan Penulisan

Penemuan tabel secara otomatis

Penjelajah Lakehouse menyediakan tampilan objek seperti pohon dalam item Microsoft Fabric Lakehouse. Ini memiliki kemampuan utama untuk menemukan dan menampilkan tabel yang dijelaskan dalam repositori metadata dan di penyimpanan OneLake. Referensi tabel ditampilkan di bawah bagian Tables antarmuka pengguna penjelajah Lakehouse. Penemuan otomatis juga berlaku untuk tabel yang ditentukan melalui pintasan OneLake.

Tabel lebih penting daripada pintasan

Microsoft Fabric Lakehouse mendukung tabel yang ditentukan melalui pintasan OneLake, untuk memberikan kompatibilitas paling baik dan tidak ada pergerakan data. Tabel berikut berisi skenario praktik terbaik untuk setiap jenis item saat menggunakannya melalui pintasan.

Tujuan pintasan	Di mana membuat pintasan	Praktik terbaik
Tabel Delta Lake	`Tables` bagian	Jika beberapa tabel ada di tujuan, buat satu pintasan per tabel.
Folder dengan file	`Files` bagian	Gunakan Apache Spark untuk menggunakan tujuan secara langsung menggunakan jalur relatif. Muat data ke tabel Delta asli Lakehouse untuk performa maksimum.
Tabel Apache Hive versi lama	`Files` bagian	Gunakan Apache Spark untuk menggunakan tujuan secara langsung menggunakan jalur relatif, atau buat referensi katalog metadata menggunakan `CREATE EXTERNAL TABLE` sintaksis. Muat data ke tabel Delta asli Lakehouse untuk performa maksimum.

Muat ke Tabel

Microsoft Fabric Lakehouse menyediakan antarmuka pengguna yang nyaman dan produktif untuk menyederhanakan pemuatan data ke dalam tabel Delta. Fitur Muat ke Tabel memungkinkan pengalaman visual untuk memuat format file umum ke Delta, sehingga meningkatkan produktivitas analitik bagi semua pengguna. Untuk mempelajari selengkapnya tentang fitur Muat ke Tabel secara detail, baca dokumentasi referensi Lakehouse Load to Tables .

Pengoptimalan tabel Delta Lake

Menjaga tabel terjaga dengan baik untuk cakupan skenario analitik yang luas bukanlah hal yang mudah. Microsoft Fabric Lakehouse secara proaktif mengaktifkan parameter penting untuk meminimalkan masalah umum yang terkait dengan tabel big data, seperti pemadatan dan ukuran file yang terlalu kecil, serta untuk memaksimalkan performa kueri. Namun, ada banyak skenario di mana parameter tersebut membutuhkan perubahan. Artikel Pengoptimalan tabel Delta Lake dan V-Order mencakup beberapa skenario utama dan memberikan panduan mendalam tentang cara mempertahankan tabel Delta secara efisien untuk performa maksimum.

Bagikan melalui

Tabel Lakehouse dan Delta Lake

Format big data, Apache Spark, dan tabel warisan

Perbedaan konfigurasi dengan Azure Synapse Analytics

Penemuan tabel secara otomatis

Tabel lebih penting daripada pintasan

Muat ke Tabel

Pengoptimalan tabel Delta Lake

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Tabel Lakehouse dan Delta Lake

Format big data, Apache Spark, dan tabel warisan

Perbedaan konfigurasi dengan Azure Synapse Analytics

Penemuan tabel secara otomatis

Tabel lebih penting daripada pintasan

Muat ke Tabel

Pengoptimalan tabel Delta Lake

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: