Tabel Lakehouse dan Delta Lake
Microsoft Fabric Lakehouse adalah platform arsitektur data untuk menyimpan, mengelola, dan menganalisis data terstruktur dan tidak terstruktur dalam satu lokasi. Untuk mencapai akses data yang mulus di semua mesin komputasi di Microsoft Fabric, Delta Lake dipilih sebagai format tabel terpadu.
Menyimpan data di Lakehouse menggunakan kemampuan seperti Muat ke Tabel atau metode yang dijelaskan dalam Opsi untuk memasukkan data ke Fabric Lakehouse, semua data disimpan dalam format Delta.
Untuk pengenalan yang lebih komprehensif tentang format tabel Delta Lake, ikuti tautan di bagian Langkah berikutnya.
Format big data, Apache Spark, dan tabel warisan
Microsoft Fabric Runtime for Apache Spark menggunakan fondasi yang sama dengan Runtime Azure Synapse Analytics untuk Apache Spark, tetapi berisi perbedaan utama untuk memberikan perilaku yang lebih efisien di semua mesin dalam layanan Microsoft Fabric. Di Microsoft Fabric, fitur performa utama diaktifkan secara default. Pengguna Apache Spark tingkat lanjut dapat mengembalikan konfigurasi ke nilai sebelumnya agar lebih selaras dengan skenario tertentu.
Microsoft Fabric Lakehouse dan mesin Apache Spark mendukung semua jenis tabel, baik yang dikelola maupun tidak dikelola; ini termasuk tampilan dan format tabel Hive non-Delta reguler. Tabel yang ditentukan menggunakan PARQUET, CSV, AVRO, JSON, dan format file apa pun yang kompatibel dengan Apache Hive berfungsi seperti yang diharapkan.
Pengalaman antarmuka pengguna penjelajah Lakehouse bervariasi tergantung pada jenis tabel. Saat ini, perangkat penjelajah Lakehouse hanya merender objek tabel.
Perbedaan konfigurasi dengan Azure Synapse Analytics
Tabel berikut berisi perbedaan konfigurasi antara Azure Synapse Analytics dan Microsoft Fabric Runtime untuk Apache Spark.
Konfigurasi Apache Spark | Nilai Microsoft Fabric | Nilai Azure Synapse Analytics | Catatan |
---|---|---|---|
spark.sql.sources.default | delta | parket | Format tabel default |
spark.sql.parquet.vorder.default | benar | Tidak Berlaku | Penulis V-Order |
spark.sql.parquet.vorder.dictionaryPageSize | 2 GB | Tidak Ada | Batas ukuran halaman kamus untuk V-Order |
spark.databricks.delta.optimizeWrite.enabled | benar | tidak diatur (false) | Optimalkan Penulisan |
Penemuan tabel secara otomatis
Penjelajah Lakehouse menyediakan tampilan objek seperti pohon dalam item Microsoft Fabric Lakehouse. Ini memiliki kemampuan utama untuk menemukan dan menampilkan tabel yang dijelaskan dalam repositori metadata dan di penyimpanan OneLake. Referensi tabel ditampilkan di bawah bagian Tables
antarmuka pengguna penjelajah Lakehouse. Penemuan otomatis juga berlaku untuk tabel yang ditentukan melalui pintasan OneLake.
Tabel lebih penting daripada pintasan
Microsoft Fabric Lakehouse mendukung tabel yang ditentukan melalui pintasan OneLake, untuk memberikan kompatibilitas paling baik dan tidak ada pergerakan data. Tabel berikut berisi skenario praktik terbaik untuk setiap jenis item saat menggunakannya melalui pintasan.
Tujuan pintasan | Di mana membuat pintasan | Praktik terbaik |
---|---|---|
Tabel Delta Lake |
Tables bagian |
Jika beberapa tabel ada di tujuan, buat satu pintasan per tabel. |
Folder dengan file |
Files bagian |
Gunakan Apache Spark untuk menggunakan tujuan secara langsung menggunakan jalur relatif. Muat data ke tabel Delta asli Lakehouse untuk performa maksimum. |
Tabel Apache Hive versi lama |
Files bagian |
Gunakan Apache Spark untuk menggunakan tujuan secara langsung menggunakan jalur relatif, atau buat referensi katalog metadata menggunakan CREATE EXTERNAL TABLE sintaksis. Muat data ke tabel Delta asli Lakehouse untuk performa maksimum. |
Muat ke Tabel
Microsoft Fabric Lakehouse menyediakan antarmuka pengguna yang nyaman dan produktif untuk menyederhanakan pemuatan data ke dalam tabel Delta. Fitur Muat ke Tabel memungkinkan pengalaman visual untuk memuat format file umum ke Delta, sehingga meningkatkan produktivitas analitik bagi semua pengguna. Untuk mempelajari selengkapnya tentang fitur Muat ke Tabel secara detail, baca dokumentasi referensi Lakehouse Load to Tables .
Pengoptimalan tabel Delta Lake
Menjaga tabel terjaga dengan baik untuk cakupan skenario analitik yang luas bukanlah hal yang mudah. Microsoft Fabric Lakehouse secara proaktif mengaktifkan parameter penting untuk meminimalkan masalah umum yang terkait dengan tabel big data, seperti pemadatan dan ukuran file yang terlalu kecil, serta untuk memaksimalkan performa kueri. Namun, ada banyak skenario di mana parameter tersebut membutuhkan perubahan. Artikel Pengoptimalan tabel Delta Lake dan V-Order mencakup beberapa skenario utama dan memberikan panduan mendalam tentang cara mempertahankan tabel Delta secara efisien untuk performa maksimum.