Bagikan melalui


Panduan keputusan Microsoft Fabric: pilih penyimpanan data

Gunakan panduan referensi ini dan contoh skenario untuk membantu Anda memilih penyimpanan data untuk beban kerja Microsoft Fabric Anda.

Properti penyimpanan data

Gunakan informasi ini untuk membandingkan penyimpanan data Fabric seperti gudang, lakehouse, Eventhouse, database SQL, dan datamart Power BI, berdasarkan volume data, jenis, persona pengembang, set keterampilan, operasi, dan kemampuan lainnya. Perbandingan ini diatur ke dalam dua tabel berikut:

Tabel 1 dari 2 rumah danau Gudang Eventhouse
volume data Tanpa Batas Tak Terbatas Tak Terbatas
Jenis data Tidak Terstruktur
setengah terstruktur
Terstruktur
Terstruktur
semi terstruktur (JSON)
Tidak Terstruktur
semi terstruktur,
Terstruktur
Persona pengembang utama Insinyur data, ilmuwan data Pengembang gudang data, arsitek data, insinyur data, pengembang database Pengembang aplikasi, ilmuwan data, insinyur data
keterampilan pengembangan primer Spark (Scala, PySpark, Spark SQL, R) SQL Tidak ada kode, KQL, SQL
Data diatur menurut Folder dan file, basis data, dan tabel Database, skema, dan tabel Database, skema, dan tabel
operasi baca Spark, T-SQL T-SQL, Spark* KQL, T-SQL, Spark
Operasi tulis Spark (Scala, PySpark, Spark SQL, R) T-SQL KQL, Spark, ekosistem konektor
Transaksi multi-tabel Tidak Ya Ya, untuk penyerapan multi-tabel
antarmuka pengembangan utama Notebook Spark, definisi tugas Spark Skrip SQL Kumpulan Kuery KQL, Basis Data KQL
Keamanan RLS, CLS**, tingkat tabel (T-SQL), tidak tersedia untuk Spark Object level, RLS, CLS, DDL/DML, pemadaman data dinamis RLS
Mengakses data melalui pintasan Ya Ya, melalui titik akhir analitik SQL Ya
Dapat menjadi sumber untuk pintasan Ya (file dan tabel) Ya (tabel-tabel) Ya
kueri di seluruh item Ya Ya Ya
Analitik tingkat lanjut Antarmuka untuk pemrosesan data skala besar, paralelisme data bawaan, dan toleransi kesalahan Antarmuka untuk pemrosesan data skala besar, paralelisme data bawaan, dan toleransi kesalahan Elemen asli Time Series, kemampuan geo-spasial dan kueri penuh
Dukungan pemformatan tingkat lanjut Tabel yang ditentukan menggunakan format file yang kompatibel dengan PARQUET, CSV, AVRO, JSON, dan Apache Hive Tabel yang ditentukan menggunakan format file yang kompatibel dengan PARQUET, CSV, AVRO, JSON, dan Apache Hive Pengindeksan penuh untuk teks gratis dan data semi-terstruktur seperti JSON
latensi penyerapan Tersedia secara instan untuk pencarian. Tersedia secara instan untuk pencarian Pengambilan data antrean, pengambilan data streaming memiliki latensi beberapa detik.

* Spark mendukung pembacaan dari tabel menggunakan pintasan, belum mendukung akses tampilan, prosedur tersimpan, fungsi, dll.

Tabel 2 dari 2 Fabric SQL database Power BI Datamart
volume data 4 TB Hingga 100 GB
Jenis data Terstruktur
setengah terstruktur
Tidak terstruktur
Terstruktur
Persona pengembang utama Pengembang AI, Pengembang aplikasi, pengembang database, admin DB Ilmuwan data, analis data
keterampilan utama pengembang SQL Tidak ada kode, SQL
Data disusun berdasarkan Database, skema, tabel Basis data, tabel, kueri
operasi baca T-SQL Spark, T-SQL
operasi tulis T-SQL Aliran Data, T-SQL
Transaksi Multi-tabel Ya, kepatuhan ACID penuh Tidak
antarmuka pengembangan utama Skrip SQL Power BI
Keamanan Level objek, RLS, CLS, DDL/DML, penyamaran data dinamis Editor RLS bawaan
Mengakses data melalui pintasan Ya Tidak
Dapat menjadi sumber untuk pintasan Ya (tabel-tabel) Tidak
pencarian di seluruh item Ya Tidak
Analitik tingkat lanjut Kemampuan analitik T-SQL, data direplikasi ke format delta parquet di OneLake untuk analisis data. Antarmuka untuk pemrosesan data dengan penyetelan performa otomatis
Dukungan pemformatan tingkat lanjut Dukungan tabel untuk OLTP, JSON, vektor, graf, XML, spasial, nilai kunci Tabel yang ditentukan menggunakan format file yang kompatibel dengan PARQUET, CSV, AVRO, JSON, dan Apache Hive
latensi penyerapan Tersedia langsung untuk pencarian Tersedia secara instan untuk mengajukan pertanyaan

** Keamanan tingkat kolom tersedia di Lakehouse melalui titik akhir analitik SQL, menggunakan T-SQL.

Skenario

Tinjau skenario ini untuk bantuan dalam memilih penyimpanan data di Fabric.

Skenario 1

Susan, pengembang profesional, baru menggunakan Microsoft Fabric. Mereka siap untuk mulai membersihkan, memodelkan, dan menganalisis data tetapi perlu memutuskan untuk membangun gudang data atau lakehouse. Setelah meninjau detail dalam tabel sebelumnya, poin keputusan utama adalah keterampilan yang dimiliki dan kebutuhan akan transaksi multi-tabel.

Susan telah menghabiskan bertahun-tahun membangun gudang data pada mesin database relasional, dan terbiasa dengan sintaks dan fungsionalitas SQL. Memikirkan tim yang lebih besar, konsumen utama data ini juga terampil dengan SQL dan alat analitik SQL. Susan memutuskan untuk menggunakan gudang Fabric, yang memungkinkan tim untuk berinteraksi terutama dengan T-SQL, sambil juga memungkinkan setiap pengguna Spark di organisasi untuk mengakses data.

Susan membuat gudang data baru dan berinteraksi dengannya menggunakan T-SQL sama seperti database server SQL lainnya. Sebagian besar kode T-SQL yang ada yang telah ditulisnya untuk membangun gudangnya di SQL Server akan bekerja pada gudang data Fabric membuat transisi menjadi mudah. Jika dia memilih, dia bahkan dapat menggunakan alat yang sama yang berfungsi dengan databasenya yang lain, seperti SQL Server Management Studio. Menggunakan editor SQL di portal Fabric, Susan dan anggota tim lainnya menulis kueri analitik yang mereferensikan gudang data lain dan tabel Delta di lakehouse hanya dengan menggunakan nama tiga bagian untuk melakukan kueri lintas database.

Skenario 2

Rob, seorang teknisi data, perlu menyimpan dan memodelkan beberapa terabyte data di Fabric. Tim ini memiliki campuran keterampilan PySpark dan T-SQL. Sebagian besar tim yang menjalankan kueri T-SQL adalah konsumen, dan oleh karena itu tidak perlu menulis pernyataan INSERT, UPDATE, atau DELETE. Pengembang yang tersisa nyaman bekerja di notebook, dan karena data disimpan di Delta, mereka dapat berinteraksi dengan sintaks SQL serupa.

Rob memutuskan untuk menggunakan lakehouse, yang memungkinkan tim teknik data untuk menggunakan beragam keterampilan mereka dalam pengelolaan data, sambil memungkinkan anggota tim yang sangat terampil dalam T-SQL untuk memanfaatkan data.

Skenario 3

Ash, pengembang warga, adalah pengembang Power BI. Mereka terbiasa dengan Excel, Power BI, dan Office. Mereka perlu membangun produk data untuk unit bisnis. Mereka tahu bahwa mereka tidak sepenuhnya memiliki keterampilan untuk membangun gudang data atau lakehouse, dan hal-hal tersebut tampak terlalu berlebihan untuk kebutuhan dan volume data mereka. Mereka meninjau detail dalam tabel sebelumnya dan melihat bahwa poin keputusan utama adalah keterampilan mereka sendiri dan kebutuhan mereka akan layanan mandiri, tidak ada kemampuan kode, dan volume data di bawah 100 GB.

Ash bekerja dengan analis bisnis yang akrab dengan Power BI dan Microsoft Office, dan tahu bahwa mereka sudah memiliki langganan kapasitas Premium. Saat mereka memikirkan tim mereka yang lebih besar, mereka menyadari konsumen utama data ini adalah analis, terbiasa dengan alat analitik tanpa kode dan SQL. Ash memutuskan untuk menggunakandatamart Power BI, yang memungkinkan tim berinteraksi membangun kemampuan dengan cepat, menggunakan pengalaman tanpa kode. Kueri dapat dijalankan melalui Power BI dan T-SQL, sekaligus memungkinkan setiap pengguna Spark di organisasi untuk mengakses data juga.

Skenario 4

Daisy adalah analis bisnis yang berpengalaman menggunakan Power BI untuk menganalisis hambatan rantai pasokan untuk rantai ritel global yang besar. Mereka perlu membangun solusi data yang dapat diskalakan yang dapat menangani miliaran baris data dan dapat digunakan untuk membangun dasbor dan laporan yang dapat digunakan untuk membuat keputusan bisnis. Data berasal dari pabrik, pemasok, pengirim, dan sumber lainnya dalam berbagai format terstruktur, semi-terstruktur, dan tidak terstruktur.

Daisy memutuskan untuk menggunakanEventhousekarena skalabilitasnya, waktu respons cepat, kemampuan analitik tingkat lanjut termasuk analisis rangkaian waktu, fungsi geospasial, dan mode kueri langsung yang cepat di Power BI. Kueri dapat dijalankan menggunakan Power BI dan KQL untuk membandingkan antara periode saat ini dan sebelumnya, dengan cepat mengidentifikasi masalah yang muncul, atau menyediakan analitik geo-spasial rute darat dan maritim.

Skenario 5

Kirby adalah arsitek aplikasi yang berpengalaman dalam mengembangkan aplikasi .NET untuk data operasional. Mereka membutuhkan database dengan konkurensi tinggi, kepatuhan transaksi ACID penuh, dan penerapan kunci asing yang ketat untuk integritas relasional. Kirby menginginkan manfaat penyetelan performa otomatis untuk menyederhanakan manajemen database sehari-hari.

Kirby memutuskan untuk menggunakan database SQL di Fabric, dengan Mesin Basis Data SQL yang sama seperti Azure SQL Database. Database SQL di Fabric secara otomatis diskalakan untuk memenuhi permintaan sepanjang hari kerja. Mereka memiliki kemampuan penuh dari tabel transaksi dan fleksibilitas tingkat isolasi transaksi mulai dari serializable hingga snapshot telah dikomit. Basis data SQL pada Fabric secara otomatis membuat dan menghapus indeks nonclustered berdasarkan sinyal kuat dari rencana eksekusi yang diamati dari waktu ke waktu.

Dalam skenario Kirby, data dari aplikasi operasional harus digabungkan dengan data lain di Fabric: di Spark, di dalam gudang data, dan dari peristiwa real-time di Eventhouse. Setiap database Fabric menyertakan titik akhir analitik SQL, sehingga memungkinkan akses data secara real-time dari Spark atau dengan kueri Power BI menggunakan mode DirectLake. Solusi pelaporan ini membebaskan database operasional utama dari beban overhead kerja analitik, dan mengeliminasi risiko denormalisasi. Kirby juga memiliki data operasional yang ada di database SQL lainnya, dan perlu mengimpor data tersebut tanpa transformasi. Untuk mengimpor data operasional yang ada tanpa konversi jenis data apa pun, Kirby merancang alur data dengan Fabric Data Factory untuk mengimpor data ke dalam database Fabric SQL.