Panduan keputusan Microsoft Fabric: pilih penyimpanan data

Artikel
01/27/2025

Gunakan panduan referensi ini dan contoh skenario untuk membantu Anda memilih penyimpanan data untuk beban kerja Microsoft Fabric Anda.

Properti penyimpanan data

Gunakan informasi ini untuk membandingkan penyimpanan data Fabric seperti gudang, lakehouse, Eventhouse, database SQL, dan datamart Power BI, berdasarkan volume data, jenis, persona pengembang, set keterampilan, operasi, dan kemampuan lainnya. Perbandingan ini diatur ke dalam dua tabel berikut:

Tabel 1 dari 2	rumah danau	Gudang	Eventhouse
volume data	Tanpa Batas	Tak Terbatas	Tak Terbatas
Jenis data	Tidak Terstruktur setengah terstruktur Terstruktur	Terstruktur semi terstruktur (JSON)	Tidak Terstruktur semi terstruktur, Terstruktur
Persona pengembang utama	Insinyur data, ilmuwan data	Pengembang gudang data, arsitek data, insinyur data, pengembang database	Pengembang aplikasi, ilmuwan data, insinyur data
keterampilan pengembangan primer	Spark (Scala, PySpark, Spark SQL, R)	SQL	Tidak ada kode, KQL, SQL
Data diatur menurut	Folder dan file, basis data, dan tabel	Database, skema, dan tabel	Database, skema, dan tabel
operasi baca	Spark, T-SQL	T-SQL, Spark*	KQL, T-SQL, Spark
Operasi tulis	Spark (Scala, PySpark, Spark SQL, R)	T-SQL	KQL, Spark, ekosistem konektor
Transaksi multi-tabel	Tidak	Ya	Ya, untuk penyerapan multi-tabel
antarmuka pengembangan utama	Notebook Spark, definisi tugas Spark	Skrip SQL	Kumpulan Kuery KQL, Basis Data KQL
Keamanan	RLS, CLS**, tingkat tabel (T-SQL), tidak tersedia untuk Spark	Object level, RLS, CLS, DDL/DML, pemadaman data dinamis	RLS
Mengakses data melalui pintasan	Ya	Ya, melalui titik akhir analitik SQL	Ya
Dapat menjadi sumber untuk pintasan	Ya (file dan tabel)	Ya (tabel-tabel)	Ya
kueri di seluruh item	Ya	Ya	Ya
Analitik tingkat lanjut	Antarmuka untuk pemrosesan data skala besar, paralelisme data bawaan, dan toleransi kesalahan	Antarmuka untuk pemrosesan data skala besar, paralelisme data bawaan, dan toleransi kesalahan	Elemen asli Time Series, kemampuan geo-spasial dan kueri penuh
Dukungan pemformatan tingkat lanjut	Tabel yang ditentukan menggunakan format file yang kompatibel dengan PARQUET, CSV, AVRO, JSON, dan Apache Hive	Tabel yang ditentukan menggunakan format file yang kompatibel dengan PARQUET, CSV, AVRO, JSON, dan Apache Hive	Pengindeksan penuh untuk teks gratis dan data semi-terstruktur seperti JSON
latensi penyerapan	Tersedia secara instan untuk pencarian.	Tersedia secara instan untuk pencarian	Pengambilan data antrean, pengambilan data streaming memiliki latensi beberapa detik.

* Spark mendukung pembacaan dari tabel menggunakan pintasan, belum mendukung akses tampilan, prosedur tersimpan, fungsi, dll.

Tabel 2 dari 2	Fabric SQL database	Power BI Datamart
volume data	4 TB	Hingga 100 GB
Jenis data	Terstruktur setengah terstruktur Tidak terstruktur	Terstruktur
Persona pengembang utama	Pengembang AI, Pengembang aplikasi, pengembang database, admin DB	Ilmuwan data, analis data
keterampilan utama pengembang	SQL	Tidak ada kode, SQL
Data disusun berdasarkan	Database, skema, tabel	Basis data, tabel, kueri
operasi baca	T-SQL	Spark, T-SQL
operasi tulis	T-SQL	Aliran Data, T-SQL
Transaksi Multi-tabel	Ya, kepatuhan ACID penuh	Tidak
antarmuka pengembangan utama	Skrip SQL	Power BI
Keamanan	Level objek, RLS, CLS, DDL/DML, penyamaran data dinamis	Editor RLS bawaan
Mengakses data melalui pintasan	Ya	Tidak
Dapat menjadi sumber untuk pintasan	Ya (tabel-tabel)	Tidak
pencarian di seluruh item	Ya	Tidak
Analitik tingkat lanjut	Kemampuan analitik T-SQL, data direplikasi ke format delta parquet di OneLake untuk analisis data.	Antarmuka untuk pemrosesan data dengan penyetelan performa otomatis
Dukungan pemformatan tingkat lanjut	Dukungan tabel untuk OLTP, JSON, vektor, graf, XML, spasial, nilai kunci	Tabel yang ditentukan menggunakan format file yang kompatibel dengan PARQUET, CSV, AVRO, JSON, dan Apache Hive
latensi penyerapan	Tersedia langsung untuk pencarian	Tersedia secara instan untuk mengajukan pertanyaan

** Keamanan tingkat kolom tersedia di Lakehouse melalui titik akhir analitik SQL, menggunakan T-SQL.

Skenario

Tinjau skenario ini untuk bantuan dalam memilih penyimpanan data di Fabric.

Skenario 1

Susan, pengembang profesional, baru menggunakan Microsoft Fabric. Mereka siap untuk mulai membersihkan, memodelkan, dan menganalisis data tetapi perlu memutuskan untuk membangun gudang data atau lakehouse. Setelah meninjau detail dalam tabel sebelumnya, poin keputusan utama adalah keterampilan yang dimiliki dan kebutuhan akan transaksi multi-tabel.

Susan telah menghabiskan bertahun-tahun membangun gudang data pada mesin database relasional, dan terbiasa dengan sintaks dan fungsionalitas SQL. Memikirkan tim yang lebih besar, konsumen utama data ini juga terampil dengan SQL dan alat analitik SQL. Susan memutuskan untuk menggunakan gudang Fabric, yang memungkinkan tim untuk berinteraksi terutama dengan T-SQL, sambil juga memungkinkan setiap pengguna Spark di organisasi untuk mengakses data.

Susan membuat gudang data baru dan berinteraksi dengannya menggunakan T-SQL sama seperti database server SQL lainnya. Sebagian besar kode T-SQL yang ada yang telah ditulisnya untuk membangun gudangnya di SQL Server akan bekerja pada gudang data Fabric membuat transisi menjadi mudah. Jika dia memilih, dia bahkan dapat menggunakan alat yang sama yang berfungsi dengan databasenya yang lain, seperti SQL Server Management Studio. Menggunakan editor SQL di portal Fabric, Susan dan anggota tim lainnya menulis kueri analitik yang mereferensikan gudang data lain dan tabel Delta di lakehouse hanya dengan menggunakan nama tiga bagian untuk melakukan kueri lintas database.

Skenario 2

Rob, seorang teknisi data, perlu menyimpan dan memodelkan beberapa terabyte data di Fabric. Tim ini memiliki campuran keterampilan PySpark dan T-SQL. Sebagian besar tim yang menjalankan kueri T-SQL adalah konsumen, dan oleh karena itu tidak perlu menulis pernyataan INSERT, UPDATE, atau DELETE. Pengembang yang tersisa nyaman bekerja di notebook, dan karena data disimpan di Delta, mereka dapat berinteraksi dengan sintaks SQL serupa.

Rob memutuskan untuk menggunakan lakehouse, yang memungkinkan tim teknik data untuk menggunakan beragam keterampilan mereka dalam pengelolaan data, sambil memungkinkan anggota tim yang sangat terampil dalam T-SQL untuk memanfaatkan data.

Skenario 3

Ash, pengembang warga, adalah pengembang Power BI. Mereka terbiasa dengan Excel, Power BI, dan Office. Mereka perlu membangun produk data untuk unit bisnis. Mereka tahu bahwa mereka tidak sepenuhnya memiliki keterampilan untuk membangun gudang data atau lakehouse, dan hal-hal tersebut tampak terlalu berlebihan untuk kebutuhan dan volume data mereka. Mereka meninjau detail dalam tabel sebelumnya dan melihat bahwa poin keputusan utama adalah keterampilan mereka sendiri dan kebutuhan mereka akan layanan mandiri, tidak ada kemampuan kode, dan volume data di bawah 100 GB.

Ash bekerja dengan analis bisnis yang akrab dengan Power BI dan Microsoft Office, dan tahu bahwa mereka sudah memiliki langganan kapasitas Premium. Saat mereka memikirkan tim mereka yang lebih besar, mereka menyadari konsumen utama data ini adalah analis, terbiasa dengan alat analitik tanpa kode dan SQL. Ash memutuskan untuk menggunakandatamart Power BI, yang memungkinkan tim berinteraksi membangun kemampuan dengan cepat, menggunakan pengalaman tanpa kode. Kueri dapat dijalankan melalui Power BI dan T-SQL, sekaligus memungkinkan setiap pengguna Spark di organisasi untuk mengakses data juga.

Skenario 4

Daisy adalah analis bisnis yang berpengalaman menggunakan Power BI untuk menganalisis hambatan rantai pasokan untuk rantai ritel global yang besar. Mereka perlu membangun solusi data yang dapat diskalakan yang dapat menangani miliaran baris data dan dapat digunakan untuk membangun dasbor dan laporan yang dapat digunakan untuk membuat keputusan bisnis. Data berasal dari pabrik, pemasok, pengirim, dan sumber lainnya dalam berbagai format terstruktur, semi-terstruktur, dan tidak terstruktur.

Daisy memutuskan untuk menggunakanEventhousekarena skalabilitasnya, waktu respons cepat, kemampuan analitik tingkat lanjut termasuk analisis rangkaian waktu, fungsi geospasial, dan mode kueri langsung yang cepat di Power BI. Kueri dapat dijalankan menggunakan Power BI dan KQL untuk membandingkan antara periode saat ini dan sebelumnya, dengan cepat mengidentifikasi masalah yang muncul, atau menyediakan analitik geo-spasial rute darat dan maritim.

Skenario 5

Kirby adalah arsitek aplikasi yang berpengalaman dalam mengembangkan aplikasi .NET untuk data operasional. Mereka membutuhkan database dengan konkurensi tinggi, kepatuhan transaksi ACID penuh, dan penerapan kunci asing yang ketat untuk integritas relasional. Kirby menginginkan manfaat penyetelan performa otomatis untuk menyederhanakan manajemen database sehari-hari.

Kirby memutuskan untuk menggunakan database SQL di Fabric, dengan Mesin Basis Data SQL yang sama seperti Azure SQL Database. Database SQL di Fabric secara otomatis diskalakan untuk memenuhi permintaan sepanjang hari kerja. Mereka memiliki kemampuan penuh dari tabel transaksi dan fleksibilitas tingkat isolasi transaksi mulai dari serializable hingga snapshot telah dikomit. Basis data SQL pada Fabric secara otomatis membuat dan menghapus indeks nonclustered berdasarkan sinyal kuat dari rencana eksekusi yang diamati dari waktu ke waktu.

Dalam skenario Kirby, data dari aplikasi operasional harus digabungkan dengan data lain di Fabric: di Spark, di dalam gudang data, dan dari peristiwa real-time di Eventhouse. Setiap database Fabric menyertakan titik akhir analitik SQL, sehingga memungkinkan akses data secara real-time dari Spark atau dengan kueri Power BI menggunakan mode DirectLake. Solusi pelaporan ini membebaskan database operasional utama dari beban overhead kerja analitik, dan mengeliminasi risiko denormalisasi. Kirby juga memiliki data operasional yang ada di database SQL lainnya, dan perlu mengimpor data tersebut tanpa transformasi. Untuk mengimpor data operasional yang ada tanpa konversi jenis data apa pun, Kirby merancang alur data dengan Fabric Data Factory untuk mengimpor data ke dalam database Fabric SQL.

Bagikan melalui

Panduan keputusan Microsoft Fabric: pilih penyimpanan data

Properti penyimpanan data

Skenario

Skenario 1

Skenario 2

Skenario 3

Skenario 4

Skenario 5

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Panduan keputusan Microsoft Fabric: pilih penyimpanan data

Properti penyimpanan data

Skenario

Skenario 1

Skenario 2

Skenario 3

Skenario 4

Skenario 5

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: