Aracılığıyla paylaş


Microsoft Fabric karar kılavuzu: veri deposu seçme

Microsoft Fabric iş yükleriniz için bir veri deposu seçmenize yardımcı olması için bu başvuru kılavuzunu ve örnek senaryoları kullanın.

Veri deposu özellikleri

Ambar, göl evi, Eventhouse, SQL veritabanı ve Power BI datamart gibi Doku veri depolarını veri hacmi, tür, geliştirici kişisi, beceri kümesi, işlemler ve diğer özelliklere göre karşılaştırmak için bu bilgileri kullanın. Bu karşılaştırmalar aşağıdaki iki tablo halinde düzenlenmiştir:

Tablo 1 / 2 Lakehouse Ambarı Eventhouse
Veri birimi Sınırsız Sınırsız Sınırsız
Veri türü Yapılandırılmamış
yarı yapılandırılmış,
yapılandırılmış
Yapılandırılmış
yarı yapılandırılmış (JSON)
Yapılandırılmamış
yarı yapılandırılmış,
yapılandırılmış
Birincil geliştirici kişisi Veri mühendisi, veri bilimcisi Veri ambarı geliştiricisi, veri mimarı, veri mühendisi, veritabanı geliştiricisi Uygulama geliştirici, veri bilimcisi, veri mühendisi
Temel geliştirme becerisi Spark (Scala, PySpark, Spark SQL, R) SQL Kod yok, KQL, SQL
Verileri göre düzenlenmiş Klasörler ve dosyalar, veritabanları ve tablolar Veritabanları, şemalar ve tablolar Veritabanları, şemalar ve tablolar
Okuma işlemleri Spark, T-SQL T-SQL, Spark* KQL, T-SQL, Spark
Yazma işlemleri Spark (Scala, PySpark, Spark SQL, R) T-SQL KQL, Spark, bağlayıcı ekosistemi
Çok tablolu işlemler Hayır Evet Evet, çok tablolu veri alımı için
Birincil geliştirme arabirimi Spark not defterleri, Spark iş tanımları SQL betikleri KQL Queryset, KQL Veritabanı
Güvenlik RLS, CLS**, tablo düzeyi (T-SQL), Spark için yok Nesne düzeyi, RLS, CLS, DDL/DML, dinamik veri maskeleme RLS
Kısayollar aracılığıyla verilere erişme Evet Evet, SQL analitik uç noktası aracılığıyla Evet
Kısayollar için kaynak olabilir Evet (dosyalar ve tablolar) Evet (tablolar) Evet
öğeler arasında sorgu Evet Evet Evet
Gelişmiş analiz Büyük ölçekli veri işleme, yerleşik veri paralelliği ve hataya dayanıklılık için arabirim Büyük ölçekli veri işleme, yerleşik veri paralelliği ve hataya dayanıklılık için arabirim Time Series yerel öğeleri, tam coğrafi uzamsal ve sorgu özellikleri
Gelişmiş biçimlendirme desteği PARQUET, CSV, AVRO, JSON ve Apache Hive uyumlu herhangi bir dosya biçimi kullanılarak tanımlanan tablolar PARQUET, CSV, AVRO, JSON ve Apache Hive uyumlu herhangi bir dosya biçimi kullanılarak tanımlanan tablolar Serbest metin ve JSON gibi yarı yapılandırılmış veriler için tam dizin oluşturma
alma gecikme süresi Sorgulama için anında kullanılabilir Sorgulama için anında kullanılabilir Kuyruğa alınmış veri alımı ve akış veri alımı birkaç saniye gecikme süresine sahiptir.

* Spark, kısayolları kullanarak tablolardan okumayı destekler, henüz görünümlere, saklı yordamlara, işlevlere vb. erişmeyi desteklemez.

Tablo 2 / 2 Fabric SQL veritabanı Power BI Datamart
Veri birimi 4 TB En fazla 100 GB
Veri Türü Yapılandırılmış
yarı yapılandırılmış,
Yapılandırılmamış
Yapılandırılmış
Birincil geliştirici kişisi Yapay zeka geliştiricisi, Uygulama geliştiricisi, veritabanı geliştiricisi, DB yöneticisi Veri bilimcisi, veri analisti
Temel geliştirme becerisi SQL Kod yok, SQL
Verileri göre düzenlenmiş Veritabanları, şemalar, tablolar Veritabanı, tablolar, sorgular
Okuma işlemleri T-SQL Spark, T-SQL
Yazma işlemleri T-SQL Veri akışları, T-SQL
Çok tablolu işlemler Evet, tam ACID uyumluluğu Hayır
Birincil geliştirme arabirimi SQL betikleri Power BI
Güvenlik Nesne düzeyi, RLS, CLS, DDL/DML, dinamik veri maskeleme Yerleşik RLS düzenleyicisi
Kısayollar aracılığıyla verilere erişme Evet Hayır
Kısayollar için kaynak olabilir Evet (tablolar) Hayır
Öğeler arasında sorgulama Evet Hayır
Gelişmiş analiz T-SQL analitik özellikleri, analiz için OneLake'e kopyalanan verilerin Delta Parquet formatında olmasıyla sağlanır. Otomatik performans ayarlama ile veri işleme arabirimi
Gelişmiş biçimlendirme desteği OLTP, JSON, vektör, grafik, XML, uzamsal, anahtar-değer için tablo desteği PARQUET, CSV, AVRO, JSON ve Apache Hive uyumlu herhangi bir dosya biçimi kullanılarak tanımlanan tablolar
alma gecikme süresi Sorgulama için anında kullanılabilir Sorgulama için anında kullanılabilir

** T-SQL kullanarak SQL analiz uç noktası üzerinden Lakehouse'da sütun düzeyinde güvenlik sağlanır.

Senaryo

Doku'da veri deposu seçme konusunda yardım için bu senaryoları gözden geçirin.

Senaryo 1

Profesyonel bir geliştirici olan Susan, Microsoft Fabric'i yeni kullanmaya başladı. Verileri temizlemeye, modellemeye ve analiz etmeye başlamaya hazırdır ancak veri ambarı veya göl evi oluşturmaya karar vermeleri gerekir. Önceki tablodaki ayrıntılar gözden geçirildikten sonra, birincil karar noktaları kullanılabilir beceri kümesi ve çok tablolu işlemlere duyulan gereksinimdir.

Susan, ilişkisel veritabanı altyapılarında veri ambarları oluşturmak için uzun yıllar harcadı ve SQL söz dizimi ve işlevselliği hakkında bilgi sahibidir. Daha büyük bir ekibi düşündüğümüzde, bu verilerin birincil tüketicileri de SQL ve SQL analiz araçları konusunda yeteneklidir. Susan, ekibin öncelikli olarak T-SQL ile etkileşim kurmasını sağlarken kuruluştaki tüm Spark kullanıcılarının da verilere erişmesine izin veren bir Fabric ambarıkullanmaya karar verir.

Susan yeni bir veri ambarı oluşturur ve diğer SQL sunucusu veritabanları gibi T-SQL kullanarak bu veri ambarıyla etkileşim kurar. SQL Server'da ambarını oluşturmak için yazdığı mevcut T-SQL kodunun çoğu, Fabric veri ambarında çalışır ve geçişi kolaylaştırır. Eğer o isterse, SQL Server Management Studio gibi diğer veritabanlarıyla çalışan aynı araçları bile kullanabilir. Fabric portalında SQL düzenleyicisini kullanarak Susan ve diğer ekip üyeleri, lakehouse'lardaki Delta tablolarına ve diğer veri ambarlarına başvuran analiz sorguları yazmak için yalnızca üç parçalı adlar kullanarak veritabanları arası sorgular gerçekleştirir.

Senaryo 2

Veri mühendisi Rob'un Fabric'te birkaç terabayt veri depolaması ve modellemesi gerekir. Ekip, PySpark ve T-SQL becerilerinin bir karışımına sahiptir. T-SQL sorgularını çalıştıran ekibin çoğu tüketicidir ve bu nedenle INSERT, UPDATE veya DELETE deyimleri yazması gerekmez. Kalan geliştiriciler not defterlerinde rahatça çalışabilir ve veriler Delta'da depolandığından benzer bir SQL söz dizimi ile etkileşim kurabiliyorlar.

Rob bir lakehousekullanmaya karar verir, bu da veri mühendisliği ekibinin çeşitli becerilerini veriler üzerinde uygulamasına olanak tanırken, T-SQL'de yüksek vasıflı olan ekip üyelerinin verilere erişmesine ve kullanmasına izin verir.

Senaryo 3

Bir vatandaş geliştirici olan Ash, bir Power BI geliştiricisi. Excel, Power BI ve Office hakkında bilgi sahibidirler. Bir iş birimi için veri ürünü oluşturmaları gerekir. Veri ambarı veya göl evi oluşturma becerilerine sahip olmadığını biliyorlar ve bunlar ihtiyaçları ve veri hacimleri için çok fazla gibi görünüyor. Önceki tablodaki ayrıntıları gözden geçirir ve birincil karar noktalarının kendi becerileri ve self servis, kod özelliği yok ve 100 GB'ın altındaki veri hacmine olan ihtiyaçları olduğunu görürler.

Ash, Power BI ve Microsoft Office hakkında bilgi sahibi olan iş analistleriyle birlikte çalışır ve zaten bir Premium kapasite aboneliğine sahip olduklarını bilir. Büyük ekiplerini düşünürken, bu verilerin birincil tüketicilerinin kod içermeyen ve SQL analiz araçlarına aşina olan analistler olduğunu fark ederler. Ash, Power BI datamartkullanmaya karar veriyor ve bu, ekibin kod gerektirmeyen bir deneyimle hızlı bir şekilde yetenek geliştirmesini ve etkileşim kurmasını sağlıyor. Sorgular Power BI ve T-SQL aracılığıyla yürütülebilir ve kuruluştaki Spark kullanıcılarının da verilere erişmesine olanak sağlar.

Senaryo 4

Daisy, büyük bir küresel perakende zincirinin tedarik zinciri performans sorunlarını analiz etmek için Power BI kullanma konusunda deneyimli iş analistidir. Milyarlarca veri satırını işleyebilen ve iş kararları almak için kullanılabilecek panolar ve raporlar oluşturmak için kullanılabilen ölçeklenebilir bir veri çözümü oluşturmaları gerekir. Veriler çeşitli yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış biçimlerdeki tesislerden, tedarikçilerden, nakliyecilerden ve diğer kaynaklardan gelir.

Daisy ölçeklenebilirliği, hızlı yanıt süreleri, zaman serisi analizi, jeo-uzamsal işlevler ve Power BI'daki hızlı doğrudan sorgu modu gibi gelişmiş analiz özellikleri nedeniyle eventhouse kullanmaya karar verir. Mevcut ve önceki dönemler arasında karşılaştırma yapmak, ortaya çıkan sorunları hızla belirlemek veya kara ve deniz yolları için jeo-uzamsal analiz sağlamak için Power BI ve KQL kullanılarak sorgular yürütülebilir.

Senaryo 5

Kirby, işletimsel veriler için .NET uygulamaları geliştirme konusunda deneyimli bir uygulama mimarıdır. İlişkisel bütünlük için tam ACID işlem uyumluluğu ve güçlü bir şekilde zorunlu yabancı anahtarlara sahip yüksek eşzamanlılık veritabanına ihtiyaç duyarlar. Kirby, günlük veritabanı yönetimini basitleştirmek için otomatik performans ayarlama avantajını istiyor.

Kirby, Azure SQL Veritabanı ile aynı SQL Veritabanı Altyapısı ile Fabric'te birSQL veritabanı seçer. Fabric'teki SQL veritabanları, iş günü boyunca talebi karşılayacak şekilde otomatik olarak ölçeklendirilir. Bunlar, işlem tablolarının tam kapasitesine ve serileştirilebilirden okunan anlık görüntüye kadar işlem yalıtım düzeylerinin esnekliğine sahiptir. Fabric üzerindeki SQL veritabanı, zamanla gözlemlenen yürütme planlarından gelen güçlü sinyallere göre otomatik olarak kümelenmemiş dizinler bırakır ve oluşturur.

Kirby'nin senaryosunda, işletimsel uygulamadaki veriler Fabric içerisindeki diğer verilerle birleştirilmelidir: Spark'ta, bir veri ambarında ve Eventhouse'taki gerçek zamanlı olaylardan elde edilen verilerle. Her Doku veritabanı bir SQL analiz uç noktası içerdiğinden, verilere Spark'tan veya DirectLake modu kullanılarak Power BI sorgularından gerçek zamanlı olarak erişilir. Bu raporlama çözümleri, birincil işletimsel veritabanını analiz iş yüklerinin yükünden ayırır ve normal dışı bırakmadan kaçınır. Kirby'nin diğer SQL veritabanlarında da mevcut işletimsel verileri vardır ve bu verileri dönüştürmeden içeri aktarması gerekir. Kirby, veri türü dönüştürmesi olmadan mevcut işletimsel verileri içeri aktarmak için Doku Data Factory ile veri işlem hatları tasarlar ve verileri Fabric SQL veritabanına aktarır.