Azure Veri Gezgini’ni Azure Data Factory ile tümleştirme
Azure Data Factory (ADF), farklı veri depolarını tümleştirmenize ve veriler üzerinde etkinlikler gerçekleştirmenize olanak tanıyan bulut tabanlı bir veri tümleştirme hizmetidir. ADF, veri taşımayı ve veri dönüştürmeyi düzenlemeye ve otomatikleştirmeye yönelik veri odaklı iş akışları oluşturmanıza olanak tanır. Azure Veri Gezgini, Azure Data Factory'de desteklenen veri depolarından biridir.
Azure Veri Gezgini için Azure Data Factory etkinlikleri
Azure data factory ile çeşitli tümleştirmeler Azure Veri Gezgini kullanıcıları için kullanılabilir:
Kopyalama etkinliği
Azure Data Factory Kopyalama etkinliği, veri depoları arasında veri aktarmak için kullanılır. Azure Veri Gezgini, verilerin Azure Veri Gezgini'dan desteklenen herhangi bir veri deposuna ve verilerin desteklenen veri depolarından Azure Veri Gezgini kopyalandığı bir havuza kopyalandığı bir kaynak olarak desteklenir. Daha fazla bilgi için bkz. Azure Data Factory kullanarak Azure Veri Gezgini'a veya Azure'dan veri kopyalama. Ayrıntılı bir kılavuz için bkz. Azure Data Factory'den Azure Veri Gezgini'a veri yükleme. Azure Veri Gezgini, Azure'da veriler kopyalandığında kullanılan Azure IR (Integration Runtime) ve şirket içinde veya Azure Sanal Ağ gibi erişim denetimine sahip bir ağda bulunan veri depolarından/veri depolarına veri kopyalarken kullanılan şirket içinde barındırılan IR tarafından desteklenir. Daha fazla bilgi için hangi IR'nin kullanılacağına bakın .
İpucu
Kopyalama etkinliğini kullanırken ve Bağlı Hizmet veya Veri Kümesi oluştururken Kusto eski veri deposunu değil Azure Veri Gezgini (Kusto) veri deposunu seçin.
Arama etkinliği
Arama etkinliği, Azure Veri Gezgini'da sorguları yürütmek için kullanılır. Sorgunun sonucu Arama etkinliğinin çıktısı olarak döndürülür ve ADF Arama belgelerinde açıklandığı gibi işlem hattındaki bir sonraki etkinlikte kullanılabilir.
5.000 satır ve 2 MB yanıt boyutu sınırına ek olarak, etkinliğin sorgu zaman aşımı sınırı da 1 saattir.
Komut etkinliği
Command etkinliği, Azure Veri Gezgini yönetim komutlarının yürütülmesine olanak tanır. Sorguların aksine, yönetim komutları potansiyel olarak verileri veya meta verileri değiştirebilir. Yönetim komutlarından bazıları, veya .set-or-append
gibi .ingest
komutlar kullanılarak verileri Azure Veri Gezgini almak veya gibi komutları .export
kullanarak Azure Veri Gezgini'dan dış veri depolarına veri kopyalamak için hedeflenir.
Komut etkinliğinin ayrıntılı bir kılavuzu için bkz. Azure data factory komut etkinliğini kullanarak Azure Veri Gezgini yönetim komutlarını çalıştırma. Verileri kopyalamak için bir yönetim komutu kullanmak, zaman zaman Kopyalama etkinliği daha hızlı ve daha ucuz bir seçenek olabilir. Komut etkinliğinin ve Kopyalama etkinliği ne zaman kullanılacağını belirlemek için bkz. Veri kopyalarken Kopyalama ve Komut etkinlikleri arasında seçim yapın.
Veritabanı şablonundan toplu olarak kopyalama
Azure Data Factory şablonunu kullanarak veritabanından Azure Veri Gezgini toplu kopyalama, önceden tanımlanmış bir Azure Data Factory işlem hattıdır. Şablon, daha hızlı veri kopyalama için veritabanı veya tablo başına çok sayıda işlem hattı oluşturmak için kullanılır.
Veri akışlarını eşleme
Azure Data Factory eşleme veri akışları , veri mühendislerinin kod yazmadan grafik veri dönüştürme mantığı geliştirmesine olanak sağlayan görsel olarak tasarlanmış veri dönüştürmeleridir. Veri akışı oluşturmak ve Azure Veri Gezgini'a veri almak için aşağıdaki yöntemi kullanın:
- Eşleme veri akışını oluşturun.
- Verileri Azure Blob'a aktarın.
- Verileri Azure Veri Gezgini almak için Event Grid veya ADF kopyalama etkinliğini tanımlayın.
Verileri kopyalarken Kopyalama ve Azure Veri Gezgini Komut etkinlikleri arasında seçim yapın
Bu bölüm, veri kopyalama gereksinimleriniz için doğru etkinliği seçmenize yardımcı olur.
Azure Veri Gezgini'dan veya Azure'a veri kopyalarken, Azure Data Factory'de iki kullanılabilir seçenek vardır:
- Kopyalama etkinliği.
- Azure Veri Gezgini'de veri aktaran yönetim komutlarından birini yürüten Azure Veri Gezgini Komutu etkinliği.
Azure Veri Gezgini'dan veri kopyalama
Kopyalama etkinliğini veya .export
komutunu kullanarak Azure Veri Gezgini'dan veri kopyalayabilirsiniz. komutu .export
bir sorgu yürütür ve ardından sorgunun sonuçlarını dışarı aktarır.
Azure Veri Gezgini'dan veri kopyalamaya yönelik Kopyalama etkinliği ve .export
komutun karşılaştırması için aşağıdaki tabloya bakın.
Kopyalama etkinliği | .export komutu | |
---|---|---|
Akış açıklaması | ADF Kusto'da bir sorgu yürütür, sonucu işler ve hedef veri deposuna gönderir. (Azure Veri Gezgini > ADF > havuz veri deposu) |
ADF, Azure Veri Gezgini'a bir .export yönetim komutu gönderir ve bu komut komutu yürütür ve verileri doğrudan hedef veri deposuna gönderir. (** Azure Veri Gezgini > havuz veri deposu**) |
Desteklenen hedef veri depoları | Desteklenen çok çeşitli veri depoları | ADLSv2, Azure Blob, SQL Veritabanı |
Performans | Merkezi |
|
Sunucu sınırları | Sorgu sınırları uzatılabilir/devre dışı bırakılabilir. Varsayılan olarak, ADF sorguları şunları içerir:
|
Varsayılan olarak, sorgu sınırlarını genişletir veya devre dışı bırakır:
|
İpucu
Kopyalama hedefiniz komutu tarafından .export
desteklenen veri depolarından biriyse ve Kopyalama etkinliği özelliklerinden hiçbiri gereksinimleriniz için önemli değilse komutunu seçin.export
.
Azure Veri Gezgini'a veri kopyalama
Kopyalama etkinliğini veya sorgudan alma (, .set-or-replace
, .set
.replace)
, ve depolamadan alma.ingest
).set-or-append
gibi alma komutlarını kullanarak verileri Azure Veri Gezgini kopyalayabilirsiniz.
azure Veri Gezgini veri kopyalamaya yönelik Kopyalama etkinliği ve alma komutlarının karşılaştırması için aşağıdaki tabloya bakın.
Kopyalama etkinliği | Sorgudan alma.set-or-append / .set-or-replace / .set / .replace |
Depolama alanından alma .ingest |
|
---|---|---|---|
Akış açıklaması | ADF, verileri kaynak veri deposundan alır, tablo biçiminde dönüştürür ve gerekli şema eşleme değişikliklerini yapar. Ardından ADF verileri Azure bloblarına yükler, öbeklere böler, sonra blobları indirerek Azure Veri Gezgini tablosuna alır. (Kaynak veri deposu > ADF > Azure blobları > Azure Veri Gezgini) |
Bu komutlar bir sorguyu veya .show komutu yürütebilir ve sorgunun sonuçlarını bir tabloya alabilir (Azure Veri Gezgini > Azure Veri Gezgini). |
Bu komut, verileri bir veya daha fazla bulut depolama yapıtından "çekerek" bir tabloya alır. |
Desteklenen kaynak veri depoları | çeşitli seçenekler | ADLS 2. Nesil, Azure Blob, SQL (sql_request() eklentisini kullanarak), Azure Cosmos DB (cosmosdb_sql_request eklentisini kullanarak) ve HTTP veya Python API'leri sağlayan diğer tüm veri depoları. | Dosya sistemi, Azure Blob Depolama, ADLS 1. Nesil, ADLS 2. Nesil |
Performans | Alımlar kuyruğa alınır ve yönetilir, bu da küçük boyutlu alımlar sağlar ve yük dengeleme, yeniden denemeler ve hata işleme sağlayarak yüksek kullanılabilirlik sağlar. |
|
|
Sunucu Sınırları |
|
|
|
İpucu
- ADF'den Azure'a veri kopyalarken Veri Gezgini komutlarını
ingest from query
kullanın. - Büyük veri kümeleri (>1 GB) için Kopyalama etkinliği kullanın.
Gerekli izinler
Aşağıdaki tabloda, Azure Data Factory ile tümleştirmedeki çeşitli adımlar için gerekli izinler listelanmaktadır.
Adım | İşlem | En düşük izin düzeyi | Notlar |
---|---|---|---|
Bağlı Hizmet Oluşturma | Veritabanı gezintisi | veritabanı görüntüleyicisi ADF kullanan oturum açmış kullanıcının veritabanı meta verilerini okuma yetkisine sahip olması gerekir. |
Kullanıcı, veritabanı adını el ile sağlayabilir. |
Bağlantıyı Test Et | veritabanı izleyicisi veya tablo alma Hizmet sorumlusu, veritabanı düzeyinde komutları veya tablo düzeyi .show alımını yürütme yetkisine sahip olmalıdır. |
|
|
Veri Kümesi Oluşturma | Tablo gezintisi | veritabanı izleyicisi ADF kullanarak oturum açan kullanıcının veritabanı düzeyi .show komutlarını yürütme yetkisine sahip olması gerekir. |
Kullanıcı tablo adını el ile sağlayabilir. |
Veri Kümesi Oluşturma veya Kopyalama Etkinliği | Verileri önizleme | veritabanı görüntüleyicisi Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır. |
|
Şemayı içeri aktarma | veritabanı görüntüleyicisi Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır. |
Azure Veri Gezgini tabloludan tabloya kopyanın kaynağı olduğunda, kullanıcı şemayı açıkça içeri aktarmamış olsa bile ADF şemayı otomatik olarak içeri aktarır. | |
Havuz olarak Azure Veri Gezgini | Ada göre sütun eşlemesi oluşturma | veritabanı izleyicisi Hizmet sorumlusu, veritabanı düzeyi .show komutlarını yürütmek için yetkilendirilmelidir. |
|
|
tablo alma veya veritabanı yöneticisi Hizmet sorumlusu bir tabloda değişiklik yapma yetkisine sahip olmalıdır. |
||
Verileri alma | tablo alma veya veritabanı yöneticisi Hizmet sorumlusu bir tabloda değişiklik yapma yetkisine sahip olmalıdır. |
||
Kaynak olarak Azure Veri Gezgini | Sorguyu yürütme | veritabanı görüntüleyicisi Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır. |
|
Kusto komutu | Her komutun izin düzeyine göre. |
Performans
Kaynak Azure Veri Gezgini ise ve burada sorgu içeren Arama, kopyalama veya komut etkinliğini kullanıyorsanız, performans bilgileri için en iyi sorgu yöntemlerine ve kopyalama etkinliği için ADF belgelerine bakın.
Bu bölüm, Azure Veri Gezgini havuz olduğu kopyalama etkinliğinin kullanımını ele alır. Azure Veri Gezgini havuzu için tahmini aktarım hızı 11-13 MB/sn'dir. Aşağıdaki tabloda Azure Veri Gezgini havuzu performansını etkileyen parametreler ayrıntılı olarak açıklanmaktadır.
Parametre | Notlar |
---|---|
Bileşenler coğrafi yakınlığı | Tüm bileşenleri aynı bölgeye yerleştirin:
|
DIU sayısı | ADF tarafından kullanılan her dört DIU için bir VM. DIU'ları artırmak, yalnızca kaynağınız birden çok dosya içeren dosya tabanlı bir depoysa yardımcı olur. Ardından her VM farklı bir dosyayı paralel olarak işler. Bu nedenle, tek bir büyük dosyayı kopyalamak, birden çok küçük dosyayı kopyalamaktan daha yüksek bir gecikme süresine sahiptir. |
Azure Veri Gezgini kümenizin miktarı ve SKU'su | Çok sayıda Azure Veri Gezgini düğümü alım işleme süresini artırır. Geliştirme SKU'larının kullanılması performansı ciddi ölçüde sınırlayacaktır |
Paralellik | Veritabanından büyük miktarda veri kopyalamak için verilerinizi bölümleyin ve ardından her bölümü paralel olarak kopyalayan bir ForEach döngüsü kullanın veya Veritabanından Azure Veri Gezgini Şablonuna Toplu Kopyalama'yı kullanın. Not: Kopyalama etkinliği Ayarlar>Paralellik Derecesi, Azure Veri Gezgini ile ilgili değildir. |
Veri işleme karmaşıklığı | Gecikme süresi kaynak dosya biçimine, sütun eşlemesine ve sıkıştırmaya göre değişir. |
Tümleştirme çalışma zamanınızı çalıştıran VM |
|
İpuçları ve yaygın tuzaklar
Etkinlik ilerleme durumunu izleme
Etkinlik ilerleme durumunu izlerken, Veri okuma özelliği Veri okuma özelliğinden daha büyük olabilir çünkü Veri okuma ikili dosya boyutuna göre hesaplanırken, yazılan veriler seri durumdan çıkarıldıktan ve sıkıştırıldıktan sonra bellek içi boyuta göre hesaplanır.
Etkinlik ilerleme durumunu izlerken verilerin Azure Veri Gezgini havuzuna yazıldığını görebilirsiniz. Azure Veri Gezgini tablosunu sorgularken verilerin gelmediğini görürsünüz. Bunun nedeni, Azure Veri Gezgini'a kopyalama sırasında iki aşama olmasıdır.
- İlk aşama kaynak verileri okur, 900 MB öbeklere böler ve her öbeği bir Azure Blob'a yükler. İlk aşama ADF etkinlik ilerleme durumu görünümü tarafından görülür.
- İkinci aşama, tüm veriler Azure Bloblarına yüklendikten sonra başlar. Kümenizin düğümleri blobları indirir ve verileri havuz tablosuna alır. Ardından veriler Azure Veri Gezgini tablonuzda görünür.
Hatalı kaçış nedeniyle CSV dosyalarını alma hatası
Azure Veri Gezgini, CSV dosyalarının RFC 4180 ile uyumlu olmasını bekler. Şu beklentiler vardır:
- Kaçış gerektiren karakterler içeren alanlar (örneğin, " ve yeni satırlar), boşluk olmadan " karakteriyle başlayıp bitmelidir. Alanın içindeki tüm " karakterleri, çift " karakter ("" kullanılarak kaçış karakteri kullanılır. Örneğin, "Hello, ""World"", Hello, "World" içeriğine sahip tek bir sütuna veya alana sahip tek bir kaydı olan geçerli bir CSV dosyasıdır.
- Dosyadaki tüm kayıtlar aynı sayıda sütuna ve alana sahip olmalıdır.
Azure Data Factory ters eğik çizgi (kaçış) karakterine izin verir. Azure Data Factory kullanarak ters eğik çizgi karakterine sahip bir CSV dosyası oluşturursanız, dosyanın Azure Veri Gezgini alımı başarısız olur.
Örnek
Aşağıdaki metin değerleri: Hello, "World"
ABC DEF
"ABC\D"EF
"ABC DEF
Uygun bir CSV dosyasında şu şekilde görünmelidir: "Hello, ""World"""
"ABC DEF"
"""ABC\D""EF"
"""ABC DEF"
Varsayılan kaçış karakterini (ters eğik çizgi) kullanarak aşağıdaki CSV, Azure Veri Gezgini ile çalışmaz: "Hello, "World""
"ABC DEF"
""ABC\D"EF"
""ABC DEF"
İç içe JSON nesneleri
JSON dosyasını Azure Veri Gezgini'a kopyalarken şunları unutmayın:
- Diziler desteklenmez.
- JSON yapınız nesne veri türleri içeriyorsa, Azure Data Factory nesnenin alt öğelerini düzleştirmeye ve her alt öğeyi Azure Veri Gezgini tablonuzda farklı bir sütuna eşlemeye çalışır. Nesne öğesinin tamamının Azure Veri Gezgini'da tek bir sütuna eşlenmesi istiyorsanız:
- JSON satırının tamamını Azure Veri Gezgini'da tek bir dinamik sütuna alın.
- Azure Data Factory'nin JSON düzenleyicisini kullanarak işlem hattı tanımını el ile düzenleyin. Eşlemeler'de
- Her alt öğe için oluşturulan birden çok eşlemeyi kaldırın ve nesne türünüzü tablo sütununuza eşleyen tek bir eşleme ekleyin.
- Kapanış köşeli ayracından sonra virgül ekleyin ve ardından:
"mapComplexValuesToString": true
.
Azure Veri Gezgini'a kopyalarken Ek Özellikler belirtme
İşlem hattındaki kopyalama etkinliğinde belirterek ek alma özellikleri ekleyebilirsiniz.
Özellik eklemek için
Azure Data Factory'de Yazar kalem aracını seçin.
İşlem Hattı'nın altında, ek alım özellikleri eklemek istediğiniz işlem hattını seçin.
Etkinlikler tuvalinde Veri kopyalama etkinliğini seçin.
Etkinlik ayrıntılarında Havuz'a tıklayın ve ardından Ek özellikler'i genişletin.
Yeni'yi seçin, Düğüm ekle'yi veya Gerektiğinde dizi ekle'yi seçin ve ardından alma özelliği adını ve değerini belirtin. Daha fazla özellik eklemek için bu adımı yineleyin.
İşlem hattınızı kaydedin ve yayımlayın.
Sonraki adım
Azure Data Factory'yi kullanarak verileri Azure Veri Gezgini'a kopyalayın.