Aracılığıyla paylaş


Azure Veri Gezgini’ni Azure Data Factory ile tümleştirme

Azure Data Factory (ADF), farklı veri depolarını tümleştirmenize ve veriler üzerinde etkinlikler gerçekleştirmenize olanak tanıyan bulut tabanlı bir veri tümleştirme hizmetidir. ADF, veri taşımayı ve veri dönüştürmeyi düzenlemeye ve otomatikleştirmeye yönelik veri odaklı iş akışları oluşturmanıza olanak tanır. Azure Veri Gezgini, Azure Data Factory'de desteklenen veri depolarından biridir.

Azure Veri Gezgini için Azure Data Factory etkinlikleri

Azure data factory ile çeşitli tümleştirmeler Azure Veri Gezgini kullanıcıları için kullanılabilir:

Kopyalama etkinliği

Azure Data Factory Kopyalama etkinliği, veri depoları arasında veri aktarmak için kullanılır. Azure Veri Gezgini, verilerin Azure Veri Gezgini'dan desteklenen herhangi bir veri deposuna ve verilerin desteklenen veri depolarından Azure Veri Gezgini kopyalandığı bir havuza kopyalandığı bir kaynak olarak desteklenir. Daha fazla bilgi için bkz. Azure Data Factory kullanarak Azure Veri Gezgini'a veya Azure'dan veri kopyalama. Ayrıntılı bir kılavuz için bkz. Azure Data Factory'den Azure Veri Gezgini'a veri yükleme. Azure Veri Gezgini, Azure'da veriler kopyalandığında kullanılan Azure IR (Integration Runtime) ve şirket içinde veya Azure Sanal Ağ gibi erişim denetimine sahip bir ağda bulunan veri depolarından/veri depolarına veri kopyalarken kullanılan şirket içinde barındırılan IR tarafından desteklenir. Daha fazla bilgi için hangi IR'nin kullanılacağına bakın .

İpucu

Kopyalama etkinliğini kullanırken ve Bağlı Hizmet veya Veri Kümesi oluştururken Kusto eski veri deposunu değil Azure Veri Gezgini (Kusto) veri deposunu seçin.

Arama etkinliği

Arama etkinliği, Azure Veri Gezgini'da sorguları yürütmek için kullanılır. Sorgunun sonucu Arama etkinliğinin çıktısı olarak döndürülür ve ADF Arama belgelerinde açıklandığı gibi işlem hattındaki bir sonraki etkinlikte kullanılabilir.

5.000 satır ve 2 MB yanıt boyutu sınırına ek olarak, etkinliğin sorgu zaman aşımı sınırı da 1 saattir.

Komut etkinliği

Command etkinliği, Azure Veri Gezgini yönetim komutlarının yürütülmesine olanak tanır. Sorguların aksine, yönetim komutları potansiyel olarak verileri veya meta verileri değiştirebilir. Yönetim komutlarından bazıları, veya .set-or-appendgibi .ingestkomutlar kullanılarak verileri Azure Veri Gezgini almak veya gibi komutları .exportkullanarak Azure Veri Gezgini'dan dış veri depolarına veri kopyalamak için hedeflenir. Komut etkinliğinin ayrıntılı bir kılavuzu için bkz. Azure data factory komut etkinliğini kullanarak Azure Veri Gezgini yönetim komutlarını çalıştırma. Verileri kopyalamak için bir yönetim komutu kullanmak, zaman zaman Kopyalama etkinliği daha hızlı ve daha ucuz bir seçenek olabilir. Komut etkinliğinin ve Kopyalama etkinliği ne zaman kullanılacağını belirlemek için bkz. Veri kopyalarken Kopyalama ve Komut etkinlikleri arasında seçim yapın.

Veritabanı şablonundan toplu olarak kopyalama

Azure Data Factory şablonunu kullanarak veritabanından Azure Veri Gezgini toplu kopyalama, önceden tanımlanmış bir Azure Data Factory işlem hattıdır. Şablon, daha hızlı veri kopyalama için veritabanı veya tablo başına çok sayıda işlem hattı oluşturmak için kullanılır.

Veri akışlarını eşleme

Azure Data Factory eşleme veri akışları , veri mühendislerinin kod yazmadan grafik veri dönüştürme mantığı geliştirmesine olanak sağlayan görsel olarak tasarlanmış veri dönüştürmeleridir. Veri akışı oluşturmak ve Azure Veri Gezgini'a veri almak için aşağıdaki yöntemi kullanın:

  1. Eşleme veri akışını oluşturun.
  2. Verileri Azure Blob'a aktarın.
  3. Verileri Azure Veri Gezgini almak için Event Grid veya ADF kopyalama etkinliğini tanımlayın.

Verileri kopyalarken Kopyalama ve Azure Veri Gezgini Komut etkinlikleri arasında seçim yapın

Bu bölüm, veri kopyalama gereksinimleriniz için doğru etkinliği seçmenize yardımcı olur.

Azure Veri Gezgini'dan veya Azure'a veri kopyalarken, Azure Data Factory'de iki kullanılabilir seçenek vardır:

  • Kopyalama etkinliği.
  • Azure Veri Gezgini'de veri aktaran yönetim komutlarından birini yürüten Azure Veri Gezgini Komutu etkinliği.

Azure Veri Gezgini'dan veri kopyalama

Kopyalama etkinliğini veya .export komutunu kullanarak Azure Veri Gezgini'dan veri kopyalayabilirsiniz. komutu .export bir sorgu yürütür ve ardından sorgunun sonuçlarını dışarı aktarır.

Azure Veri Gezgini'dan veri kopyalamaya yönelik Kopyalama etkinliği ve .export komutun karşılaştırması için aşağıdaki tabloya bakın.

Kopyalama etkinliği .export komutu
Akış açıklaması ADF Kusto'da bir sorgu yürütür, sonucu işler ve hedef veri deposuna gönderir.
(Azure Veri Gezgini > ADF > havuz veri deposu)
ADF, Azure Veri Gezgini'a bir .export yönetim komutu gönderir ve bu komut komutu yürütür ve verileri doğrudan hedef veri deposuna gönderir.
(** Azure Veri Gezgini > havuz veri deposu**)
Desteklenen hedef veri depoları Desteklenen çok çeşitli veri depoları ADLSv2, Azure Blob, SQL Veritabanı
Performans Merkezi
  • Dağıtılmış (varsayılan), birden çok düğümden verileri eşzamanlı olarak dışarı aktarma
  • Daha hızlı ve COGS (satılan malların maliyeti) verimli.
Sunucu sınırları Sorgu sınırları uzatılabilir/devre dışı bırakılabilir. Varsayılan olarak, ADF sorguları şunları içerir:
  • Boyut sınırı 500.000 kayıt veya 64 MB.
  • 10 dakikalık süre sınırı.
  • noTruncation false olarak ayarlanır.
Varsayılan olarak, sorgu sınırlarını genişletir veya devre dışı bırakır:
  • Boyut sınırları devre dışı bırakılır.
  • Sunucu zaman aşımı 1 saate uzatıldı.
  • MaxMemoryConsumptionPerIterator ve MaxMemoryConsumptionPerQueryPerNode maksimuma genişletilir (5 GB, TotalPhysicalMemory/2).

İpucu

Kopyalama hedefiniz komutu tarafından .export desteklenen veri depolarından biriyse ve Kopyalama etkinliği özelliklerinden hiçbiri gereksinimleriniz için önemli değilse komutunu seçin.export.

Azure Veri Gezgini'a veri kopyalama

Kopyalama etkinliğini veya sorgudan alma (, .set-or-replace, .set.replace), ve depolamadan alma.ingest ).set-or-append gibi alma komutlarını kullanarak verileri Azure Veri Gezgini kopyalayabilirsiniz.

azure Veri Gezgini veri kopyalamaya yönelik Kopyalama etkinliği ve alma komutlarının karşılaştırması için aşağıdaki tabloya bakın.

Kopyalama etkinliği Sorgudan alma
.set-or-append / .set-or-replace / .set / .replace
Depolama alanından alma
.ingest
Akış açıklaması ADF, verileri kaynak veri deposundan alır, tablo biçiminde dönüştürür ve gerekli şema eşleme değişikliklerini yapar. Ardından ADF verileri Azure bloblarına yükler, öbeklere böler, sonra blobları indirerek Azure Veri Gezgini tablosuna alır.
(Kaynak veri deposu > ADF > Azure blobları > Azure Veri Gezgini)
Bu komutlar bir sorguyu veya .show komutu yürütebilir ve sorgunun sonuçlarını bir tabloya alabilir (Azure Veri Gezgini > Azure Veri Gezgini). Bu komut, verileri bir veya daha fazla bulut depolama yapıtından "çekerek" bir tabloya alır.
Desteklenen kaynak veri depoları çeşitli seçenekler ADLS 2. Nesil, Azure Blob, SQL (sql_request() eklentisini kullanarak), Azure Cosmos DB (cosmosdb_sql_request eklentisini kullanarak) ve HTTP veya Python API'leri sağlayan diğer tüm veri depoları. Dosya sistemi, Azure Blob Depolama, ADLS 1. Nesil, ADLS 2. Nesil
Performans Alımlar kuyruğa alınır ve yönetilir, bu da küçük boyutlu alımlar sağlar ve yük dengeleme, yeniden denemeler ve hata işleme sağlayarak yüksek kullanılabilirlik sağlar.
  • Bu komutlar yüksek hacimli veri içeri aktarma için tasarlanmamıştır.
  • Beklendiği gibi ve daha ucuz çalışır. Ancak üretim senaryoları ve trafik oranları ve veri boyutları büyük olduğunda Kopyalama etkinliği kullanın.
Sunucu Sınırları
  • Boyut sınırı yok.
  • En fazla zaman aşımı sınırı: Alınan blob başına bir saat.
  • Sorgu bölümünde yalnızca bir boyut sınırı vardır ve bu sınır belirtilerek noTruncation=trueatlanabilir.
  • En fazla zaman aşımı sınırı: Bir saat.
  • Boyut sınırı yok.
  • En fazla zaman aşımı sınırı: Bir saat.

İpucu

  • ADF'den Azure'a veri kopyalarken Veri Gezgini komutlarını ingest from query kullanın.
  • Büyük veri kümeleri (>1 GB) için Kopyalama etkinliği kullanın.

Gerekli izinler

Aşağıdaki tabloda, Azure Data Factory ile tümleştirmedeki çeşitli adımlar için gerekli izinler listelanmaktadır.

Adım İşlem En düşük izin düzeyi Notlar
Bağlı Hizmet Oluşturma Veritabanı gezintisi veritabanı görüntüleyicisi
ADF kullanan oturum açmış kullanıcının veritabanı meta verilerini okuma yetkisine sahip olması gerekir.
Kullanıcı, veritabanı adını el ile sağlayabilir.
Bağlantıyı Test Et veritabanı izleyicisi veya tablo alma
Hizmet sorumlusu, veritabanı düzeyinde komutları veya tablo düzeyi .show alımını yürütme yetkisine sahip olmalıdır.
  • TestConnection, veritabanına değil kümeye bağlantıyı doğrular. Veritabanı mevcut olmasa bile başarılı olabilir.
  • Tablo yöneticisi izinleri yeterli değildir.
Veri Kümesi Oluşturma Tablo gezintisi veritabanı izleyicisi
ADF kullanarak oturum açan kullanıcının veritabanı düzeyi .show komutlarını yürütme yetkisine sahip olması gerekir.
Kullanıcı tablo adını el ile sağlayabilir.
Veri Kümesi Oluşturma veya Kopyalama Etkinliği Verileri önizleme veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır.
Şemayı içeri aktarma veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır.
Azure Veri Gezgini tabloludan tabloya kopyanın kaynağı olduğunda, kullanıcı şemayı açıkça içeri aktarmamış olsa bile ADF şemayı otomatik olarak içeri aktarır.
Havuz olarak Azure Veri Gezgini Ada göre sütun eşlemesi oluşturma veritabanı izleyicisi
Hizmet sorumlusu, veritabanı düzeyi .show komutlarını yürütmek için yetkilendirilmelidir.
  • Tüm zorunlu işlemler tablo alma işlemiyle çalışır.
  • Bazı isteğe bağlı işlemler başarısız olabilir.
  • Tabloda CSV eşlemesi oluşturma
  • Eşlemeyi bırakma
tablo alma veya veritabanı yöneticisi
Hizmet sorumlusu bir tabloda değişiklik yapma yetkisine sahip olmalıdır.
Verileri alma tablo alma veya veritabanı yöneticisi
Hizmet sorumlusu bir tabloda değişiklik yapma yetkisine sahip olmalıdır.
Kaynak olarak Azure Veri Gezgini Sorguyu yürütme veritabanı görüntüleyicisi
Hizmet sorumlusu, veritabanı meta verilerini okuma yetkisine sahip olmalıdır.
Kusto komutu Her komutun izin düzeyine göre.

Performans

Kaynak Azure Veri Gezgini ise ve burada sorgu içeren Arama, kopyalama veya komut etkinliğini kullanıyorsanız, performans bilgileri için en iyi sorgu yöntemlerine ve kopyalama etkinliği için ADF belgelerine bakın.

Bu bölüm, Azure Veri Gezgini havuz olduğu kopyalama etkinliğinin kullanımını ele alır. Azure Veri Gezgini havuzu için tahmini aktarım hızı 11-13 MB/sn'dir. Aşağıdaki tabloda Azure Veri Gezgini havuzu performansını etkileyen parametreler ayrıntılı olarak açıklanmaktadır.

Parametre Notlar
Bileşenler coğrafi yakınlığı Tüm bileşenleri aynı bölgeye yerleştirin:
  • kaynak ve havuz veri depoları.
  • ADF tümleştirme çalışma zamanı.
  • Azure Veri Gezgini kümeniz.
En azından tümleştirme çalışma zamanınızın Azure Veri Gezgini kümenizle aynı bölgede olduğundan emin olun.
DIU sayısı ADF tarafından kullanılan her dört DIU için bir VM.
DIU'ları artırmak, yalnızca kaynağınız birden çok dosya içeren dosya tabanlı bir depoysa yardımcı olur. Ardından her VM farklı bir dosyayı paralel olarak işler. Bu nedenle, tek bir büyük dosyayı kopyalamak, birden çok küçük dosyayı kopyalamaktan daha yüksek bir gecikme süresine sahiptir.
Azure Veri Gezgini kümenizin miktarı ve SKU'su Çok sayıda Azure Veri Gezgini düğümü alım işleme süresini artırır. Geliştirme SKU'larının kullanılması performansı ciddi ölçüde sınırlayacaktır
Paralellik Veritabanından büyük miktarda veri kopyalamak için verilerinizi bölümleyin ve ardından her bölümü paralel olarak kopyalayan bir ForEach döngüsü kullanın veya Veritabanından Azure Veri Gezgini Şablonuna Toplu Kopyalama'yı kullanın. Not: Kopyalama etkinliği Ayarlar>Paralellik Derecesi, Azure Veri Gezgini ile ilgili değildir.
Veri işleme karmaşıklığı Gecikme süresi kaynak dosya biçimine, sütun eşlemesine ve sıkıştırmaya göre değişir.
Tümleştirme çalışma zamanınızı çalıştıran VM
  • Azure kopyası için ADF VM'leri ve makine SKU'ları değiştirilemez.
  • Şirket içinde Azure kopyası için, şirket içinde barındırılan IR'nizi barındıran VM'nin yeterince güçlü olduğunu belirleyin.

İpuçları ve yaygın tuzaklar

Etkinlik ilerleme durumunu izleme

  • Etkinlik ilerleme durumunu izlerken, Veri okuma özelliği Veri okuma özelliğinden daha büyük olabilir çünkü Veri okuma ikili dosya boyutuna göre hesaplanırken, yazılan veriler seri durumdan çıkarıldıktan ve sıkıştırıldıktan sonra bellek içi boyuta göre hesaplanır.

  • Etkinlik ilerleme durumunu izlerken verilerin Azure Veri Gezgini havuzuna yazıldığını görebilirsiniz. Azure Veri Gezgini tablosunu sorgularken verilerin gelmediğini görürsünüz. Bunun nedeni, Azure Veri Gezgini'a kopyalama sırasında iki aşama olmasıdır.

    • İlk aşama kaynak verileri okur, 900 MB öbeklere böler ve her öbeği bir Azure Blob'a yükler. İlk aşama ADF etkinlik ilerleme durumu görünümü tarafından görülür.
    • İkinci aşama, tüm veriler Azure Bloblarına yüklendikten sonra başlar. Kümenizin düğümleri blobları indirir ve verileri havuz tablosuna alır. Ardından veriler Azure Veri Gezgini tablonuzda görünür.

Hatalı kaçış nedeniyle CSV dosyalarını alma hatası

Azure Veri Gezgini, CSV dosyalarının RFC 4180 ile uyumlu olmasını bekler. Şu beklentiler vardır:

  • Kaçış gerektiren karakterler içeren alanlar (örneğin, " ve yeni satırlar), boşluk olmadan " karakteriyle başlayıp bitmelidir. Alanın içindeki tüm " karakterleri, çift " karakter ("" kullanılarak kaçış karakteri kullanılır. Örneğin, "Hello, ""World"", Hello, "World" içeriğine sahip tek bir sütuna veya alana sahip tek bir kaydı olan geçerli bir CSV dosyasıdır.
  • Dosyadaki tüm kayıtlar aynı sayıda sütuna ve alana sahip olmalıdır.

Azure Data Factory ters eğik çizgi (kaçış) karakterine izin verir. Azure Data Factory kullanarak ters eğik çizgi karakterine sahip bir CSV dosyası oluşturursanız, dosyanın Azure Veri Gezgini alımı başarısız olur.

Örnek

Aşağıdaki metin değerleri: Hello, "World"
ABC DEF
"ABC\D"EF
"ABC DEF

Uygun bir CSV dosyasında şu şekilde görünmelidir: "Hello, ""World"""
"ABC DEF"
"""ABC\D""EF"
"""ABC DEF"

Varsayılan kaçış karakterini (ters eğik çizgi) kullanarak aşağıdaki CSV, Azure Veri Gezgini ile çalışmaz: "Hello, "World""
"ABC DEF"
""ABC\D"EF"
""ABC DEF"

İç içe JSON nesneleri

JSON dosyasını Azure Veri Gezgini'a kopyalarken şunları unutmayın:

  • Diziler desteklenmez.
  • JSON yapınız nesne veri türleri içeriyorsa, Azure Data Factory nesnenin alt öğelerini düzleştirmeye ve her alt öğeyi Azure Veri Gezgini tablonuzda farklı bir sütuna eşlemeye çalışır. Nesne öğesinin tamamının Azure Veri Gezgini'da tek bir sütuna eşlenmesi istiyorsanız:
    • JSON satırının tamamını Azure Veri Gezgini'da tek bir dinamik sütuna alın.
    • Azure Data Factory'nin JSON düzenleyicisini kullanarak işlem hattı tanımını el ile düzenleyin. Eşlemeler'de
      • Her alt öğe için oluşturulan birden çok eşlemeyi kaldırın ve nesne türünüzü tablo sütununuza eşleyen tek bir eşleme ekleyin.
      • Kapanış köşeli ayracından sonra virgül ekleyin ve ardından:
        "mapComplexValuesToString": true.

Azure Veri Gezgini'a kopyalarken Ek Özellikler belirtme

İşlem hattındaki kopyalama etkinliğinde belirterek ek alma özellikleri ekleyebilirsiniz.

Özellik eklemek için

  1. Azure Data Factory'de Yazar kalem aracını seçin.

  2. İşlem Hattı'nın altında, ek alım özellikleri eklemek istediğiniz işlem hattını seçin.

  3. Etkinlikler tuvalinde Veri kopyalama etkinliğini seçin.

  4. Etkinlik ayrıntılarında Havuz'a tıklayın ve ardından Ek özellikler'i genişletin.

  5. Yeni'yi seçin, Düğüm ekle'yi veya Gerektiğinde dizi ekle'yi seçin ve ardından alma özelliği adını ve değerini belirtin. Daha fazla özellik eklemek için bu adımı yineleyin.

  6. İşlem hattınızı kaydedin ve yayımlayın.

Sonraki adım

Azure Data Factory'yi kullanarak verileri Azure Veri Gezgini'a kopyalayın.