Azure Data Factory ve Synapse Analytics'te Avro biçimi
UYGULANANLAR: Azure Data Factory
Azure Synapse Analytics
İpucu
Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!
Avro dosyalarını ayrıştırmak veya verileri Avro biçiminde yazmak istediğinizde bu makaleyi izleyin.
Avro biçimi şu bağlayıcılar için desteklenir: Amazon S3, Amazon S3 Uyumlu Depolama, Azure Blob, Azure Data Lake Storage 1. Nesil, Azure Data Lake Storage 2. Nesil, Azure Dosyalar, Dosya Sistemi, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage ve SFTP.
Veri kümesi özellikleri
Veri kümelerini tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için Veri kümeleri makalesine bakın. Bu bölümde Avro veri kümesi tarafından desteklenen özelliklerin listesi sağlanır.
Özellik | Açıklama | Gerekli |
---|---|---|
Tür | Veri kümesinin tür özelliği Avro olarak ayarlanmalıdır. | Yes |
konum | Dosya konum ayarları. Her dosya tabanlı bağlayıcının kendi konum türü ve altında location desteklenen özellikleri vardır. Bağlayıcı makalesi -> Veri kümesi özellikleri bölümündeki ayrıntılara bakın. |
Yes |
avroCompressionCodec | Avro dosyalarına yazarken kullanılacak sıkıştırma codec bileşeni. Avro dosyalarından okurken, hizmet dosya meta verilerine göre sıkıştırma codec'ini otomatik olarak belirler. Desteklenen türler şunlardır: "none" (varsayılan), "deflate", "snappy". Şu anda Kopyalama etkinliği, Avro dosyalarını okurken/yazarken Snappy'i desteklemez. |
Hayır |
Not
Avro dosyaları için sütun adında boşluk desteklenmez.
Aşağıda Azure Blob Depolama'de Avro veri kümesi örneği verilmiştir:
{
"name": "AvroDataset",
"properties": {
"type": "Avro",
"linkedServiceName": {
"referenceName": "<Azure Blob Storage linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, retrievable during authoring > ],
"typeProperties": {
"location": {
"type": "AzureBlobStorageLocation",
"container": "containername",
"folderPath": "folder/subfolder",
},
"avroCompressionCodec": "snappy"
}
}
}
Kopyalama etkinliğinin özellikleri
Etkinlikleri tanımlamak için kullanılabilen bölümlerin ve özelliklerin tam listesi için İşlem hatları makalesine bakın. Bu bölümde Avro kaynağı ve havuzu tarafından desteklenen özelliklerin listesi sağlanır.
Kaynak olarak Avro
Kopyalama etkinliği *kaynak* bölümünde aşağıdaki özellikler desteklenir.
Özellik | Açıklama | Gerekli |
---|---|---|
Tür | Kopyalama etkinliği kaynağının type özelliği AvroSource olarak ayarlanmalıdır. | Yes |
storeSettings | Veri deposundan veri okuma hakkında bir özellik grubu. Her dosya tabanlı bağlayıcının altında storeSettings kendi desteklenen okuma ayarları vardır. Bağlayıcı makalesi -> Kopyalama etkinliği özellikleri bölümündeki ayrıntılara bakın. |
Hayır |
Havuz olarak Avro
Kopyalama etkinliği *havuz* bölümünde aşağıdaki özellikler desteklenir.
Özellik | Açıklama | Gerekli |
---|---|---|
Tür | Kopyalama etkinliği kaynağının tür özelliği AvroSink olarak ayarlanmalıdır. | Yes |
formatSettings | Bir özellik grubu. Aşağıdaki Avro yazma ayarları tablosuna bakın. | Hayır |
storeSettings | Veri deposuna veri yazma hakkında bir özellik grubu. Her dosya tabanlı bağlayıcının altında storeSettings kendi desteklenen yazma ayarları vardır. Bağlayıcı makalesi -> Kopyalama etkinliği özellikleri bölümündeki ayrıntılara bakın. |
Hayır |
altında formatSettings
desteklenen Avro yazma ayarları:
Özellik | Açıklama | Gerekli |
---|---|---|
Tür | formatSettings türü AvroWriteSettings olarak ayarlanmalıdır. | Yes |
maxRowsPerFile | Bir klasöre veri yazarken, birden çok dosyaya yazmayı ve dosya başına en fazla satırı belirtmeyi seçebilirsiniz. | Hayır |
fileNamePrefix | Yapılandırıldığında maxRowsPerFile geçerlidir.Birden çok dosyaya veri yazarken dosya adı ön ekini belirtin; bunun sonucunda şu desen elde edilir: <fileNamePrefix>_00000.<fileExtension> . Belirtilmezse, dosya adı ön eki otomatik olarak oluşturulur. Bu özellik, kaynak dosya tabanlı depo veya bölüm seçeneği etkin veri deposu olduğunda geçerli değildir. |
Hayır |
Eşleme veri akışı özellikleri
Eşleme veri akışlarında, şu veri depolarında avro biçiminde okuyup yazabilirsiniz: Azure Blob Depolama, Azure Data Lake Storage 1. Nesil, Azure Data Lake Storage 2. Nesil ve SFTP; Amazon S3'te avro biçimini okuyabilirsiniz.
Kaynak özellikleri
Aşağıdaki tabloda bir avro kaynağı tarafından desteklenen özellikler listelenmektedir. Bu özellikleri Kaynak seçenekleri sekmesinde düzenleyebilirsiniz.
Veri Akışı Adı | Açıklama | Gerekli | İzin verilen değerler | Veri akışı betiği özelliği |
---|---|---|---|---|
Joker karakter yolları | Joker karakter yoluyla eşleşen tüm dosyalar işlenir. Veri kümesinde ayarlanan klasörü ve dosya yolunu geçersiz kılar. | hayır | Dize[] | joker karakterler |
Bölüm kök yolu | Bölümlenmiş dosya verileri için bölümlenmiş klasörleri sütun olarak okumak için bir bölüm kök yolu girebilirsiniz | hayır | String | partitionRootPath |
Dosya listesi | Kaynağınızın işlenmek üzere dosyaları listeleyen bir metin dosyasına işaret edip etmediği | hayır | true veya false |
fileList |
Dosya adını depolamak için sütun | Kaynak dosya adı ve yolu ile yeni bir sütun oluşturma | hayır | String | rowUrlColumn |
Tamamlandıktan sonra | İşlemden sonra dosyaları silin veya taşıyın. Dosya yolu kapsayıcı kökünden başlar | hayır | Sil: true veya false Hareket etmek: ['<from>', '<to>'] |
purgeFiles moveFiles |
Son değiştirme ölçütüne göre filtrele | Dosyaları son değiştirilme zamanlarına göre filtrelemeyi seçin | hayır | Zaman damgası | modifiedAfter modifiedBefore |
Dosya bulunamadığında izin ver | True ise, hiçbir dosya bulunamazsa hata oluşmaz | hayır | true veya false |
ignoreNoFilesFound |
Havuz özellikleri
Aşağıdaki tabloda avro havuzu tarafından desteklenen özellikler listelenmektedir. Bu özellikleri Ayarlar sekmesinde düzenleyebilirsiniz.
Veri Akışı Adı | Açıklama | Gerekli | İzin verilen değerler | Veri akışı betiği özelliği |
---|---|---|---|---|
Klasörü temizleme | Hedef klasör yazmadan önce temizlenirse | hayır | true veya false |
truncate |
Dosya adı seçeneği | Yazılan verilerin adlandırma biçimi. Varsayılan olarak, bölüm başına bir dosya biçimindedir part-#####-tid-<guid> |
hayır | Desen: Dize Bölüm başına: Dize[] Sütunda veri olarak: Dize Tek bir dosyaya çıkış: ['<fileName>'] |
filePattern partitionFileNames rowUrlColumn partitionFileNames |
Tümünü alıntıla | Tüm değerleri tırnak içine alma | hayır | true veya false |
quoteAll |
Veri türü desteği
Kopyalama etkinliği
Avro karmaşık veri türleri Kopyalama Etkinliğinde desteklenmez (kayıtlar, numaralandırmalar, diziler, haritalar, birleşimler ve sabit).
Veri akışları
Veri akışlarında Avro dosyalarıyla çalışırken karmaşık veri türlerini okuyabilir ve yazabilirsiniz, ancak önce veri kümesinden fiziksel şemayı temizlediğinizden emin olun. Veri akışlarında mantıksal projeksiyonunuzu ayarlayabilir ve karmaşık yapılar olan sütunları türetebilir, ardından bu alanları bir Avro dosyasıyla otomatik olarak eşleyebilirsiniz.