Az Azure Data Explorer által a betöltéshez támogatott adatformátumok
Az adatbetöltés az a folyamat, amellyel az adatok hozzáadva lesznek egy táblához, és elérhetővé válnak az Azure Data Explorer lekérdezéséhez. A lekérdezésből történő betöltéstől eltérő összes betöltési módszer esetében az adatoknak a támogatott formátumok egyikében kell lenniük. Az alábbi táblázat felsorolja és ismerteti azOkat a formátumokat, amelyeket az Azure Data Explorer támogat az adatbetöltéshez.
Megjegyzés
Mielőtt betöltené az adatokat, győződjön meg arról, hogy az adatok megfelelően formázottak, és meghatározza a várt mezőket. Javasoljuk, hogy használja az előnyben részesített érvényesítőt a formátum érvényességének ellenőrzéséhez. A CSV- vagy JSON-fájlok ellenőrzéséhez például az alábbi érvényesítők lehetnek hasznosak:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
További információ arról, hogy miért hiúsulhat meg a betöltés: Betöltési hibák és betöltési hibakódok az Azure Data Explorer.
Formátum | Kiterjesztés | Description |
---|---|---|
ApacheAvro | .avro |
AVRO-formátum, amely támogatja a logikai típusokat. A következő tömörítési kodekek támogatottak: null , deflate , és snappy . A formátum olvasói implementálása a apacheavro hivatalos Apache Avro-kódtáron alapul. Az Event Hub Capture Avro-fájlok betöltéséről az Event Hub capture Avro-fájljainak betöltése című témakörben olvashat bővebben. |
Avro | .avro |
A .NET-kódtáron alapuló AVRO-formátum örökölt implementációja. A következő tömörítési kodekek támogatottak: null , deflate (adatformátum használata ApacheAvro esetén snappy ). |
CSV | .csv |
Szövegfájl vesszővel elválasztott értékekkel (, ). Lásd : RFC 4180: Common Format and MIME Type for Comma-Separated Values (CSV) fájlok. |
JSON | .json |
JSON-objektumokkal tagolt \n szövegfájl vagy \r\n . Lásd: JSON-vonalak (JSONL). |
MultiJSON | .multijson |
Egy tulajdonságcsomagokat tartalmazó JSON-tömböt tartalmazó szövegfájl (amelyek mindegyike egy rekordot jelöl), vagy tetszőleges számú, szóközzel tagolt tulajdonságcsomag, \n vagy \r\n . Minden tulajdonságtáska több sorra osztható. |
ORK | .orc |
ORC-fájl. |
Parquet | .parquet |
Egy Parquet-fájl. |
PSV | .psv |
Egy szövegfájl csővel elválasztott értékekkel (| ). |
NYERS | .raw |
Egy szöveges fájl, amelynek teljes tartalma egyetlen sztringérték. |
SCsv | .scsv |
Szövegfájl pontosvesszővel elválasztott értékekkel (; ). |
SOHsv | .sohsv |
Szövegfájl SOH-val elválasztott értékekkel. (A SOH az ASCII 1. kódpontja; ezt a formátumot használja a Hive a HDInsighton.) |
TSV | .tsv |
Szövegfájl tabulátorral elválasztott értékekkel (\t ). |
TSVE | .tsv |
Szövegfájl tabulátorral elválasztott értékekkel (\t ). A rendszer fordított perjel karaktert (\ ) használ a meneküléshez. |
TXT | .txt |
Szövegfájl, amelynek sorai a következő szerint \n tagoltak: . A program kihagyja az üres sorokat. |
W3CLOGFILE | .log |
A W3C által szabványosított webes naplófájlformátum. |
Megjegyzés
A szokásos Parquet formátumú fájlokon (pl. Apache Iceberg, Apache Hudi, Delta Lake) felül acid-funkciókat biztosító adattároló rendszerekből történő betöltés nem támogatott.
A séma nélküli Avro nem támogatott.
Az adatok a vagy
multijson
formátumok használatávaljson
történő betöltéséről ebben a dokumentumban talál további információt.
Támogatott adattömörítési formátumok
A blobok és fájlok a következő tömörítési algoritmusok bármelyikével tömöríthetők:
Tömörítés | Kiterjesztés |
---|---|
Gzip | .Gz |
Irányítószám | .zip |
A tömörítés jelzéséhez fűzze hozzá a bővítményt a blob vagy fájl nevéhez.
Például:
-
MyData.csv.zip
EGY CSV-ként formázott blobot vagy fájlt jelöl, tömörítve ZIP-fájllal (archív vagy egyetlen fájllal) -
MyData.json.gz
egy JSON-ként formázott, GZip-vel tömörített blobot vagy fájlt jelöl.
A formátumbővítményeket nem tartalmazó blob- vagy fájlnevek, de csak a tömörítés (például MyData.zip
) is támogatott. Ebben az esetben a fájlformátumot betöltési tulajdonságként kell megadni, mert nem lehet következtetni rá.
Megjegyzés
- Egyes tömörítési formátumok nyomon követik az eredeti fájlkiterjesztést a tömörített adatfolyam részeként. Ezt a bővítményt a rendszer általában figyelmen kívül hagyja a fájlformátum meghatározásához. Ha a fájlformátum nem határozható meg a (tömörített) blobból vagy fájlnévből, azt a
format
betöltési tulajdonságon keresztül kell megadni. - Nem tévesztendő össze a ( ) és
ORC
formátumok általParquet
AVRO
használt belső (adattömbszintű) tömörítési kodekkel. A belső tömörítés neve általában a fájlnévhez kerül a fájlformátum kiterjesztése előtt, például:file1.gz.parquet
,file1.snappy.avro
, stb. - Deflate64/Enhanced Deflate A zip-tömörítési módszer nem támogatott. Vegye figyelembe, hogy a Windows beépített Zip kompresszora dönthet úgy, hogy ezt a tömörítési módszert 2 GB-nál nagyobb méretű fájlokon használja.
Kapcsolódó tartalom
- További információ az adatbetöltésről
- További információ az Azure Data Explorer adatbetöltés tulajdonságairól