Rögzített Avro-fájlok feltárása az Azure Event Hubsban
Ez a cikk az Azure Event Hubs által rögzített Avro-fájlok sémáját és néhány eszközt tartalmaz a fájlok felderítéséhez.
Séma
Az Event Hubs Capture által létrehozott Avro-fájlok a következő Avro-sémával rendelkeznek:
Azure Storage Explorer
Ellenőrizheti, hogy a rögzített fájlok az Azure Storage-fiókban lettek-e létrehozva olyan eszközökkel, mint az Azure Storage Explorer. A fájlok helyi letöltésével dolgozhat rajtuk.
Az Avro-fájlok megismerésének egy egyszerű módja az Apache Avro Tools jar használata. Az Apache Spark használatával összetett elosztott feldolgozást is végezhet a betöltött adatokon.
Az Apache Spark használata
Az Apache Spark egy "egységes elemzési motor nagy léptékű adatfeldolgozáshoz". Különböző nyelveket támogat, beleértve az SQL-t is, és könnyen elérheti az Azure Blob Storage-t. Az Apache Spark azure-beli futtatásának néhány lehetősége van, és mindegyik egyszerű hozzáférést biztosít az Azure Blob Storage-hoz:
- HDInsight: Fájlok címe az Azure Storage-ban
- Azure Databricks: Azure Blob Storage. Tekintse meg a következő mintát: Streamelés nagy méretekben az Event Hubs Capture használatával.
- Azure Kubernetes Service
Az Avro Tools használata
Az Avro Tools jar csomagként érhető el. A jar fájl letöltése után az alábbi parancs futtatásával láthatja egy adott Avro-fájl sémáját:
java -jar avro-tools-1.9.1.jar getschema <name of capture file>
Ez a parancs ad vissza
{
"type":"record",
"name":"EventData",
"namespace":"Microsoft.ServiceBus.Messaging",
"fields":[
{"name":"SequenceNumber","type":"long"},
{"name":"Offset","type":"string"},
{"name":"EnqueuedTimeUtc","type":"string"},
{"name":"SystemProperties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Properties","type":{"type":"map","values":["long","double","string","bytes"]}},
{"name":"Body","type":["null","bytes"]}
]
}
Az Avro Tools használatával JSON formátumba is konvertálhatja a fájlt, és egyéb feldolgozást hajthat végre.
Ha speciálisabb feldolgozást szeretne végezni, töltse le és telepítse az Avro-t a választott platformhoz. Az írás idején c, C++, C#, Java, NodeJS, Perl, PHP, Python és Ruby implementációk érhetők el.
Az Apache Avro teljes útmutatókkal rendelkezik a Java és a Python első lépéseihez. Az Event Hubs Capture használatának első lépései című cikket is elolvashatja.
Következő lépések
Az Event Hubs Capture a legegyszerűbb módja az adatok Azure-ba való beolvasásának. Az Azure Data Lake, az Azure Data Factory és az Azure HDInsight használatával tetszőleges léptékben végezhet kötegelt feldolgozást és egyéb elemzéseket az Ön által választott ismerős eszközökkel és platformokkal. A funkcióval kapcsolatos további információkért tekintse meg az alábbi cikkeket.