Azure Cosmos DB elérése Apache Cassandra-adatokhoz az Azure Databricksből
A KÖVETKEZŐKRE VONATKOZIK: Cassandra
Ez a cikk bemutatja, hogyan használható az Azure Cosmos DB for Apache Cassandra a Sparkból az Azure Databricksben.
Előfeltételek
Tekintse át az Apache Cassandra azure Cosmos DB-hez való csatlakozásának alapjait
A Cassandra-összekötő Cassandra-példánykonfigurációjának API-ja:
A Cassandra API-hoz készült összekötőhöz a Cassandra kapcsolati adatait inicializálni kell a Spark-környezet részeként. A Databricks-jegyzetfüzet indításakor a Spark-környezet már inicializálva van, és nem ajánlott leállítani és újrainicializálni. Az egyik megoldás az API hozzáadása a Cassandra-példány konfigurálásához fürtszinten, a fürt spark-konfigurációjában. Fürtenként egyszeri tevékenység. Adja hozzá a következő kódot a Spark-konfigurációhoz szóközzel elválasztott kulcsértékpárként:
spark.cassandra.connection.host YOUR_COSMOSDB_ACCOUNT_NAME.cassandra.cosmosdb.azure.com spark.cassandra.connection.port 10350 spark.cassandra.connection.ssl.enabled true spark.cassandra.auth.username YOUR_COSMOSDB_ACCOUNT_NAME spark.cassandra.auth.password YOUR_COSMOSDB_KEY
A szükséges függőségek hozzáadása
Cassandra Spark-összekötő: – Az Apache Cassandra Azure Cosmos DB-jének a Sparkkal való integrálásához a Cassandra-összekötőt az Azure Databricks-fürthöz kell csatlakoztatni. A fürt csatolása:
- Tekintse át a Databricks futtatókörnyezeti verzióját, a Spark-verziót. Ezután keresse meg a Cassandra Spark-összekötővel kompatibilis maven-koordinátákat , és csatolja a fürthöz. Tekintse meg a "Maven-csomag vagy Spark-csomag feltöltése" című cikket az összekötőtár fürthöz való csatolásához. Javasoljuk, hogy válassza a Databricks 10.4 LTS-es verzióját, amely támogatja a Spark 3.2.1-et. Ha hozzá szeretné adni az Apache Spark Cassandra Connectort, a fürtöt, válassza a Kódtárak>új maven telepítése>lehetőséget, majd adja hozzá
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0
a Maven koordinátáihoz. Ha Spark 2.x-et használ, javasoljuk, hogy a Spark 2.4.5-ös verziójával rendelkező környezetet használja a Spark-összekötőt a maven koordinátáinálcom.datastax.spark:spark-cassandra-connector_2.11:2.4.3
.
- Tekintse át a Databricks futtatókörnyezeti verzióját, a Spark-verziót. Ezután keresse meg a Cassandra Spark-összekötővel kompatibilis maven-koordinátákat , és csatolja a fürthöz. Tekintse meg a "Maven-csomag vagy Spark-csomag feltöltése" című cikket az összekötőtár fürthöz való csatolásához. Javasoljuk, hogy válassza a Databricks 10.4 LTS-es verzióját, amely támogatja a Spark 3.2.1-et. Ha hozzá szeretné adni az Apache Spark Cassandra Connectort, a fürtöt, válassza a Kódtárak>új maven telepítése>lehetőséget, majd adja hozzá
Azure Cosmos DB for Apache Cassandra-specifikus kódtár: – Ha Spark 2.x-et használ, egy egyéni kapcsolat-előállítóra van szükség az újrapróbálkozási szabályzat konfigurálásához a Cassandra Spark-összekötőről az Azure Cosmos DB-re az Apache Cassandra számára. Adja hozzá a
com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0
maven koordinátáit az erőforrástár fürthöz való csatolásához.
Feljegyzés
Ha Spark 3.x-et használ, nem kell telepítenie a fent említett Apache Cassandra-specifikus Azure Cosmos DB-t.
Figyelmeztetés
A cikkben bemutatott Spark 3-mintákat a Spark 3.2.1-es verziójával és a megfelelő Cassandra Spark Connector com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0-val teszteltük. Előfordulhat, hogy a Spark és/vagy a Cassandra-összekötő későbbi verziói nem a várt módon működnek.
Mintanotebookok
Az Azure Databricks-mintajegyzetfüzetek listája letölthető a GitHub-adattárban. Ezek a minták azt tartalmazzák, hogyan csatlakozhat az Apache Cassandra Azure Cosmos DB-hez a Sparkból, és hogyan hajthat végre különböző CRUD-műveleteket az adatokon. Az összes jegyzetfüzetet importálhatja a Databricks-fürt munkaterületére, és futtathatja.
Az Apache Cassandra azure Cosmos DB-hez való elérése Spark Scala-programokból
Az Azure Databricksben automatizált folyamatként futtatandó Spark-programokat a rendszer spark-submit használatával küldi el a fürtnek, és ütemezetten futtatja az Azure Databricks-feladatokat.
Az alábbi hivatkozások segítenek a Spark Scala-programok létrehozásának megkezdésében az Apache Cassandra-hoz készült Azure Cosmos DB-vel való interakcióhoz.
- Csatlakozás az Apache Cassandra-hoz készült Azure Cosmos DB-hez Spark Scala-programból
- Spark Scala-program futtatása automatizált feladatként az Azure Databricksben
- Kódminták teljes listája a Cassandra API használatához
Következő lépések
Ismerkedés a Cassandra-fiókhoz, -adatbázishoz és -táblához készült API-k Java-alkalmazással történő létrehozásával.