Megosztás a következőn keresztül:


Azure Cosmos DB elérése Apache Cassandra-adatokhoz az Azure Databricksből

A KÖVETKEZŐKRE VONATKOZIK: Cassandra

Ez a cikk bemutatja, hogyan használható az Azure Cosmos DB for Apache Cassandra a Sparkból az Azure Databricksben.

Előfeltételek

A szükséges függőségek hozzáadása

  • Cassandra Spark-összekötő: – Az Apache Cassandra Azure Cosmos DB-jének a Sparkkal való integrálásához a Cassandra-összekötőt az Azure Databricks-fürthöz kell csatlakoztatni. A fürt csatolása:

    • Tekintse át a Databricks futtatókörnyezeti verzióját, a Spark-verziót. Ezután keresse meg a Cassandra Spark-összekötővel kompatibilis maven-koordinátákat , és csatolja a fürthöz. Tekintse meg a "Maven-csomag vagy Spark-csomag feltöltése" című cikket az összekötőtár fürthöz való csatolásához. Javasoljuk, hogy válassza a Databricks 10.4 LTS-es verzióját, amely támogatja a Spark 3.2.1-et. Ha hozzá szeretné adni az Apache Spark Cassandra Connectort, a fürtöt, válassza a Kódtárak>új maven telepítése>lehetőséget, majd adja hozzá com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 a Maven koordinátáihoz. Ha Spark 2.x-et használ, javasoljuk, hogy a Spark 2.4.5-ös verziójával rendelkező környezetet használja a Spark-összekötőt a maven koordinátáinál com.datastax.spark:spark-cassandra-connector_2.11:2.4.3.
  • Azure Cosmos DB for Apache Cassandra-specifikus kódtár: – Ha Spark 2.x-et használ, egy egyéni kapcsolat-előállítóra van szükség az újrapróbálkozási szabályzat konfigurálásához a Cassandra Spark-összekötőről az Azure Cosmos DB-re az Apache Cassandra számára. Adja hozzá a com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0maven koordinátáit az erőforrástár fürthöz való csatolásához.

Feljegyzés

Ha Spark 3.x-et használ, nem kell telepítenie a fent említett Apache Cassandra-specifikus Azure Cosmos DB-t.

Figyelmeztetés

A cikkben bemutatott Spark 3-mintákat a Spark 3.2.1-es verziójával és a megfelelő Cassandra Spark Connector com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0-val teszteltük. Előfordulhat, hogy a Spark és/vagy a Cassandra-összekötő későbbi verziói nem a várt módon működnek.

Mintanotebookok

Az Azure Databricks-mintajegyzetfüzetek listája letölthető a GitHub-adattárban. Ezek a minták azt tartalmazzák, hogyan csatlakozhat az Apache Cassandra Azure Cosmos DB-hez a Sparkból, és hogyan hajthat végre különböző CRUD-műveleteket az adatokon. Az összes jegyzetfüzetet importálhatja a Databricks-fürt munkaterületére, és futtathatja.

Az Apache Cassandra azure Cosmos DB-hez való elérése Spark Scala-programokból

Az Azure Databricksben automatizált folyamatként futtatandó Spark-programokat a rendszer spark-submit használatával küldi el a fürtnek, és ütemezetten futtatja az Azure Databricks-feladatokat.

Az alábbi hivatkozások segítenek a Spark Scala-programok létrehozásának megkezdésében az Apache Cassandra-hoz készült Azure Cosmos DB-vel való interakcióhoz.

Következő lépések

Ismerkedés a Cassandra-fiókhoz, -adatbázishoz és -táblához készült API-k Java-alkalmazással történő létrehozásával.