Azure Databricks'ten Apache Cassandra için Azure Cosmos DB verilerine erişme
ŞUNLAR IÇIN GEÇERLIDIR: Cassandra
Bu makalede, Azure Databricks'te Spark'tan Apache Cassandra için Azure Cosmos DB ile çalışma ayrıntılarıyla açıklanmaktadır.
Önkoşullar
Apache Cassandra için Azure Cosmos DB'ye bağlanmanın temellerini gözden geçirin
Cassandra için API ile çalışmaya yönelik kod örneklerini gözden geçirin
Cassandra bağlayıcısı için Cassandra örnek yapılandırması API'si:
Cassandra için API bağlayıcısı, Spark bağlamının bir parçası olarak Cassandra bağlantı ayrıntılarının başlatılmasını gerektirir. Databricks not defterini başlattığınızda spark bağlamı zaten başlatılır ve durdurmanız ve yeniden başlatmanız önerilmez. Bir çözüm, Cassandra örneği yapılandırmasını küme düzeyinde küme spark yapılandırmasına eklemektir. Küme başına tek seferlik bir etkinliktir. Spark yapılandırmasına boşlukla ayrılmış anahtar değer çifti olarak aşağıdaki kodu ekleyin:
spark.cassandra.connection.host YOUR_COSMOSDB_ACCOUNT_NAME.cassandra.cosmosdb.azure.com spark.cassandra.connection.port 10350 spark.cassandra.connection.ssl.enabled true spark.cassandra.auth.username YOUR_COSMOSDB_ACCOUNT_NAME spark.cassandra.auth.password YOUR_COSMOSDB_KEY
Gerekli bağımlılıkları ekleme
Cassandra Spark bağlayıcısı: - Apache Cassandra için Azure Cosmos DB'yi Spark ile tümleştirmek için Cassandra bağlayıcısının Azure Databricks kümesine eklenmesi gerekir. Kümeyi eklemek için:
- Databricks çalışma zamanı sürümünü, Spark sürümünü gözden geçirin. Ardından Cassandra Spark bağlayıcısı ile uyumlu maven koordinatlarını bulun ve kümeye ekleyin. Bağlayıcı kitaplığını kümeye eklemek için "Maven paketini veya Spark paketini karşıya yükleme" makalesine bakın. Spark 3.2.1'i destekleyen Databricks çalışma zamanı sürüm 10.4 LTS'yi seçmenizi öneririz. Kümeniz olan Apache Spark Cassandra Bağlayıcısı'nı eklemek için Kitaplıklar>Yeni>Maven Yükle'yi seçin ve ardından Maven koordinatlarını ekleyin.
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0
Spark 2.x kullanıyorsanız, spark bağlayıcısı maven koordinatlarındacom.datastax.spark:spark-cassandra-connector_2.11:2.4.3
kullanılarak Spark sürüm 2.4.5 ile bir ortam önerilir.
- Databricks çalışma zamanı sürümünü, Spark sürümünü gözden geçirin. Ardından Cassandra Spark bağlayıcısı ile uyumlu maven koordinatlarını bulun ve kümeye ekleyin. Bağlayıcı kitaplığını kümeye eklemek için "Maven paketini veya Spark paketini karşıya yükleme" makalesine bakın. Spark 3.2.1'i destekleyen Databricks çalışma zamanı sürüm 10.4 LTS'yi seçmenizi öneririz. Kümeniz olan Apache Spark Cassandra Bağlayıcısı'nı eklemek için Kitaplıklar>Yeni>Maven Yükle'yi seçin ve ardından Maven koordinatlarını ekleyin.
Apache Cassandra için Azure Cosmos DB'ye özgü kitaplık: - Spark 2.x kullanıyorsanız Cassandra Spark bağlayıcısından Apache Cassandra için Azure Cosmos DB'ye yeniden deneme ilkesini yapılandırmak için özel bir bağlantı fabrikası gerekir.
com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0
Kitaplığı kümeye eklemek için maven koordinatlarını ekleyin.
Not
Spark 3.x kullanıyorsanız, yukarıda bahsedilen Apache Cassandra'ya özgü kitaplık için Azure Cosmos DB'yi yüklemeniz gerekmez.
Uyarı
Bu makalede gösterilen Spark 3 örnekleri Spark sürüm 3.2.1 ve buna karşılık gelen Cassandra Spark Bağlayıcısı com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 ile test edilmiştir. Spark ve/veya Cassandra bağlayıcısının sonraki sürümleri beklendiği gibi çalışmayabilir.
Örnek not defterleri
İndirmeniz için GitHub deposunda Azure Databricks örnek not defterlerinin bir listesini bulabilirsiniz. Bu örnekler Spark'tan Apache Cassandra için Azure Cosmos DB'ye bağlanmayı ve veriler üzerinde farklı CRUD işlemleri gerçekleştirmeyi içerir. Ayrıca tüm not defterlerini Databricks kümesi çalışma alanınıza aktarabilir ve çalıştırabilirsiniz.
Spark Scala programlarından Apache Cassandra için Azure Cosmos DB'ye erişme
Azure Databricks'te otomatik işlemler olarak çalıştırılacak Spark programları spark-submit kullanılarak kümeye gönderilir) ve Azure Databricks işlerinde çalışacak şekilde zamanlanır.
Aşağıda, Apache Cassandra için Azure Cosmos DB ile etkileşim kurmak üzere Spark Scala programları oluşturmaya başlamanıza yardımcı olacak bağlantılar yer almaktadır.
- Spark Scala programından Apache Cassandra için Azure Cosmos DB'ye bağlanma
- Spark Scala programını Azure Databricks'te otomatik iş olarak çalıştırma
- Cassandra IÇIN API ile çalışmaya yönelik kod örneklerinin tam listesi
Sonraki adımlar
Java uygulaması kullanarak Cassandra hesabı, veritabanı ve tablo için API oluşturmaya başlayın.