OneLake'i Azure Databricks ile tümleştirme
Bu senaryo, Azure Databricks aracılığıyla OneLake'e bağlanmayı gösterir. Bu öğreticiyi tamamladıktan sonra, Azure Databricks çalışma alanınızdan bir Microsoft Fabric lakehouse'u okuyabilecek ve yazabileceksiniz.
Önkoşullar
Bağlanmadan önce sahip olmanız gerekenler:
- Doku çalışma alanı ve göl evi.
- Premium bir Azure Databricks çalışma alanı. Yalnızca premium Azure Databricks çalışma alanları, bu senaryo için ihtiyacınız olan Microsoft Entra kimlik bilgisi geçiş bilgilerini destekler.
Databricks çalışma alanınızı ayarlama
Azure Databricks çalışma alanınızı açın ve Küme Oluştur'u>seçin.
Microsoft Entra kimliğinizle OneLake'te kimlik doğrulaması yapmak için Gelişmiş Seçenekler'de kümenizde Azure Data Lake Depolama (ADLS) kimlik bilgisi geçişini etkinleştirmeniz gerekir.
Not
Hizmet sorumlusu kullanarak Databricks'i OneLake'e de bağlayabilirsiniz. Hizmet sorumlusu kullanarak Azure Databricks'in kimliğini doğrulama hakkında daha fazla bilgi için bkz . Hizmet sorumlularını yönetme.
Tercih ettiğiniz parametrelerle kümeyi oluşturun. Databricks kümesi oluşturma hakkında daha fazla bilgi için bkz . Kümeleri yapılandırma - Azure Databricks.
Not defterini açın ve yeni oluşturduğunuz kümeye bağlayın.
Not defterinizi yazma
Fabric lakehouse'unuza gidin ve Azure Blob Dosya Sistemi (ABFS) yolunu lakehouse'unuza kopyalayın. Özellikler bölmesinde bulabilirsiniz.
Not
Azure Databricks, ADLS 2. Nesil ve OneLake: okurken ve yazarken yalnızca Azure Blob Dosya Sistemi (ABFS) sürücüsünü destekler.
abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/
Databricks not defterinize göl evi yolunu kaydedin. Bu göl evi, işlenen verilerinizi daha sonra yazabileceğiniz yerdir:
oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
Databricks genel veri kümesindeki verileri bir veri çerçevesine yükleyin. Ayrıca Doku'da başka bir yerden dosya okuyabilir veya zaten sahip olduğunuz başka bir ADLS 2. Nesil hesabından bir dosya seçebilirsiniz.
yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
Verilerinizi filtreleyin, dönüştürün veya hazırlayın. Bu senaryoda daha hızlı yükleme yapmak, diğer veri kümeleriyle birleştirmek veya belirli sonuçlara göre filtreleme yapmak için veri kümenizi kırpabilirsiniz.
filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4) display(filteredTaxiDF)
OneLake yolunuzu kullanarak filtrelenmiş veri çerçevenizi Fabric lakehouse'unuza yazın.
filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)
Yeni yüklenen dosyanızı okuyarak verilerinizin başarıyla yazıldığını test edin.
lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath) display(lakehouseRead.limit(10))
Tebrikler. Artık Azure Databricks'i kullanarak Doku'da veri okuyabilir ve yazabilirsiniz.