OneLake'i Azure Databricks ile tümleştirme

Makale
02/26/2024

Bu senaryo, Azure Databricks aracılığıyla OneLake'e bağlanmayı gösterir. Bu öğreticiyi tamamladıktan sonra, Azure Databricks çalışma alanınızdan bir Microsoft Fabric lakehouse'u okuyabilecek ve yazabileceksiniz.

Önkoşullar

Bağlanmadan önce sahip olmanız gerekenler:

Doku çalışma alanı ve göl evi.
Premium bir Azure Databricks çalışma alanı. Yalnızca premium Azure Databricks çalışma alanları, bu senaryo için ihtiyacınız olan Microsoft Entra kimlik bilgisi geçiş bilgilerini destekler.

Databricks çalışma alanınızı ayarlama

Azure Databricks çalışma alanınızı açın ve Küme Oluştur'u>seçin.
Microsoft Entra kimliğinizle OneLake'te kimlik doğrulaması yapmak için Gelişmiş Seçenekler'de kümenizde Azure Data Lake Depolama (ADLS) kimlik bilgisi geçişini etkinleştirmeniz gerekir.

Not

Hizmet sorumlusu kullanarak Databricks'i OneLake'e de bağlayabilirsiniz. Hizmet sorumlusu kullanarak Azure Databricks'in kimliğini doğrulama hakkında daha fazla bilgi için bkz . Hizmet sorumlularını yönetme.
Tercih ettiğiniz parametrelerle kümeyi oluşturun. Databricks kümesi oluşturma hakkında daha fazla bilgi için bkz . Kümeleri yapılandırma - Azure Databricks.
Not defterini açın ve yeni oluşturduğunuz kümeye bağlayın.

Not defterinizi yazma

Fabric lakehouse'unuza gidin ve Azure Blob Dosya Sistemi (ABFS) yolunu lakehouse'unuza kopyalayın. Özellikler bölmesinde bulabilirsiniz.

Not

Azure Databricks, ADLS 2. Nesil ve OneLake: okurken ve yazarken yalnızca Azure Blob Dosya Sistemi (ABFS) sürücüsünü destekler. abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/
Databricks not defterinize göl evi yolunu kaydedin. Bu göl evi, işlenen verilerinizi daha sonra yazabileceğiniz yerdir:
```
oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
```
Databricks genel veri kümesindeki verileri bir veri çerçevesine yükleyin. Ayrıca Doku'da başka bir yerden dosya okuyabilir veya zaten sahip olduğunuz başka bir ADLS 2. Nesil hesabından bir dosya seçebilirsiniz.
```
yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
```
Verilerinizi filtreleyin, dönüştürün veya hazırlayın. Bu senaryoda daha hızlı yükleme yapmak, diğer veri kümeleriyle birleştirmek veya belirli sonuçlara göre filtreleme yapmak için veri kümenizi kırpabilirsiniz.
```
filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
display(filteredTaxiDF)
```

OneLake yolunuzu kullanarak filtrelenmiş veri çerçevenizi Fabric lakehouse'unuza yazın.

filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)

Yeni yüklenen dosyanızı okuyarak verilerinizin başarıyla yazıldığını test edin.

lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath)
display(lakehouseRead.limit(10))

Tebrikler. Artık Azure Databricks'i kullanarak Doku'da veri okuyabilir ve yazabilirsiniz.

OneLake'i Azure HDInsight ile tümleştirme

Aracılığıyla paylaş

OneLake'i Azure Databricks ile tümleştirme

Önkoşullar

Databricks çalışma alanınızı ayarlama

Not defterinizi yazma

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

OneLake'i Azure Databricks ile tümleştirme

Önkoşullar

Databricks çalışma alanınızı ayarlama

Not defterinizi yazma

İlgili içerik

Geri Bildirim

Ek kaynaklar