Integrácia služby OneLake so službou Azure Databricks

Článok
12/22/2023

V tomto scenári sa dozviete, ako sa pripojiť k službe OneLake prostredníctvom služby Azure Databricks. Po dokončení tohto kurzu si budete môcť z pracovného priestoru Azure Databricks prečítať a napísať do služby Microsoft Fabric lakehouse.

Požiadavky

Pred pripojením musíte mať:

Pracovný priestor služby Fabric a domov jazier.
Prémiový pracovný priestor Azure Databricks. Iba prémiové pracovné priestory Azure Databricks podporujú odovzdávanie poverení Microsoft Entra, čo je v tomto scenári potrebné.

Nastavenie pracovného priestoru služby Databricks

Otvorte pracovný priestor Azure Databricks a vyberte položku Vytvoriť>klaster.
Ak chcete vykonať overenie v službe OneLake pomocou svojej identity v službe Microsoft Entra, musíte v klastri v rozšírených možnostiach povoliť odovzdávanie poverení pre Azure Data Lake Storage (ADLS).

Poznámka

Môžete tiež pripojiť Databricks k OneLake pomocou objektu služby. Ďalšie informácie o overovaní služby Azure Databricks pomocou objektu služby nájdete v téme Spravovanie objektov služby.
Vytvorte klaster s preferovanými parametrami. Ďalšie informácie o vytváraní klastra Databricks nájdete v téme Konfigurácia klastrov – Azure Databricks.
Otvorte poznámkový blok a pripojte ho k novovytvorenému klastru.

Vytvorenie poznámkového bloku

Prejdite do svojho jazera služby Fabric a skopírujte cestu k vašej službe lakehouse azure Blob Filesystem (ABFS). Nájdete ho na table Vlastnosti .

Poznámka

Azure Databricks podporuje pri čítaní a písaní v službe ADLS Gen2 a OneLake iba ovládač Azure Blob Filesystem (ABFS): abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/.
Uložte si cestu k službe lakehouse v poznámkovom bloku Databricks. V tomto lakehouse budete neskôr písať svoje spracované údaje:
```
oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
```
Načítanie údajov z verejnej množiny údajov Databricks do údajového rámca. Môžete tiež prečítať súbor z iného miesta v službe Fabric alebo vybrať súbor z iného konta služby ADLS Gen2, ktoré už vlastníte.
```
yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
```
Filtrovanie, transformácia alebo príprava údajov. V tomto scenári môžete znížiť počet množín údajov tak, aby sa načítala rýchlejšie, spojiť sa s inými množinami údajov alebo filtrovať konkrétne výsledky.
```
filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
display(filteredTaxiDF)
```
Pomocou cesty OneLake zapíšte filtrovaný údajový rámec do svojho úložiského jazera Fabric.
```
filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)
```

Otestujte, či sa vaše údaje úspešne zapísali, ak si prečítate novo načítaný súbor.

lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath)
display(lakehouseRead.limit(10))

Blahoželáme. Teraz môžete čítať a zapisovať údaje v službe Fabric pomocou služby Azure Databricks.

Integrácia služby OneLake so službou Azure HDInsight

Zdieľať cez

Integrácia služby OneLake so službou Azure Databricks

Požiadavky

Nastavenie pracovného priestoru služby Databricks

Vytvorenie poznámkového bloku

Pripomienky

Ďalšie zdroje informácií

Zdieľať cez

Integrácia služby OneLake so službou Azure Databricks

Požiadavky

Nastavenie pracovného priestoru služby Databricks

Vytvorenie poznámkového bloku

Súvisiaci obsah

Pripomienky

Ďalšie zdroje informácií