Integrácia služby OneLake so službou Azure Databricks
V tomto scenári sa dozviete, ako sa pripojiť k službe OneLake prostredníctvom služby Azure Databricks. Po dokončení tohto kurzu si budete môcť z pracovného priestoru Azure Databricks prečítať a napísať do služby Microsoft Fabric lakehouse.
Požiadavky
Pred pripojením musíte mať:
- Pracovný priestor služby Fabric a domov jazier.
- Prémiový pracovný priestor Azure Databricks. Iba prémiové pracovné priestory Azure Databricks podporujú odovzdávanie poverení Microsoft Entra, čo je v tomto scenári potrebné.
Nastavenie pracovného priestoru služby Databricks
Otvorte pracovný priestor Azure Databricks a vyberte položku Vytvoriť>klaster.
Ak chcete vykonať overenie v službe OneLake pomocou svojej identity v službe Microsoft Entra, musíte v klastri v rozšírených možnostiach povoliť odovzdávanie poverení pre Azure Data Lake Storage (ADLS).
Poznámka
Môžete tiež pripojiť Databricks k OneLake pomocou objektu služby. Ďalšie informácie o overovaní služby Azure Databricks pomocou objektu služby nájdete v téme Spravovanie objektov služby.
Vytvorte klaster s preferovanými parametrami. Ďalšie informácie o vytváraní klastra Databricks nájdete v téme Konfigurácia klastrov – Azure Databricks.
Otvorte poznámkový blok a pripojte ho k novovytvorenému klastru.
Vytvorenie poznámkového bloku
Prejdite do svojho jazera služby Fabric a skopírujte cestu k vašej službe lakehouse azure Blob Filesystem (ABFS). Nájdete ho na table Vlastnosti .
Poznámka
Azure Databricks podporuje pri čítaní a písaní v službe ADLS Gen2 a OneLake iba ovládač Azure Blob Filesystem (ABFS):
abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/
.Uložte si cestu k službe lakehouse v poznámkovom bloku Databricks. V tomto lakehouse budete neskôr písať svoje spracované údaje:
oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
Načítanie údajov z verejnej množiny údajov Databricks do údajového rámca. Môžete tiež prečítať súbor z iného miesta v službe Fabric alebo vybrať súbor z iného konta služby ADLS Gen2, ktoré už vlastníte.
yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
Filtrovanie, transformácia alebo príprava údajov. V tomto scenári môžete znížiť počet množín údajov tak, aby sa načítala rýchlejšie, spojiť sa s inými množinami údajov alebo filtrovať konkrétne výsledky.
filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4) display(filteredTaxiDF)
Pomocou cesty OneLake zapíšte filtrovaný údajový rámec do svojho úložiského jazera Fabric.
filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)
Otestujte, či sa vaše údaje úspešne zapísali, ak si prečítate novo načítaný súbor.
lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath) display(lakehouseRead.limit(10))
Blahoželáme. Teraz môžete čítať a zapisovať údaje v službe Fabric pomocou služby Azure Databricks.