Zdieľať cez


Integrácia služby OneLake so službou Azure Databricks

V tomto scenári sa dozviete, ako sa pripojiť k službe OneLake prostredníctvom služby Azure Databricks. Po dokončení tohto kurzu si budete môcť z pracovného priestoru Azure Databricks prečítať a napísať do služby Microsoft Fabric lakehouse.

Požiadavky

Pred pripojením musíte mať:

  • Pracovný priestor služby Fabric a domov jazier.
  • Prémiový pracovný priestor Azure Databricks. Iba prémiové pracovné priestory Azure Databricks podporujú odovzdávanie poverení Microsoft Entra, čo je v tomto scenári potrebné.

Nastavenie pracovného priestoru služby Databricks

  1. Otvorte pracovný priestor Azure Databricks a vyberte položku Vytvoriť>klaster.

  2. Ak chcete vykonať overenie v službe OneLake pomocou svojej identity v službe Microsoft Entra, musíte v klastri v rozšírených možnostiach povoliť odovzdávanie poverení pre Azure Data Lake Storage (ADLS).

    Screenshot showing where to select Create cluster in the Advanced options screen.

    Poznámka

    Môžete tiež pripojiť Databricks k OneLake pomocou objektu služby. Ďalšie informácie o overovaní služby Azure Databricks pomocou objektu služby nájdete v téme Spravovanie objektov služby.

  3. Vytvorte klaster s preferovanými parametrami. Ďalšie informácie o vytváraní klastra Databricks nájdete v téme Konfigurácia klastrov – Azure Databricks.

  4. Otvorte poznámkový blok a pripojte ho k novovytvorenému klastru.

Vytvorenie poznámkového bloku

  1. Prejdite do svojho jazera služby Fabric a skopírujte cestu k vašej službe lakehouse azure Blob Filesystem (ABFS). Nájdete ho na table Vlastnosti .

    Poznámka

    Azure Databricks podporuje pri čítaní a písaní v službe ADLS Gen2 a OneLake iba ovládač Azure Blob Filesystem (ABFS): abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/.

  2. Uložte si cestu k službe lakehouse v poznámkovom bloku Databricks. V tomto lakehouse budete neskôr písať svoje spracované údaje:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Načítanie údajov z verejnej množiny údajov Databricks do údajového rámca. Môžete tiež prečítať súbor z iného miesta v službe Fabric alebo vybrať súbor z iného konta služby ADLS Gen2, ktoré už vlastníte.

    yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Filtrovanie, transformácia alebo príprava údajov. V tomto scenári môžete znížiť počet množín údajov tak, aby sa načítala rýchlejšie, spojiť sa s inými množinami údajov alebo filtrovať konkrétne výsledky.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Pomocou cesty OneLake zapíšte filtrovaný údajový rámec do svojho úložiského jazera Fabric.

    filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)
    
  6. Otestujte, či sa vaše údaje úspešne zapísali, ak si prečítate novo načítaný súbor.

    lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath)
    display(lakehouseRead.limit(10))
    

Blahoželáme. Teraz môžete čítať a zapisovať údaje v službe Fabric pomocou služby Azure Databricks.