Tworzenie pierwszego przepływu pracy za pomocą zadania usługi Azure Databricks
W tym artykule przedstawiono zadanie usługi Azure Databricks, które organizuje zadania odczytu i przetwarzania przykładowego zestawu danych. W ramach tego przewodnika Szybki start wykonasz następujące czynności:
- Utwórz nowy notes i dodaj kod, aby pobrać przykładowy zestaw danych zawierający popularne nazwy dzieci według roku.
- Zapisz przykładowy zestaw danych w Unity Catalog.
- Utwórz nowy notatnik i dodaj kod, aby odczytać zestaw danych z Unity Catalog, przefiltrować go według roku i wyświetlić wyniki.
- Utwórz nowe zadanie i skonfiguruj dwa zadania przy użyciu notesów.
- Uruchom zadanie i wyświetl wyniki.
Wymagania
Jeśli obszar roboczy jest włączony w katalogu aparatu Unity, a zadania bezserwerowe są domyślnie włączone, zadanie jest uruchamiane na obliczeniach bezserwerowych. Nie potrzebujesz uprawnień do tworzenia klastra, aby uruchomić zadanie za pomocą obliczeń bezserwerowych.
W przeciwnym razie musisz mieć uprawnienie do tworzenia zasobów obliczeniowych zadania lub uprawnień do zasobów obliczeniowych ogólnego przeznaczenia.
Musisz mieć wolumin w Unity Catalog. W tym artykule użyto woluminu o nazwie my-volume
w schemacie o nazwie default
w katalogu o nazwie main
. Ponadto musisz mieć następujące uprawnienia w Unity Catalog:
-
READ VOLUME
iWRITE VOLUME
, dlaALL PRIVILEGES
woluminumy-volume
. -
USE SCHEMA
lubALL PRIVILEGES
dla schematudefault
. -
USE CATALOG
lubALL PRIVILEGES
dla katalogumain
.
Aby ustawić te uprawnienia, zobacz uprawnienia administratora usługi Databricks lub uprawnienia katalogu aparatu Unity oraz zabezpieczane obiekty.
Tworzenie notesów
Pobieranie i zapisywanie danych
Aby utworzyć notatnik do pobrania przykładowego zestawu danych i zapisania go w Unity Catalog:
Przejdź do strony głównej usługi Azure Databricks i kliknij
Nowa na pasku bocznym i wybierz Notebook. Usługa Databricks tworzy i otwiera nowy, pusty notes w folderze domyślnym. Język domyślny to ostatnio używany język, a notes jest automatycznie dołączany do ostatnio używanego zasobu obliczeniowego.
W razie potrzeby zmień język domyślny na Python.
Skopiuj następujący kod w języku Python i wklej go w pierwszej komórce notesu.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Odczytywanie i wyświetlanie przefiltrowanych danych
Aby utworzyć notes do odczytywania i prezentowania danych do filtrowania:
Przejdź do strony docelowej usługi Azure Databricks i kliknij pozycję
Nowa na pasku bocznym i wybierz pozycję Notebook. Usługa Databricks tworzy i otwiera nowy, pusty notes w folderze domyślnym. Język domyślny to ostatnio używany język, a notes jest automatycznie dołączany do ostatnio używanego zasobu obliczeniowego.
W razie potrzeby zmień język domyślny na Python.
Skopiuj następujący kod w języku Python i wklej go w pierwszej komórce notesu.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Tworzenie zadania
Kliknij pozycję
Przepływy pracy na pasku bocznym.
Kliknij pozycję
.
Na karcie Zadania zostanie wyświetlone okno dialogowe tworzenia zadania.
Zastąp ciąg Dodaj nazwę zadania... nazwą zadania.
W polu Nazwa zadania wprowadź nazwę zadania, na przykład retrieve-baby-names.
W menu rozwijanym Typ Wpisz wybierz pozycję Notes.
Użyj przeglądarki plików, aby znaleźć pierwszy utworzony notes, kliknij nazwę notesu, a następnie kliknij przycisk Potwierdź.
Kliknij pozycję Utwórz zadanie.
Kliknij
poniżej utworzonego zadania, aby dodać kolejne zadanie.
W polu Nazwa zadania wprowadź nazwę zadania, na przykład filter-baby-names.
W menu rozwijanym Typ Wpisz wybierz pozycję Notes.
Użyj przeglądarki plików, aby znaleźć utworzony drugi notes, kliknij nazwę notesu, a następnie kliknij przycisk Potwierdź.
Kliknij pozycję Dodaj w obszarze Parametry . W polu Klucz wprowadź wartość
year
. W polu Wartość wprowadź wartość2014
.Kliknij pozycję Utwórz zadanie.
Uruchamianie zadania
Aby natychmiast uruchomić zadanie, kliknij w prawym górnym rogu. Możesz również uruchomić zadanie, klikając zakładkę Uruchomienia i klikając pozycję Uruchom teraz w tabeli Aktywne uruchomienia.
Wyświetlanie szczegółów przebiegu
Kliknij kartę Przebiegi i kliknij link do uruchomienia w tabeli Aktywne uruchomienia lub w tabeli Ukończone uruchomienia (w ciągu ostatnich 60 dni).
Kliknij albo zadanie, aby wyświetlić dane wyjściowe i szczegóły. Na przykład kliknij zadanie filter-baby-names , aby wyświetlić dane wyjściowe i uruchomić szczegóły zadania filtru:
Uruchamianie z różnymi parametrami
Aby ponownie uruchomić zadanie i przefiltrować nazwy dziecka przez inny rok:
- Kliknij
obok Uruchom teraz i wybierz Uruchom teraz z różnymi parametrami lub kliknij Uruchom teraz z różnymi parametrami w tabeli Aktywne uruchomienia.
- W polu Wartość wprowadź wartość
2015
. - Kliknij Uruchom.