Udostępnij za pośrednictwem


Tworzenie pierwszego przepływu pracy za pomocą zadania usługi Azure Databricks

W tym artykule przedstawiono zadanie usługi Azure Databricks, które organizuje zadania odczytu i przetwarzania przykładowego zestawu danych. W ramach tego przewodnika Szybki start wykonasz następujące czynności:

  1. Utwórz nowy notes i dodaj kod, aby pobrać przykładowy zestaw danych zawierający popularne nazwy dzieci według roku.
  2. Zapisz przykładowy zestaw danych w Unity Catalog.
  3. Utwórz nowy notatnik i dodaj kod, aby odczytać zestaw danych z Unity Catalog, przefiltrować go według roku i wyświetlić wyniki.
  4. Utwórz nowe zadanie i skonfiguruj dwa zadania przy użyciu notesów.
  5. Uruchom zadanie i wyświetl wyniki.

Wymagania

Jeśli obszar roboczy jest włączony w katalogu aparatu Unity, a zadania bezserwerowe są domyślnie włączone, zadanie jest uruchamiane na obliczeniach bezserwerowych. Nie potrzebujesz uprawnień do tworzenia klastra, aby uruchomić zadanie za pomocą obliczeń bezserwerowych.

W przeciwnym razie musisz mieć uprawnienie do tworzenia zasobów obliczeniowych zadania lub uprawnień do zasobów obliczeniowych ogólnego przeznaczenia.

Musisz mieć wolumin w Unity Catalog. W tym artykule użyto woluminu o nazwie my-volume w schemacie o nazwie default w katalogu o nazwie main. Ponadto musisz mieć następujące uprawnienia w Unity Catalog:

  • READ VOLUME i WRITE VOLUME, dla ALL PRIVILEGESwoluminu my-volume .
  • USE SCHEMA lub ALL PRIVILEGES dla schematu default.
  • USE CATALOG lub ALL PRIVILEGES dla katalogu main.

Aby ustawić te uprawnienia, zobacz uprawnienia administratora usługi Databricks lub uprawnienia katalogu aparatu Unity oraz zabezpieczane obiekty.

Tworzenie notesów

Pobieranie i zapisywanie danych

Aby utworzyć notatnik do pobrania przykładowego zestawu danych i zapisania go w Unity Catalog:

  1. Przejdź do strony głównej usługi Azure Databricks i kliknij Nowa IkonaNowa na pasku bocznym i wybierz Notebook. Usługa Databricks tworzy i otwiera nowy, pusty notes w folderze domyślnym. Język domyślny to ostatnio używany język, a notes jest automatycznie dołączany do ostatnio używanego zasobu obliczeniowego.

  2. W razie potrzeby zmień język domyślny na Python.

  3. Skopiuj następujący kod w języku Python i wklej go w pierwszej komórce notesu.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Odczytywanie i wyświetlanie przefiltrowanych danych

Aby utworzyć notes do odczytywania i prezentowania danych do filtrowania:

  1. Przejdź do strony docelowej usługi Azure Databricks i kliknij pozycję Nowa ikonaNowa na pasku bocznym i wybierz pozycję Notebook. Usługa Databricks tworzy i otwiera nowy, pusty notes w folderze domyślnym. Język domyślny to ostatnio używany język, a notes jest automatycznie dołączany do ostatnio używanego zasobu obliczeniowego.

  2. W razie potrzeby zmień język domyślny na Python.

  3. Skopiuj następujący kod w języku Python i wklej go w pierwszej komórce notesu.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Tworzenie zadania

  1. Kliknij pozycję Ikona przepływów pracyPrzepływy pracy na pasku bocznym.

  2. Kliknij pozycję Przycisk Utwórz zadanie.

    Na karcie Zadania zostanie wyświetlone okno dialogowe tworzenia zadania.

    Okno dialogowe Tworzenie pierwszego zadania

  3. Zastąp ciąg Dodaj nazwę zadania... nazwą zadania.

  4. W polu Nazwa zadania wprowadź nazwę zadania, na przykład retrieve-baby-names.

  5. W menu rozwijanym Typ Wpisz wybierz pozycję Notes.

  6. Użyj przeglądarki plików, aby znaleźć pierwszy utworzony notes, kliknij nazwę notesu, a następnie kliknij przycisk Potwierdź.

  7. Kliknij pozycję Utwórz zadanie.

  8. Kliknij Przycisk Dodaj zadanie poniżej utworzonego zadania, aby dodać kolejne zadanie.

  9. W polu Nazwa zadania wprowadź nazwę zadania, na przykład filter-baby-names.

  10. W menu rozwijanym Typ Wpisz wybierz pozycję Notes.

  11. Użyj przeglądarki plików, aby znaleźć utworzony drugi notes, kliknij nazwę notesu, a następnie kliknij przycisk Potwierdź.

  12. Kliknij pozycję Dodaj w obszarze Parametry . W polu Klucz wprowadź wartość year. W polu Wartość wprowadź wartość 2014.

  13. Kliknij pozycję Utwórz zadanie.

Uruchamianie zadania

Aby natychmiast uruchomić zadanie, kliknij Przycisk Uruchom teraz w prawym górnym rogu. Możesz również uruchomić zadanie, klikając zakładkę Uruchomienia i klikając pozycję Uruchom teraz w tabeli Aktywne uruchomienia.

Wyświetlanie szczegółów przebiegu

  1. Kliknij kartę Przebiegi i kliknij link do uruchomienia w tabeli Aktywne uruchomienia lub w tabeli Ukończone uruchomienia (w ciągu ostatnich 60 dni).

  2. Kliknij albo zadanie, aby wyświetlić dane wyjściowe i szczegóły. Na przykład kliknij zadanie filter-baby-names , aby wyświetlić dane wyjściowe i uruchomić szczegóły zadania filtru:

    Wyświetlanie wyników nazw filtrów

Uruchamianie z różnymi parametrami

Aby ponownie uruchomić zadanie i przefiltrować nazwy dziecka przez inny rok:

  1. Kliknij niebieski symbol Caret w dół obok Uruchom teraz i wybierz Uruchom teraz z różnymi parametrami lub kliknij Uruchom teraz z różnymi parametrami w tabeli Aktywne uruchomienia.
  2. W polu Wartość wprowadź wartość 2015.
  3. Kliknij Uruchom.