Bagikan melalui


Membuat alur kerja pertama Anda dengan pekerjaan Azure Databricks

Artikel ini menunjukkan pekerjaan Azure Databricks yang mengatur tugas untuk membaca dan memproses kumpulan data sampel. Dalam mulai cepat ini, Anda akan:

  1. Buat buku catatan baru dan tambahkan kode untuk mengambil sampel himpunan data yang berisi nama bayi populer berdasarkan tahun.
  2. Simpan himpunan data sampel ke Katalog Unity.
  3. Buat buku catatan baru dan tambahkan kode untuk membaca himpunan data dari Unity Catalog, memfilternya menurut tahun, dan menampilkan hasilnya.
  4. Buat pekerjaan baru dan konfigurasikan dua tugas menggunakan buku catatan.
  5. Jalankan pekerjaan dan lihat hasilnya.

Persyaratan

Jika ruang kerja Anda diaktifkan oleh Unity Catalog dan Pekerjaan Tanpa Server diaktifkan, secara default, pekerjaan berjalan pada komputasi Tanpa Server. Anda tidak memerlukan izin pembuatan kluster untuk menjalankan pekerjaan Anda dengan komputasi Tanpa Server.

Jika tidak, Anda harus memiliki izin pembuatan kluster untuk membuat komputasi pekerjaan atau izin ke sumber daya komputasi tujuan semua.

Anda harus memiliki volume di Unity Catalog. Artikel ini menggunakan volume bernama my-volume dalam skema bernama default dalam katalog bernama main. Selain itu, Anda harus memiliki izin berikut di Unity Catalog:

  • READ VOLUME dan WRITE VOLUME, atau ALL PRIVILEGES, untuk my-volume volume.
  • USE SCHEMA atau ALL PRIVILEGES untuk skema default.
  • USE CATALOG atau ALL PRIVILEGES untuk katalog main.

Untuk mengatur izin ini, lihat administrator Databricks atau hak istimewa Katalog Unity dan objek yang dapat diamankan.

Buat buku catatan

Ambil dan simpan data

Untuk membuat buku catatan untuk mengambil himpunan data sampel dan menyimpannya ke Katalog Unity:

  1. Buka halaman utama Azure Databricks Anda dan klik Ikon BaruBaru di bilah samping dan pilih Notebook . Databricks membuat dan membuka buku catatan kosong baru di folder default Anda. Bahasa default adalah bahasa yang terakhir Anda gunakan, dan buku catatan secara otomatis dilampirkan ke sumber daya komputasi yang terakhir Anda gunakan.

  2. Jika perlu, ubah bahasa default menjadi Python.

  3. Salin kode Python berikut dan tempelkan ke sel pertama buku catatan.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Baca dan tampilkan data yang difilter

Untuk membuat buku catatan untuk membaca dan menyajikan data untuk pemfilteran:

  1. Buka halaman utama Azure Databricks Anda dan klik Ikon Baru Baru di bilah samping dan pilih Notebook . Databricks membuat dan membuka buku catatan kosong baru di folder default Anda. Bahasa default adalah bahasa yang terakhir Anda gunakan, dan buku catatan secara otomatis dilampirkan ke sumber daya komputasi yang terakhir Anda gunakan.

  2. Jika perlu, ubah bahasa default menjadi Python.

  3. Salin kode Python berikut dan tempelkan ke sel pertama buku catatan.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Membuat pekerjaan

  1. Klik Ikon Alur KerjaAlur Kerja di bilah samping.

  2. Klik Tombol Buat Pekerjaan.

    Tab Tugas ditampilkan dengan dialog buat tugas.

    Membuat dialog tugas pertama

  3. Ganti Tambahkan nama untuk pekerjaan Anda... dengan nama pekerjaan Anda.

  4. Di bidang Nama tugas, masukkan nama untuk tugas; misalnya, ambil-nama bayi.

  5. Pada menu drop-down Tipe , pilih Notebook.

  6. Gunakan browser file untuk menemukan buku catatan pertama yang Anda buat, klik nama buku catatan, dan klik Konfirmasi.

  7. Klik Buat tugas.

  8. Klik Tombol Tambahkan Tugas di bawah tugas yang baru saja Anda buat untuk menambahkan tugas lain.

  9. Di bidang Nama tugas, masukkan nama untuk tugas; misalnya, ambil-nama bayi.

  10. Di menu drop-down tipe , pilih Notebook.

  11. Gunakan browser file untuk menemukan buku catatan pertama yang Anda buat, klik nama buku catatan, dan klik Konfirmasi.

  12. Klik Tambahkan di bawah Parameter . Di bidang Kunci, masukkan year. Di bidang Nilai, masukkan 2014.

  13. Klik Buat tugas.

Menjalankan pekerjaan

Untuk segera menjalankan pekerjaan, klik Tombol Jalankan Sekarang di sudut kanan atas. Anda juga dapat menjalankan pekerjaan dengan mengklik tab Eksekusi dan mengklik Jalankan sekarang di tabel Eksekusi Aktif.

Lihat detail eksekusi

  1. Klik tab Eksekusi dan klik tautan untuk eksekusi dalam tabel Active Runs atau di tabel Completed Runs (60 hari terakhir).

  2. Klik salah satu tugas untuk melihat output dan detailnya. Misalnya, klik tugas filter-baby-names untuk melihat output dan menjalankan detail untuk tugas filter:

    Menampilkan hasil nama filter

Jalankan dengan parameter yang berbeda

Untuk menjalankan kembali pekerjaan dan memfilter nama bayi untuk tahun yang berbeda:

  1. Klik Blue Down Caret di samping Jalankan sekarang dan pilih Jalankan sekarang dengan parameter yang berbeda atau klik Jalankan sekarang dengan parameter yang berbeda dalam tabel Eksekusi Aktif.
  2. Di bidang Nilai, masukkan 2015.
  3. Klik Jalankan.