Membuat alur kerja pertama Anda dengan pekerjaan Azure Databricks
Artikel ini menunjukkan pekerjaan Azure Databricks yang mengatur tugas untuk membaca dan memproses kumpulan data sampel. Dalam mulai cepat ini, Anda akan:
- Buat buku catatan baru dan tambahkan kode untuk mengambil sampel himpunan data yang berisi nama bayi populer berdasarkan tahun.
- Simpan himpunan data sampel ke Katalog Unity.
- Buat buku catatan baru dan tambahkan kode untuk membaca himpunan data dari Unity Catalog, memfilternya menurut tahun, dan menampilkan hasilnya.
- Buat pekerjaan baru dan konfigurasikan dua tugas menggunakan buku catatan.
- Jalankan pekerjaan dan lihat hasilnya.
Persyaratan
Jika ruang kerja Anda diaktifkan oleh Unity Catalog dan Pekerjaan Tanpa Server diaktifkan, secara default, pekerjaan berjalan pada komputasi Tanpa Server. Anda tidak memerlukan izin pembuatan kluster untuk menjalankan pekerjaan Anda dengan komputasi Tanpa Server.
Jika tidak, Anda harus memiliki izin pembuatan kluster untuk membuat komputasi pekerjaan atau izin ke sumber daya komputasi tujuan semua.
Anda harus memiliki volume di Unity Catalog. Artikel ini menggunakan volume bernama my-volume
dalam skema bernama default
dalam katalog bernama main
. Selain itu, Anda harus memiliki izin berikut di Unity Catalog:
-
READ VOLUME
danWRITE VOLUME
, atauALL PRIVILEGES
, untukmy-volume
volume. -
USE SCHEMA
atauALL PRIVILEGES
untuk skemadefault
. -
USE CATALOG
atauALL PRIVILEGES
untuk katalogmain
.
Untuk mengatur izin ini, lihat administrator Databricks atau hak istimewa Katalog Unity dan objek yang dapat diamankan.
Buat buku catatan
Ambil dan simpan data
Untuk membuat buku catatan untuk mengambil himpunan data sampel dan menyimpannya ke Katalog Unity:
Buka halaman utama Azure Databricks Anda dan klik
Baru di bilah samping dan pilih Notebook . Databricks membuat dan membuka buku catatan kosong baru di folder default Anda. Bahasa default adalah bahasa yang terakhir Anda gunakan, dan buku catatan secara otomatis dilampirkan ke sumber daya komputasi yang terakhir Anda gunakan.
Jika perlu, ubah bahasa default menjadi Python.
Salin kode Python berikut dan tempelkan ke sel pertama buku catatan.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Baca dan tampilkan data yang difilter
Untuk membuat buku catatan untuk membaca dan menyajikan data untuk pemfilteran:
Buka halaman utama Azure Databricks Anda dan klik
Baru di bilah samping dan pilih Notebook . Databricks membuat dan membuka buku catatan kosong baru di folder default Anda. Bahasa default adalah bahasa yang terakhir Anda gunakan, dan buku catatan secara otomatis dilampirkan ke sumber daya komputasi yang terakhir Anda gunakan.
Jika perlu, ubah bahasa default menjadi Python.
Salin kode Python berikut dan tempelkan ke sel pertama buku catatan.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Membuat pekerjaan
Klik
Alur Kerja di bilah samping.
Klik
.
Tab Tugas ditampilkan dengan dialog buat tugas.
Ganti Tambahkan nama untuk pekerjaan Anda... dengan nama pekerjaan Anda.
Di bidang Nama tugas, masukkan nama untuk tugas; misalnya, ambil-nama bayi.
Pada menu drop-down Tipe
, pilih Notebook .Gunakan browser file untuk menemukan buku catatan pertama yang Anda buat, klik nama buku catatan, dan klik Konfirmasi.
Klik Buat tugas.
Klik
di bawah tugas yang baru saja Anda buat untuk menambahkan tugas lain.
Di bidang Nama tugas, masukkan nama untuk tugas; misalnya, ambil-nama bayi.
Di menu drop-down tipe
, pilih Notebook .Gunakan browser file untuk menemukan buku catatan pertama yang Anda buat, klik nama buku catatan, dan klik Konfirmasi.
Klik Tambahkan di bawah Parameter . Di bidang Kunci, masukkan
year
. Di bidang Nilai, masukkan2014
.Klik Buat tugas.
Menjalankan pekerjaan
Untuk segera menjalankan pekerjaan, klik di sudut kanan atas. Anda juga dapat menjalankan pekerjaan dengan mengklik tab Eksekusi dan mengklik Jalankan sekarang di tabel Eksekusi Aktif.
Lihat detail eksekusi
Klik tab Eksekusi
dan klik tautan untuk eksekusi dalam tabel Active Runs atau di tabel Completed Runs (60 hari terakhir). Klik salah satu tugas untuk melihat output dan detailnya. Misalnya, klik tugas filter-baby-names untuk melihat output dan menjalankan detail untuk tugas filter:
Jalankan dengan parameter yang berbeda
Untuk menjalankan kembali pekerjaan dan memfilter nama bayi untuk tahun yang berbeda:
- Klik
di samping Jalankan sekarang dan pilih Jalankan sekarang dengan parameter yang berbeda atau klik Jalankan sekarang dengan parameter yang berbeda dalam tabel Eksekusi Aktif.
- Di bidang Nilai, masukkan
2015
. - Klik Jalankan.