Azure Databricks untuk pengembang Scala

Artikel
01/02/2025

Artikel ini menyediakan panduan untuk mengembangkan buku catatan dan pekerjaan di Azure Databricks menggunakan bahasa Scala. Bagian pertama menyediakan tautan ke tutorial untuk alur kerja dan tugas umum. Bagian kedua menyediakan tautan ke API, pustaka, dan alat utama.

Alur kerja dasar untuk memulai adalah:

Impor kode dan jalankan menggunakan notebook Databricks interaktif: Impor kode Anda sendiri dari file atau repositori Git atau coba tutorial yang tercantum di bawah ini.
Jalankan kode Anda pada kluster: Buat kluster Anda sendiri atau pastikan Anda memiliki izin untuk menggunakan kluster bersama. Lampirkan buku catatan Anda ke kluster dan jalankan buku catatan.

Di luar ini, Anda dapat bercabang ke topik yang lebih spesifik:

Bekerja dengan himpunan data yang lebih besar menggunakan Apache Spark
Tambahkan visualisasi
Mengotomatiskan beban kerja Anda sebagai pekerjaan
Mengembangkan di IDEs

Tutorial

Tutorial di bawah ini menyediakan contoh kode dan buku catatan untuk mempelajari tentang alur kerja umum. Lihat Mengimpor buku catatan untuk instruksi tentang mengimpor contoh notebook ke ruang kerja Anda.

Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames
Tutorial: Delta Lake menyediakan contoh Scala.
Gunakan XGBoost di Azure Databricks menyediakan contoh Scala.

Referensi

Subbagian di bawah ini mencantumkan fitur dan tips utama untuk membantu Anda mulai mengembangkan di Azure Databricks dengan Scala.

API Scala

Tautan ini memberikan pengantar dan referensi untuk API Scala Apache Spark.

Mengelola kode dengan notebook dan folder Databricks Git

Notebook Databricks mendukung Scala. Notebook ini menyediakan fungsionalitas yang mirip dengan Jupyter, tetapi dengan penambahan seperti visualisasi bawaan menggunakan big data, integrasi Apache Spark untuk penelusuran kesalahan dan pemantauan performa, dan integrasi MLflow untuk melacak eksperimen pembelajaran mesin. Mulai dengan mengimpor buku catatan. Setelah Anda memiliki akses ke kluster, Anda bisa melampirkan notebook ke kluster dan menjalankan notebook.

Tip

Untuk mereset status notebook Anda, mulai ulang kernel. Untuk pengguna Jupyter, opsi "hidupkan ulang kernel" di Jupyter sesuai dengan melepaskan dan memasang ulang notebook di Databricks. Untuk memulai ulang kernel dalam buku catatan, klik pemilih komputasi di toolbar buku catatan dan arahkan kursor ke kluster terlampir atau gudang SQL dalam daftar untuk menampilkan menu samping. Pilih Copot & pasang kembali. Ini melepaskan notebook dari kluster Anda dan memasangnya kembali, yang memulai ulang proses.

Folder Databricks Git memungkinkan pengguna menyinkronkan notebook dan file lain dengan repositori Git. Folder Databricks Git membantu penerapan versi dan kolaborasi kode, dan dapat menyederhanakan impor repositori kode lengkap ke Azure Databricks, melihat versi buku catatan sebelumnya, dan mengintegrasikan dengan pengembangan IDE. Mulailah dengan mengkloning repositori Git jarak jauh. Anda kemudian dapat membuka atau membuat buku catatan dengan klon repositori, melampirkan buku catatan ke kluster, dan menjalankan buku catatan.

Kluster dan pustaka

Komputasi Azure Databricks menyediakan manajemen komputasi untuk kluster dengan ukuran apa pun: dari kluster simpul tunggal hingga kluster besar. Anda dapat menyesuaikan perangkat keras dan pustaka kluster sesuai dengan kebutuhan Anda. Ilmuwan data umumnya mulai bekerja baik dengan membuat kluster atau menggunakan kluster bersama yang ada. Setelah Anda memiliki akses ke kluster, Anda dapat melampirkan buku catatan ke kluster atau menjalankan pekerjaan pada kluster.

Untuk beban kerja kecil yang hanya memerlukan simpul tunggal, ilmuwan data dapat menggunakan komputasi simpul tunggal untuk penghematan biaya.
Untuk tips terperinci, lihat Rekomendasi konfigurasi komputasi
Administrator dapat menyiapkan kebijakan kluster untuk menyederhanakan dan memandu pembuatan kluster.

Kluster Azure Databricks menggunakan Databricks Runtime, yang menyediakan banyak pustaka populer di luar kotak, termasuk Apache Spark, Delta Lake, dan banyak lagi. Anda juga dapat menginstal pustaka pihak ketiga atau kustom tambahan untuk digunakan dengan buku catatan dan pekerjaan.

Mulailah dengan pustaka default dalam versi dan kompatibilitas catatan rilis Databricks Runtime. Untuk daftar lengkap pustaka yang telah diinstal sebelumnya, lihat Versi dan kompatibilitas catatan rilis Databricks Runtime.
Anda juga dapat menginstal pustaka Scala dalam kluster.
Untuk detail selengkapnya, lihat Pustaka.

Visualisasi

Notebook Azure Databricks Scala memiliki dukungan bawaan untuk banyak jenis visualisasi. Anda juga dapat menggunakan visualisasi warisan:

Interoperabilitas

Bagian ini menjelaskan fitur yang mendukung interoperabilitas antara Scala dan SQL.

Pekerjaan

Anda dapat mengotomatiskan beban kerja Scala sebagai pekerjaan terjadwal atau dipicu di Azure Databricks. Pekerjaan dapat menjalankan notebook dan JAR.

Untuk detail tentang membuat pekerjaan melalui UI, lihat Mengonfigurasi dan mengedit Pekerjaan Databricks.
SDK Databricks memungkinkan Anda membuat, mengedit, dan menghapus pekerjaan secara terprogram.
Databricks CLI menyediakan antarmuka baris perintah yang nyaman untuk mengotomatiskan pekerjaan.

ID, alat pengembang, dan SDK

Selain mengembangkan kode Scala dalam notebook Azure Databricks, Anda dapat mengembangkan secara eksternal menggunakan lingkungan pengembangan terintegrasi (IDEs) seperti IntelliJ IDEA. Untuk menyinkronkan pekerjaan antara lingkungan pengembangan eksternal dan Azure Databricks, ada beberapa opsi:

Kode: Anda dapat menyinkronkan kode menggunakan Git. Lihat Integrasi Git untuk folder Databricks Git.
Pustaka dan pekerjaan: Anda dapat membuat pustaka secara eksternal dan mengunggahnya ke Azure Databricks. Pustaka tersebut dapat diimpor dalam notebook Azure Databricks, atau dapat digunakan untuk membuat pekerjaan. Lihat pustaka dan gambaran umum orkestrasi di Databricks.
Eksekusi komputer jarak jauh: Anda dapat menjalankan kode dari IDE lokal Anda untuk pengembangan dan pengujian interaktif. IDE dapat berkomunikasi dengan Azure Databricks untuk menjalankan komputasi besar pada kluster Azure Databricks. Misalnya, Anda dapat menggunakan IntelliJ IDEA dengan Databricks Connect.

Databricks menyediakan sekumpulan SDK yang mendukung otomatisasi dan integrasi dengan alat eksternal. Anda dapat menggunakan SDK Databricks untuk mengelola sumber daya seperti kluster dan pustaka, kode dan objek ruang kerja lainnya, beban kerja dan pekerjaan, dan banyak lagi. Lihat SDK Databricks.

Untuk informasi selengkapnya tentang IDEs, alat pengembang, dan SDK, lihat Alat pengembangan lokal.

Sumber Daya Tambahan:

Databricks Academy menawarkan kursus mandiri dan dipimpin instruktur tentang banyak topik.

Bagikan melalui

Azure Databricks untuk pengembang Scala

Tutorial

Referensi

API Scala

Mengelola kode dengan notebook dan folder Databricks Git

Kluster dan pustaka

Visualisasi

Interoperabilitas

Pekerjaan

ID, alat pengembang, dan SDK

Sumber Daya Tambahan:

Saran dan Komentar

Sumber Daya Tambahan: