Azure Databricks untuk pengembang Scala
Artikel ini menyediakan panduan untuk mengembangkan buku catatan dan pekerjaan di Azure Databricks menggunakan bahasa Scala. Bagian pertama menyediakan tautan ke tutorial untuk alur kerja dan tugas umum. Bagian kedua menyediakan tautan ke API, pustaka, dan alat utama.
Alur kerja dasar untuk memulai adalah:
- Impor kode dan jalankan menggunakan notebook Databricks interaktif: Impor kode Anda sendiri dari file atau repositori Git atau coba tutorial yang tercantum di bawah ini.
- Jalankan kode Anda pada kluster: Buat kluster Anda sendiri atau pastikan Anda memiliki izin untuk menggunakan kluster bersama. Lampirkan buku catatan Anda ke kluster dan jalankan buku catatan.
Di luar ini, Anda dapat bercabang ke topik yang lebih spesifik:
- Bekerja dengan himpunan data yang lebih besar menggunakan Apache Spark
- Tambahkan visualisasi
- Mengotomatiskan beban kerja Anda sebagai pekerjaan
- Mengembangkan di IDEs
Tutorial
Tutorial di bawah ini menyediakan contoh kode dan buku catatan untuk mempelajari tentang alur kerja umum. Lihat Mengimpor buku catatan untuk instruksi tentang mengimpor contoh notebook ke ruang kerja Anda.
- Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames
- Tutorial: Delta Lake menyediakan contoh Scala.
- Gunakan XGBoost di Azure Databricks menyediakan contoh Scala.
Referensi
Subbagian di bawah ini mencantumkan fitur dan tips utama untuk membantu Anda mulai mengembangkan di Azure Databricks dengan Scala.
API Scala
Tautan ini memberikan pengantar dan referensi untuk API Scala Apache Spark.
- Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames
- Mengkueri string JSON
- Pengantar Streaming Terstruktur
- Referensi API Apache Spark Core
- Referensi API Apache Spark ML
Mengelola kode dengan notebook dan folder Databricks Git
Notebook Databricks mendukung Scala. Notebook ini menyediakan fungsionalitas yang mirip dengan Jupyter, tetapi dengan penambahan seperti visualisasi bawaan menggunakan big data, integrasi Apache Spark untuk penelusuran kesalahan dan pemantauan performa, dan integrasi MLflow untuk melacak eksperimen pembelajaran mesin. Mulai dengan mengimpor buku catatan. Setelah Anda memiliki akses ke kluster, Anda bisa melampirkan notebook ke kluster dan menjalankan notebook.
Tip
Untuk mereset status notebook Anda, mulai ulang kernel. Untuk pengguna Jupyter, opsi "hidupkan ulang kernel" di Jupyter sesuai dengan melepaskan dan memasang ulang notebook di Databricks. Untuk memulai ulang kernel dalam buku catatan, klik pemilih komputasi di toolbar buku catatan dan arahkan kursor ke kluster terlampir atau gudang SQL dalam daftar untuk menampilkan menu samping. Pilih Copot & pasang kembali. Ini melepaskan notebook dari kluster Anda dan memasangnya kembali, yang memulai ulang proses.
Folder Databricks Git memungkinkan pengguna menyinkronkan notebook dan file lain dengan repositori Git. Folder Databricks Git membantu penerapan versi dan kolaborasi kode, dan dapat menyederhanakan impor repositori kode lengkap ke Azure Databricks, melihat versi buku catatan sebelumnya, dan mengintegrasikan dengan pengembangan IDE. Mulailah dengan mengkloning repositori Git jarak jauh. Anda kemudian dapat membuka atau membuat buku catatan dengan klon repositori, melampirkan buku catatan ke kluster, dan menjalankan buku catatan.
Kluster dan pustaka
Komputasi Azure Databricks menyediakan manajemen komputasi untuk kluster dengan ukuran apa pun: dari kluster simpul tunggal hingga kluster besar. Anda dapat menyesuaikan perangkat keras dan pustaka kluster sesuai dengan kebutuhan Anda. Ilmuwan data umumnya mulai bekerja baik dengan membuat kluster atau menggunakan kluster bersama yang ada. Setelah Anda memiliki akses ke kluster, Anda dapat melampirkan buku catatan ke kluster atau menjalankan pekerjaan pada kluster.
- Untuk beban kerja kecil yang hanya memerlukan simpul tunggal, ilmuwan data dapat menggunakan komputasi simpul tunggal untuk penghematan biaya.
- Untuk tips terperinci, lihat Rekomendasi konfigurasi komputasi
- Administrator dapat menyiapkan kebijakan kluster untuk menyederhanakan dan memandu pembuatan kluster.
Kluster Azure Databricks menggunakan Databricks Runtime, yang menyediakan banyak pustaka populer di luar kotak, termasuk Apache Spark, Delta Lake, dan banyak lagi. Anda juga dapat menginstal pustaka pihak ketiga atau kustom tambahan untuk digunakan dengan buku catatan dan pekerjaan.
- Mulailah dengan pustaka default dalam versi dan kompatibilitas catatan rilis Databricks Runtime. Untuk daftar lengkap pustaka yang telah diinstal sebelumnya, lihat Versi dan kompatibilitas catatan rilis Databricks Runtime.
- Anda juga dapat menginstal pustaka Scala dalam kluster.
- Untuk detail selengkapnya, lihat Pustaka.
Visualisasi
Notebook Azure Databricks Scala memiliki dukungan bawaan untuk banyak jenis visualisasi. Anda juga dapat menggunakan visualisasi warisan:
Interoperabilitas
Bagian ini menjelaskan fitur yang mendukung interoperabilitas antara Scala dan SQL.
Pekerjaan
Anda dapat mengotomatiskan beban kerja Scala sebagai pekerjaan terjadwal atau dipicu di Azure Databricks. Pekerjaan dapat menjalankan notebook dan JAR.
- Untuk detail tentang membuat pekerjaan melalui UI, lihat Mengonfigurasi dan mengedit Pekerjaan Databricks.
- SDK Databricks memungkinkan Anda membuat, mengedit, dan menghapus pekerjaan secara terprogram.
- Databricks CLI menyediakan antarmuka baris perintah yang nyaman untuk mengotomatiskan pekerjaan.
ID, alat pengembang, dan SDK
Selain mengembangkan kode Scala dalam notebook Azure Databricks, Anda dapat mengembangkan secara eksternal menggunakan lingkungan pengembangan terintegrasi (IDEs) seperti IntelliJ IDEA. Untuk menyinkronkan pekerjaan antara lingkungan pengembangan eksternal dan Azure Databricks, ada beberapa opsi:
- Kode: Anda dapat menyinkronkan kode menggunakan Git. Lihat Integrasi Git untuk folder Databricks Git.
- Pustaka dan pekerjaan: Anda dapat membuat pustaka secara eksternal dan mengunggahnya ke Azure Databricks. Pustaka tersebut dapat diimpor dalam notebook Azure Databricks, atau dapat digunakan untuk membuat pekerjaan. Lihat pustaka dan gambaran umum orkestrasi di Databricks.
- Eksekusi komputer jarak jauh: Anda dapat menjalankan kode dari IDE lokal Anda untuk pengembangan dan pengujian interaktif. IDE dapat berkomunikasi dengan Azure Databricks untuk menjalankan komputasi besar pada kluster Azure Databricks. Misalnya, Anda dapat menggunakan IntelliJ IDEA dengan Databricks Connect.
Databricks menyediakan sekumpulan SDK yang mendukung otomatisasi dan integrasi dengan alat eksternal. Anda dapat menggunakan SDK Databricks untuk mengelola sumber daya seperti kluster dan pustaka, kode dan objek ruang kerja lainnya, beban kerja dan pekerjaan, dan banyak lagi. Lihat SDK Databricks.
Untuk informasi selengkapnya tentang IDEs, alat pengembang, dan SDK, lihat Alat pengembangan lokal.
Sumber Daya Tambahan:
- Databricks Academy menawarkan kursus mandiri dan dipimpin instruktur tentang banyak topik.