Apache Spark di Azure Databricks
Artikel ini menjelaskan bagaimana Apache Spark terkait dengan Azure Databricks dan Databricks Data Intelligence Platform.
Apache Spark adalah inti dari platform Azure Databricks dan merupakan teknologi yang mendukung kluster komputasi dan gudang SQL. Azure Databricks adalah platform yang dioptimalkan untuk Apache Spark, menyediakan platform yang efisien dan sederhana untuk menjalankan beban kerja Apache Spark.
Transformasi dan Aksi Spark
Di Apache Spark, semua operasi didefinisikan sebagai transformasi atau tindakan.
- Transformasi: tambahkan beberapa logika pemrosesan ke rencana. Contohnya termasuk membaca data, gabungan, agregasi, dan konversi tipe.
- Tindakan: memicu logika pemrosesan untuk mengevaluasi dan menghasilkan hasil. Contohnya termasuk menulis, menampilkan atau pratinjau hasil, penyimpanan sementara manual, atau mendapatkan jumlah baris.
Apache Spark menggunakan model eksekusi malas, yang berarti bahwa tidak ada logika yang ditentukan oleh kumpulan operasi dievaluasi sampai tindakan dipicu. Untuk menghindari evaluasi logika yang tidak perlu, hanya gunakan tindakan untuk menyimpan hasil kembali ke tabel target.
Karena tindakan mewakili hambatan pemrosesan untuk mengoptimalkan logika, Azure Databricks telah menambahkan banyak pengoptimalan di atas yang sudah ada di Apache Spark untuk memastikan eksekusi logika yang optimal. Pengoptimalan ini mempertimbangkan semua transformasi yang dipicu oleh tindakan tertentu sekaligus dan menemukan rencana optimal berdasarkan tata letak fisik data. Penembolokan data secara manual atau mengembalikan hasil pratinjau dalam alur produksi dapat mengganggu pengoptimalan ini dan menyebabkan peningkatan biaya dan latensi.
Apa hubungan Apache Spark dengan Azure Databricks?
Perusahaan Databricks didirikan oleh pembuat asli Apache Spark. Sebagai proyek perangkat lunak sumber terbuka, Apache Spark memiliki komitter dari banyak perusahaan top, termasuk Databricks.
Databricks terus mengembangkan dan merilis fitur ke Apache Spark. Databricks Runtime mencakup pengoptimalan tambahan dan fitur kepemilikan yang membangun dan memperluas Apache Spark, termasuk Photon, versi Apache Spark yang dioptimalkan yang ditulis ulang di C++.
Bagaimana cara kerja Apache Spark di Azure Databricks?
Saat Anda menyebarkan kluster komputasi atau gudang SQL di Azure Databricks, Apache Spark dikonfigurasi dan disebarkan ke komputer virtual. Anda tidak perlu mengonfigurasi atau menginisialisasi konteks Spark atau sesi Spark, karena ini dikelola untuk Anda oleh Azure Databricks.
Dapatkah saya menggunakan Azure Databricks tanpa menggunakan Apache Spark?
Azure Databricks mendukung berbagai beban kerja dan menyertakan pustaka sumber terbuka di Databricks Runtime. Databricks SQL menggunakan Apache Spark di bawah tenda, tetapi pengguna akhir menggunakan sintaks SQL standar untuk membuat dan mengkueri objek database.
Runtime Databricks untuk Pembelajaran Mesin dioptimalkan untuk beban kerja ML, dan banyak ilmuwan data menggunakan pustaka utama sumber terbuka seperti TensorFlow dan SciKit Learn saat bekerja di Azure Databricks. Anda dapat menggunakan pekerjaan untuk menjadwalkan beban kerja arbitrer terhadap sumber daya komputasi yang disebarkan dan dikelola oleh Azure Databricks.
Mengapa menggunakan Apache Spark di Azure Databricks?
Platform Databricks menyediakan lingkungan kolaboratif yang aman untuk mengembangkan dan menyebarkan solusi perusahaan yang menskalakan dengan bisnis Anda. Karyawan Databricks mencakup banyak pengurus dan pengguna Apache Spark yang paling berpengetahuan di dunia. Perusahaan terus mengembangkan dan merilis pengoptimalan baru untuk memastikan pengguna dapat mengakses lingkungan tercepat untuk menjalankan Apache Spark.
Bagaimana cara mempelajari selengkapnya tentang menggunakan Apache Spark di Azure Databricks?
Untuk mulai menggunakan Apache Spark di Azure Databricks, langsung saja mulai! Tutorial Apache Spark DataFrames berjalan melalui pemuatan dan transformasi data di Python, R, atau Scala. Lihat Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames.
Informasi tambahan tentang dukungan bahasa Python, R, dan Scala di Spark ditemukan di bagian PySpark di Azure Databricks, gambaran umum SparkR, dan Azure Databricks untuk pengembang Scala, serta di Referensi untuk API Apache Spark.