Panduan Apache Spark

Artikel
02/28/2025

Artikel ini menyediakan berbagai panduan untuk menggunakan Apache Spark di Azure HDInsight.

Bagaimana cara menjalankan atau mengirimkan pekerjaan Spark?

Opsi	Dokumen
Visual Studio Code	Gunakan Alat Spark & Apache Hive untuk Visual Studio Code
Jupyter Notebooks	Tutorial: Muat data dan jalankan kueri pada kluster Apache Spark di Azure HDInsight
IntelliJ	Tutorial Gunakan Azure Toolkit untuk IntelliJ untuk membuat aplikasi Apache Spark untuk kluster HDInsight
IntelliJ	Tutorial: Buat aplikasi Scala Maven untuk Apache Spark di HDInsight menggunakan IntelliJ
Notebook Zeppelin	Gunakan Notebook Apache Zeppelin dengan Apache Spark pada Azure HDInsight
Pengiriman pekerjaan jarak jauh dengan Livy	Gunakan Apache Spark REST API untuk mengirimkan pekerjaan jarak jauh ke kluster HDInsight Spark
Apache Oozie	Oozie adalah sistem alur kerja dan koordinasi yang mengelola pekerjaan Hadoop.
Apache Livy	Anda dapat menggunakan Livy untuk menjalankan shell Spark interaktif atau mengirimkan pekerjaan batch untuk dijalankan pada Spark.
Azure Data Factory untuk Apache Spark	Aktivitas Spark di alur Data Factory menjalankan program Spark milik Anda sendiri atau kluster berdasarkan-permintaan HDInsight.
Azure Data Factory untuk Apache Hive	Aktivitas HDInsight Apache Hive di alur Data Factory menjalankan kueri Apache Hive milik Anda sendiri atau berdasarkan permintaan kluster HDInsight.

Bagaimana cara memantau dan men-debug pekerjaan Spark?

Opsi	Dokumen
Azure Toolkit untuk IntelliJ	Kegagalan memicu penelusuran kesalahan pekerjaan dengan Azure Toolkit untuk IntelliJ (pratinjau)
Azure Toolkit untuk IntelliJ melalui SSH	Debug aplikasi Apache Spark dari jarak jauh atau lokal pada kluster Azure HDInsight dengan Azure Toolkit untuk IntelliJ melalui SSH
Azure Toolkit untuk IntelliJ melalui VPN	Gunakan Azure Toolkit untuk IntelliJ untuk men-debug aplikasi Apache Spark dari jarak jauh di HDInsight melalui VPN
Grafik pekerjaan di Apache Spark History Server	Anda dapat menggunakan server riwayat Apache Spark yang diperluas untuk men-debug dan mendiagnosis aplikasi Apache Spark

Bagaimana cara membuat pekerjaan Spark saya berjalan lebih efisien?

Opsi	Dokumen
IO Cache	Tingkatkan performa beban kerja Apache Spark menggunakan Azure HDInsight IO Cache (Tinjauan)
Opsi konfigurasi	Optimalkan pekerjaan Apache Spark

Bagaimana cara menyambungkan ke Layanan Azure lainnya?

Opsi	Dokumen
Apache Hive di HDInsight	Mengintegrasikan Apache Spark dan Apache Hive dengan Hive Warehouse Connector
Apache HBase pada HDInsight	Gunakan Apache Spark untuk membaca dan menulis data Apache HBase
Apache Kafka di HDInsight	Tutorial: Gunakan Streaming Terstruktur Apache Spark dengan Apache Kafka di HDInsight
Azure Cosmos DB	Azure Synapse Link untuk Azure Cosmos DB

Apa saja opsi penyimpanan saya?

Opsi	Dokumen
Azure Data Lake Storage Gen2	Menggunakan Azure Data Lake Storage Gen2 dengan kluster Azure HDInsight
Azure Blob Storage	Menggunakan penyimpanan Azure dengan kluster Azure HDInsight

Langkah berikutnya