Panduan Apache Spark
Artikel ini menyediakan berbagai panduan untuk menggunakan Apache Spark di Azure HDInsight.
Bagaimana cara menjalankan atau mengirimkan pekerjaan Spark?
Opsi | Dokumen |
---|---|
Visual Studio Code | Gunakan Alat Spark & Apache Hive untuk Visual Studio Code |
Jupyter Notebooks | Tutorial: Muat data dan jalankan kueri pada kluster Apache Spark di Azure HDInsight |
IntelliJ | Tutorial Gunakan Azure Toolkit untuk IntelliJ untuk membuat aplikasi Apache Spark untuk kluster HDInsight |
IntelliJ | Tutorial: Buat aplikasi Scala Maven untuk Apache Spark di HDInsight menggunakan IntelliJ |
Notebook Zeppelin | Gunakan Notebook Apache Zeppelin dengan Apache Spark pada Azure HDInsight |
Pengiriman pekerjaan jarak jauh dengan Livy | Gunakan Apache Spark REST API untuk mengirimkan pekerjaan jarak jauh ke kluster HDInsight Spark |
Apache Oozie | Oozie adalah sistem alur kerja dan koordinasi yang mengelola pekerjaan Hadoop. |
Apache Livy | Anda dapat menggunakan Livy untuk menjalankan shell Spark interaktif atau mengirimkan pekerjaan batch untuk dijalankan pada Spark. |
Azure Data Factory untuk Apache Spark | Aktivitas Spark di alur Data Factory menjalankan program Spark milik Anda sendiri atau kluster berdasarkan-permintaan HDInsight. |
Azure Data Factory untuk Apache Hive | Aktivitas HDInsight Apache Hive di alur Data Factory menjalankan kueri Apache Hive milik Anda sendiri atau berdasarkan permintaan kluster HDInsight. |
Bagaimana cara memantau dan men-debug pekerjaan Spark?
Opsi | Dokumen |
---|---|
Azure Toolkit untuk IntelliJ | Kegagalan memicu penelusuran kesalahan pekerjaan dengan Azure Toolkit untuk IntelliJ (pratinjau) |
Azure Toolkit untuk IntelliJ melalui SSH | Debug aplikasi Apache Spark dari jarak jauh atau lokal pada kluster Azure HDInsight dengan Azure Toolkit untuk IntelliJ melalui SSH |
Azure Toolkit untuk IntelliJ melalui VPN | Gunakan Azure Toolkit untuk IntelliJ untuk men-debug aplikasi Apache Spark dari jarak jauh di HDInsight melalui VPN |
Grafik pekerjaan di Apache Spark History Server | Anda dapat menggunakan server riwayat Apache Spark yang diperluas untuk men-debug dan mendiagnosis aplikasi Apache Spark |
Bagaimana cara membuat pekerjaan Spark saya berjalan lebih efisien?
Opsi | Dokumen |
---|---|
IO Cache | Tingkatkan performa beban kerja Apache Spark menggunakan Azure HDInsight IO Cache (Tinjauan) |
Opsi konfigurasi | Optimalkan pekerjaan Apache Spark |
Bagaimana cara menyambungkan ke Layanan Azure lainnya?
Opsi | Dokumen |
---|---|
Apache Hive di HDInsight | Mengintegrasikan Apache Spark dan Apache Hive dengan Hive Warehouse Connector |
Apache HBase pada HDInsight | Gunakan Apache Spark untuk membaca dan menulis data Apache HBase |
Apache Kafka di HDInsight | Tutorial: Gunakan Streaming Terstruktur Apache Spark dengan Apache Kafka di HDInsight |
Azure Cosmos DB | Azure Synapse Link untuk Azure Cosmos DB |
Apa saja opsi penyimpanan saya?
Opsi | Dokumen |
---|---|
Azure Data Lake Storage Gen2 | Menggunakan Azure Data Lake Storage Gen2 dengan kluster Azure HDInsight |
Azure Blob Storage | Menggunakan penyimpanan Azure dengan kluster Azure HDInsight |