Perencanaan kapasitas untuk klaster HDInsight

Artikel
12/02/2024

Sebelum menyebarkan kluster HDInsight, rencanakan kapasitas kluster yang dituju dengan menentukan performa dan skala yang dibutuhkan. Perencanaan ini membantu mengoptimalkan kegunaan dan biaya. Beberapa keputusan kapasitas kluster tidak dapat diubah setelah penyebaran. Jika parameter performa berubah, kluster dapat dibongkar dan dibuat ulang tanpa kehilangan data yang disimpan.

Pertanyaan kunci untuk meminta perencanaan kapasitas adalah:

Di wilayah geografis mana Anda harus menyebarkan kluster Anda?
Berapa banyak penyimpanan yang Anda butuhkan?
Jenis kluster apa yang harus Anda sebarkan?
Ukuran dan jenis komputer virtual (Virtual Machine; VM) apa yang harus digunakan oleh simpul kluster Anda?
Berapa banyak simpul pekerja yang harus dimiliki kluster Anda?

Pilih wilayah Azure

Wilayah Azure menentukan lokasi di mana kluster tersedia secara fisik. Untuk meminimalkan latensi baca dan tulis, kluster harus berada di dekat data Anda.

HDInsight tersedia di banyak wilayah Azure. Untuk menemukan wilayah terdekat, lihat Produk yang tersedia menurut wilayah.

Pilih lokasi dan ukuran penyimpanan

Lokasi penyimpanan default

Penyimpanan default, baik akun Azure Storage atau Azure Data Lake Storage, harus berada di lokasi yang sama dengan kluster Anda. Azure Storage tersedia di semua lokasi. Data Lake Store tersedia di beberapa wilayah - lihat ketersediaan Data Lake Store saat ini.

Lokasi data yang ada

Jika Anda ingin menggunakan akun penyimpanan atau Data Lake Storage yang ada sebagai penyimpanan default kluster, maka Anda harus menggunakan kluster di lokasi yang sama.

Ukuran penyimpanan

Pada kluster yang disebarkan, Anda dapat melampirkan akun Azure Storage lain atau mengakses Data Lake Storage lainnya. Semua akun penyimpanan Anda harus tinggal di lokasi yang sama dengan kluster Anda. Data Lake Storage dapat berada di lokasi yang berbeda, meskipun jarak yang sangat jauh dapat memperkenalkan beberapa latensi.

Azure Storage memiliki beberapa batas kapasitas, sementara Data Lake Store hampir tidak terbatas. Kluster dapat mengakses kombinasi akun penyimpanan yang berbeda. Contoh umum mencakup:

Ketika jumlah data cenderung melebihi kapasitas penyimpanan kontainer penyimpanan blob tunggal.
Ketika tingkat akses ke kontainer blob mungkin melebihi ambang batas di mana pembatasan terjadi.
Saat ingin membuat data, Anda sudah mengunggah ke kontainer blob yang tersedia untuk kluster.
Ketika Anda ingin mengisolasi berbagai bagian penyimpanan karena alasan keamanan, atau untuk menyederhanakan administrasi.

Untuk performa yang lebih baik, gunakan satu kontainer saja per akun penyimpanan.

Pilih jenis kluster

Jenis kluster menentukan beban kerja kluster HDInsight Anda dikonfigurasi untuk dijalankan. Jenisnya meliputi Apache Hadoop, Apache Kafka, atau Apache Spark. Untuk deskripsi terperinci tentang jenis kluster yang tersedia, lihat Pengantar Azure HDInsight. Setiap jenis kluster memiliki topologi penyebaran tertentu yang mencakup persyaratan untuk ukuran dan jumlah simpul.

Pilih ukuran dan jenis VM

etiap jenis kluster memiliki set jenis simpul, dan setiap jenis simpul memiliki opsi khusus untuk ukuran dan jenis VM-nya.

Untuk menentukan ukuran kluster optimal untuk aplikasi Anda, Anda dapat menjadi tolok ukur kapasitas kluster dan meningkatkan ukuran seperti yang ditunjukkan. Misalnya, Anda dapat menggunakan beban kerja yang disimulasikan, atau kueri canary. Jalankan beban kerja yang disimulasikan pada kluster ukuran yang berbeda. Secara bertahap tingkatkan ukuran sampai performa yang dituju tercapai. Kueri canary dapat disisipkan secara berkala di antara kueri produksi lainnya untuk memperlihatkan apakah kluster memiliki sumber daya yang cukup.

Untuk informasi selengkapnya tentang cara memilih keluarga VM yang tepat untuk beban kerja Anda, lihat Memilih ukuran VM yang tepat untuk kluster Anda.

Pilih skala kluster

Skala kluster ditentukan oleh kuantitas simpul VM-nya. Untuk semua tipe kluster, ada tipe node yang memiliki skala tertentu, dan tipe node yang mendukung scale-out. Misalnya, sebuah kluster mungkin memerlukan tepat tiga node Apache ZooKeeper atau dua node Utama. Node pekerja yang melakukan pemrosesan data dalam mode terdistribusi mendapat keuntungan dari node pekerja lain.

Tergantung pada jenis kluster Anda, meningkatkan jumlah node pekerja menambah lebih banyak kapasitas komputasi (seperti lebih banyak inti). Lebih banyak simpul akan meningkatkan total memori yang diperlukan untuk seluruh kluster untuk mendukung penyimpanan data dalam memori yang sedang diproses. Seperti halnya pilihan ukuran dan jenis VM, memilih skala kluster yang tepat biasanya dicapai secara empiris. Gunakan beban kerja yang disimulasikan atau kueri canary.

Anda dapat menskalakan kluster anda untuk memenuhi tuntutan beban puncak. Kemudian skalakan kembali ke bawah ketika simpul tambahan tersebut tidak lagi diperlukan. Fitur Skala otomatis memungkinkan Anda untuk secara otomatis menskalakan kluster Berdasarkan metrik dan waktu yang telah ditentukan. Untuk informasi selengkapnya tentang penskalaan kluster Anda secara manual, lihat Skalakan kluster HDInsight.

Siklus hidup kluster

Penggunaan kluster dikenakan biaya seumur hidup. Jika hanya ada waktu tertentu yang Anda butuhkan untuk kluster Anda, buat kluster sesuai permintaan menggunakan Azure Data Factory. Anda juga dapat membuat skrip PowerShell yang menyediakan dan menghapus kluster Anda, lalu jadwalkan skrip tersebut menggunakan Azure Automation.

Catatan

Ketika kluster dihapus, metastore Apache Hive defaultnya juga dihapus. Untuk mempertahankan metastore demi pembuatan ulang kluster berikutnya, gunakan penyimpanan metadata eksternal seperti Azure Database atau Apache Oozie.

Isolasi kesalahan pekerjaan kluster

Terkadang kesalahan dapat terjadi karena eksekusi paralel beberapa peta dan mengurangi komponen pada kluster multi-simpul. Untuk membantu mengisolasi masalah, coba distribusikan pengujian. Jalankan beberapa pekerjaan bersamaan pada satu kluster simpul pekerja. Kemudian perluas pendekatan ini untuk menjalankan beberapa pekerjaan secara bersamaan pada kluster yang berisi lebih dari satu simpul. Untuk membuat kluster HDInsight node tunggal di Azure, gunakan opsi Custom(size, settings, apps) dan gunakan nilai 1 untuk Jumlah node Pekerja di bagian Ukuran kluster saat menyediakan kluster baru di portalnya.

Lihat manajemen kuota untuk HDInsight

Lihat tingkat granular dan kategorisasi kuota pada tingkat keluarga VM. Lihat kuota saat ini dan berapa banyak kuota yang tersisa untuk suatu wilayah di tingkat keluarga VM.

Catatan

Fitur ini saat ini tersedia di HDInsight 4.x dan 5.x untuk wilayah EUAP US Timur. Wilayah lain untuk diikuti kemudian.

Lihat kuota saat ini:

Lihat kuota saat ini dan berapa banyak kuota yang tersisa untuk suatu wilayah di tingkat keluarga VM.
1. Dari portal Azure, di bilah pencarian atas, cari dan pilih Kuota.
2. Dari halaman Kuota, pilih Azure HDInsight
3. Dari kotak dropdown, pilih Langganan dan Wilayah Anda
Meminta kuota baru per keluarga dan wilayah VM
1. Klik baris yang ingin Anda lihat detail kuotanya.

Kuota

Untuk informasi selengkapnya tentang mengelola kuota langganan, lihat Meminta penambahan kuota.

Langkah berikutnya

Siapkan kluster di Azure HDInsight dengan Apache Hadoop, Spark, Kafka, dan lainnya: Pelajari cara mengatur dan mengonfigurasi kluster di Azure HDInsight.
Pantau performa kluster:Pelajari tentang skenario utama untuk memantau kluster HDInsight yang mungkin memengaruhi kapasitas kluster Anda.

Bagikan melalui