Praktik terbaik kumpulan
Artikel ini menjelaskan apa itu kumpulan, dan cara terbaik untuk mengonfigurasinya. Untuk informasi tentang membuat kumpulan, lihat Referensi konfigurasi kumpulan.
Catatan
Jika beban kerja Anda mendukung komputasi tanpa server, Databricks merekomendasikan penggunaan komputasi tanpa server alih-alih kumpulan untuk memanfaatkan komputasi yang selalu aktif dan dapat diskalakan. Lihat Menyambungkan ke komputasi tanpa server.
Pertimbangan kumpulan
Pertimbangkan hal berikut saat membuat kumpulan:
- Buat kumpulan menggunakan jenis instans dan runtime Azure Databricks berdasarkan beban kerja target.
- Jika memungkinkan, isi kumpulan dengan instans spot untuk mengurangi biaya. Hanya gunakan kumpulan spot sebagai simpul pekerja. Node driver Anda harus menggunakan instans sesuai permintaan.
- Isilah kumpulan dengan instans sesuai permintaan untuk pekerjaan dengan waktu eksekusi yang singkat dan persyaratan waktu eksekusi yang ketat.
- Gunakan tag kumpulan dan tag kluster untuk mengelola tagihan.
- Pra-pengisian kumpulan untuk memastikan instans tersedia saat kluster membutuhkannya.
Membuat kumpulan berdasarkan beban kerja
Anda dapat meminimalkan waktu akuisisi instans dengan membuat kumpulan untuk setiap jenis instans dan runtime Azure Databricks yang biasa digunakan organisasi Anda. Misalnya, jika sebagian besar kluster rekayasa data menggunakan instans tipe A, kluster sains data menggunakan instans tipe B, dan kluster analitik menggunakan instans tipe C, buat kumpulan dengan setiap jenis instans.
Menggunakan kumpulan instans spot
Jika simpul driver dan simpul pekerja Anda memiliki persyaratan yang berbeda, gunakan kumpulan yang berbeda untuk masing-masing.
Azure Databricks merekomendasikan untuk tidak menggunakan instans spot untuk simpul driver Anda. Jika Anda menggunakan kumpulan spot untuk simpul pekerja Anda, pilih kumpulan sesuai permintaan sebagai jenis Driver Anda.
Konfigurasikan kumpulan untuk menggunakan instans sesuai permintaan bagi pekerjaan dengan waktu eksekusi yang singkat dan persyaratan waktu eksekusi yang ketat. Gunakan instans sesuai permintaan untuk mencegah instans yang diperoleh hilang ke penawar yang lebih tinggi di pasar spot.
Konfigurasikan kumpulan untuk menggunakan instans spot untuk kluster yang mendukung pengembangan interaktif atau pekerjaan yang memprioritaskan penghematan biaya daripada keandalan.
Tag pool untuk mengelola biaya dan tagihan
Menandai kumpulan pada pusat biaya yang benar memungkinkan Anda mengelola tagihan balik biaya dan penggunaan. Anda dapat menggunakan beberapa tag kustom untuk mengaitkan beberapa pusat biaya ke kumpulan. Namun, penting untuk memahami bagaimana tag disebarkan saat sebuah kluster dibuat dari kumpulan. Tag dari kumpulan menyebar ke instans penyedia cloud yang mendasar, tetapi tag kluster tidak. Terapkan semua tag kustom yang diperlukan untuk mengelola tagihan balik biaya komputasi penyedia cloud ke kumpulan.
Tag kumpulan dan tag kluster keduanya disebarkan ke tagihan Azure Databricks. Anda dapat menggunakan kombinasi tag kluster dan kumpulan untuk mengelola tagihan balik Azure Databricks Units.
Untuk mempelajari lebih lanjut, lihat penggunaan Atribut menggunakan tag.
Mengonfigurasi kumpulan untuk mengontrol biaya
Anda dapat menggunakan opsi konfigurasi berikut untuk membantu mengontrol biaya kumpulan:
- Atur jumlah minimum instans tidak aktif ke 0 untuk menghindari pembayaran atas instans yang berjalan tetapi tidak melakukan pekerjaan. Pertukaran ini adalah kemungkinan peningkatan waktu ketika sebuah kluster perlu memperoleh instans baru.
- Atur Kapasitas Maks berdasarkan penggunaan yang diantisipasi. Ini mengatur batas untuk jumlah maksimum instans yang aktif dan diam di kumpulan. Jika pekerjaan atau kluster meminta instans dari kumpulan pada kapasitas maksimumnya, permintaan gagal, dan kluster tidak memperoleh lebih banyak instans. Oleh karena itu, Databricks merekomendasikan agar Anda menetapkan kapasitas maksimum hanya jika ada kuota instans yang ketat atau batasan anggaran.
- Atur waktu Penghentian Otomatis Instans Siaga untuk memberikan buffer antara saat instans dirilis dari kluster dan ketika dikeluarkan dari kumpulan. Atur ini ke durasi yang memungkinkan Anda meminimalkan biaya sambil memastikan ketersediaan instance untuk pekerjaan terjadwal. Misalnya, pekerjaan A dijadwalkan untuk berjalan pada pukul 08.00 dan membutuhkan waktu 40 menit untuk menyelesaikannya. Pekerjaan B dijadwalkan berjalan pada pukul 09.00 dan membutuhkan waktu 30 menit untuk menyelesaikannya. Atur nilai Penghentian Otomatis Instans Menganggur menjadi 20 menit untuk memastikan bahwa instans yang dikembalikan ke kumpulan saat pekerjaan A selesai tersedia saat pekerjaan B dimulai. Kecuali jika diklaim oleh kluster lain, instans tersebut dihentikan 20 menit setelah pekerjaan B berakhir.
Pra-pengisian kumpulan
Untuk mendapatkan keuntungan penuh dari kumpulan, Anda dapat melakukan pra-pengisian pada kumpulan yang baru dibuat. Atur instans Min Idle yang lebih besar dari nol dalam konfigurasi kumpulan. Atau, jika Anda mengikuti rekomendasi untuk mengatur nilai ini ke nol, gunakan pekerjaan permulaan untuk memastikan bahwa kumpulan yang baru dibuat memiliki instans yang tersedia untuk diakses kluster.
Dengan pendekatan pekerjaan permulaan, jadwalkan pekerjaan dengan persyaratan waktu eksekusi yang fleksibel untuk dijalankan sebelum pekerjaan dengan persyaratan performa yang lebih ketat atau sebelum pengguna mulai menggunakan kluster interaktif. Setelah pekerjaan selesai, instans yang digunakan untuk pekerjaan dilepaskan kembali ke kumpulan. Atur pengaturan instans Min Idle ke 0 dan atur waktu Penghentian Otomatis Instans yang Diam cukup tinggi untuk memastikan bahwa instans yang diam tetap tersedia untuk pekerjaan berikutnya.
Menggunakan pekerjaan permulaan memungkinkan instans kumpulan berputar, mengisi kumpulan, dan tetap tersedia untuk pekerjaan hilir atau kluster interaktif.