Menampilkan metrik komputasi
Artikel ini menjelaskan cara menggunakan alat metrik komputasi asli di antarmuka pengguna Azure Databricks untuk mengumpulkan perangkat keras utama dan metrik Spark. Antarmuka pengguna metrik tersedia untuk komputasi semua tujuan dan pekerjaan.
Catatan
Komputasi tanpa server untuk buku catatan dan pekerjaan menggunakan wawasan kueri alih-alih antarmuka pengguna metrik. Untuk informasi selengkapnya tentang metrik komputasi tanpa server, lihat Menampilkan wawasan kueri.
Metrik tersedia hampir real-time dengan penundaan normal kurang dari satu menit. Metrik disimpan di penyimpanan yang dikelola Azure Databricks, bukan di penyimpanan pelanggan.
Bagaimana metrik baru ini berbeda dari Ganglia?
UI metrik komputasi baru memiliki tampilan yang lebih komprehensif tentang penggunaan sumber daya kluster Anda, termasuk konsumsi Spark dan proses Databricks internal. Sebaliknya, UI Ganglia hanya mengukur konsumsi kontainer Spark. Perbedaan ini dapat mengakibatkan perbedaan dalam metrik values antara kedua antarmuka.
Mengakses UI metrik komputasi
Untuk melihat UI metrik komputasi:
- Klik Hitung di bilah sisi.
- Klik sumber daya komputasi yang ingin Anda lihat metriknya.
- Klik tab Metrik .
Metrik perangkat keras ditampilkan secara default. Untuk melihat metrik Spark, klik menu drop-down berlabel Perangkat Keras
Memfilter metrik menurut periode waktu
Anda dapat melihat metrik historis dengan memilih rentang waktu menggunakan filter pemilih tanggal. Metrik dikumpulkan setiap menit, sehingga Anda dapat memfilter berdasarkan rentang hari, jam, atau menit apa pun dari 30 hari terakhir. Klik ikon kalender untuk select dari rentang data yang telah ditentukan sebelumnya, atau klik di dalam kotak teks untuk menentukan valueskustom.
Catatan
Interval waktu yang ditampilkan dalam bagan menyesuaikan berdasarkan lamanya waktu yang Anda lihat. Sebagian besar metrik adalah rata-rata berdasarkan interval waktu yang saat ini Anda lihat.
Anda juga dapat get metrik terbaru dengan mengklik tombol Refresh.
Melihat metrik di tingkat simpul
Anda dapat melihat metrik untuk simpul individual dengan mengklik menu drop-down Komputasi dan memilih simpul yang ingin Anda lihat metriknya. Metrik GPU hanya tersedia di tingkat simpul individual. Metrik Spark tidak tersedia untuk simpul individual.
Catatan
Jika Anda tidak select simpul tertentu, hasilnya akan dirata-ratakan di semua simpul dalam kluster (termasuk driver).
Bagan metrik perangkat keras
Bagan metrik perangkat keras berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:
- Distribusi beban server: Bagan ini menunjukkan pemanfaatan CPU selama satu menit terakhir untuk setiap simpul.
-
Pemanfaatan CPU: Persentase waktu yang dihabiskan CPU di setiap mode, berdasarkan total biaya detik CPU. Metrik dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan. Berikut ini adalah mode terlacak:
- tamu: Jika Anda menjalankan VM, CPU yang digunakan VM tersebut
- iowait: Waktu yang dihabiskan untuk menunggu I/O
- diam: Waktu CPU tidak ada hubungannya
- irq: Waktu yang dihabiskan untuk permintaan interupsi
- bagus: Waktu yang digunakan oleh proses yang memiliki kebaikan positif, yang berarti prioritas yang lebih rendah daripada tugas lain
- softirq: Waktu yang dihabiskan untuk permintaan interupsi perangkat lunak
- steal: Jika Anda adalah VM, waktu VM lain "mencuri" dari CPU Anda
- system: Waktu yang dihabiskan di kernel
- pengguna: Waktu yang dihabiskan di userland
-
Pemanfaatan memori: Total penggunaan memori oleh setiap mode, diukur dalam byte dan dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan. Jenis penggunaan berikut dilacak:
- digunakan: Memori yang digunakan (termasuk memori yang digunakan oleh proses latar belakang yang berjalan pada komputasi)
- gratis: Memori yang tidak digunakan
- buffer: Memori yang digunakan oleh buffer kernel
- di-cache: Memori yang digunakan oleh cache sistem file pada tingkat OS
- Pemanfaatan pertukaran memori: Total penggunaan pertukaran memori oleh setiap mode, diukur dalam byte dan dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Ruang sistem file gratis: Total penggunaan sistem file oleh setiap titik pemasangan, diukur dalam byte dan dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Diterima melalui jaringan: Jumlah byte yang diterima melalui jaringan oleh setiap perangkat, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Ditransmisikan melalui jaringan: Jumlah byte yang ditransmisikan melalui jaringan oleh setiap perangkat, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Jumlah simpul aktif: Ini menunjukkan jumlah simpul aktif pada setiap tanda waktu untuk komputasi yang diberikan.
Bagan metrik Spark
Bagan metrik Spark berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:
- Distribusi beban server: Bagan ini menunjukkan pemanfaatan CPU selama satu menit terakhir untuk setiap simpul.
- Tugas aktif: Jumlah total tugas yang dijalankan pada waktu tertentu, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Total tugas yang gagal: Jumlah total tugas yang gagal dalam pelaksana, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Total tugas yang selesai: Jumlah total tugas yang telah selesai dalam pelaksana, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Jumlah total tugas: Jumlah total semua tugas (berjalan, gagal, dan selesai) dalam pelaksana, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
-
Total pembacaan acak: Ukuran total data baca acak, diukur dalam byte dan dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
Shuffle read
berarti jumlah data baca berseri pada semua pelaksana di awal tahap. -
Total penulisan acak: Ukuran total data tulis acak, diukur dalam byte dan dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
Shuffle Write
adalah jumlah semua data berseri tertulis pada semua pelaksana sebelum mengirimkan (biasanya pada akhir tahap). - Total durasi tugas: Total waktu yang berlalu yang dihabiskan JVM untuk menjalankan tugas pada pelaksana, diukur dalam hitungan detik dan dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
Bagan metrik GPU
Catatan
Metrik GPU hanya tersedia di Databricks Runtime ML 13.3 ke atas.
Bagan metrik GPU berikut ini tersedia untuk dilihat di antarmuka pengguna metrik komputasi:
- Distribusi beban server: Bagan ini menunjukkan pemanfaatan CPU selama satu menit terakhir untuk setiap simpul.
- Pemanfaatan dekoder per GPU: Persentase pemanfaatan dekoder GPU, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Pemanfaatan encoder per GPU: Persentase pemanfaatan encoder GPU, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Byte pemanfaatan memori buffer bingkai per GPU: Pemanfaatan memori buffer bingkai, diukur dalam byte dan dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Pemanfaatan memori per GPU: Persentase pemanfaatan memori GPU, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
- Pemanfaatan per GPU: Persentase pemanfaatan GPU, dirata-rata berdasarkan interval waktu mana pun yang ditampilkan dalam bagan.
Pemecahan Masalah
Jika Anda melihat metrik yang tidak lengkap atau hilang selama satu periode, itu bisa menjadi salah satu masalah berikut:
- Pemadaman di layanan Databricks yang bertanggung jawab untuk mengkueri dan menyimpan metrik.
- Masalah jaringan di sisi pelanggan.
- Komputasinya adalah atau dalam keadaan tidak sehat.