Bagikan melalui


Referensi tabel sistem komputer

Penting

Tabel sistem ini berada dalam Pratinjau Umum. Untuk mengakses tabel, skema harus diaktifkan di katalog system Anda. Untuk informasi selengkapnya, lihat Mengaktifkan skema tabel sistem.

Artikel ini memberi Anda panduan referensi untuk tabel sistem komputasi. Anda dapat menggunakan tabel ini untuk memantau aktivitas dan metrik komputasi semua tujuan dan pekerjaan di akun Anda:

  • clusters: Mencatat konfigurasi komputasi di akun Anda.
  • node_types: Menyertakan satu rekaman untuk setiap jenis node yang saat ini tersedia, termasuk informasi perangkat keras.
  • node_timeline: Menyertakan catatan menit demi menit metrik pemanfaatan komputasi Anda.

Skema kluster tabel

Tabel kluster adalah tabel dimensi yang berubah lambat yang berisi riwayat lengkap konfigurasi komputasi dari waktu ke waktu untuk komputasi semua tujuan dan pekerjaan.

Jalur tabel: Tabel sistem ini terletak di system.compute.clusters

Nama kolom Jenis data Deskripsi Contoh
account_id string ID akun tempat kluster ini dibuat. 23e22ba4-87b9-
4cc2-9770-d10b894b7118
workspace_id string ID ruang kerja tempat kluster ini dibuat. 1234567890123456
cluster_id string ID kluster yang dikaitkan dengan rekaman ini. 0000-123456-crmpt124
cluster_name string Nama yang ditentukan pengguna untuk kluster. My cluster
owned_by string Nama pengguna pemilik kluster. Pengaturan bawaan adalah pembuat klaster, tetapi dapat diubah melalui API Klaster. sample_user@email.com
create_time penanda waktu Tanda waktu perubahan pada definisi komputasi ini. 2023-01-09 11:00:00.000
delete_time penanda waktu Tanda waktu saat kluster dihapus. Nilainya adalah null jika kluster tidak dihapus. 2023-01-09 11:00:00.000
driver_node_type string Nama jenis node driver. Ini cocok dengan nama jenis instans dari penyedia cloud. Standard_D16s_v3
worker_node_type string Nama tipe node pekerja. Ini cocok dengan nama jenis instans dari penyedia cloud. Standard_D16s_v3
worker_count bigint Jumlah pekerja. Ditentukan hanya untuk kluster ukuran tetap. 4
min_autoscale_workers bigint Jumlah minimum pekerja yang ditetapkan. Bidang ini hanya valid untuk kluster penskalaan otomatis. 1
max_autoscale_workers bigint Jumlah maksimum pekerja yang ditetapkan. Bidang ini hanya valid untuk kluster penskalaan otomatis. 1
auto_termination_minutes bigint Durasi autoterminasi yang dikonfigurasi. 120
enable_elastic_disk Boolean Status pengaktifan penskalaan otomatis disk. true
tags peta Tag yang ditentukan pengguna untuk kluster (tidak menyertakan tag default). {"ResourceClass":"SingleNode"}
cluster_source string Menunjukkan pembuat untuk kluster: UI, API, JOB, dll. UI
init_scripts larik Kumpulan jalur untuk skrip inisialisasi. "/Users/example@email.com
/files/scripts/install-python-pacakges.sh"
aws_attributes struct Pengaturan khusus AWS. null
azure_attributes struct Pengaturan khusus Azure. {
"first_on_demand": "0",
"availability": "ON_DEMAND_AZURE",
"spot_bid_max_price": "—1"
}
gcp_attributes struct Pengaturan khusus Google Cloud Platform. Bidang ini akan kosong. null
driver_instance_pool_id String ID kumpulan instans jika driver dikonfigurasi di atas kumpulan instans. 1107-555555-crhod16-pool-DIdnjazB
worker_instance_pool_id string ID Kumpulan Instans jika pekerja dikonfigurasi di atas kumpulan instans. 1107-555555-crhod16-pool-DIdnjazB
dbr_version string Runtime Databricks untuk kluster. 14.x-snapshot-scala2.12
change_time tanda waktu Tanda waktu perubahan pada definisi komputasi. 2023-01-09 11:00:00.000
change_date tanggal Ubah tanggal. Digunakan untuk penyimpanan. 2023-01-09

Skema jenis node dalam tabel

Tabel jenis node menangkap jenis node yang saat ini tersedia dengan informasi perangkat keras dasarnya.

Jalur tabel: Tabel sistem ini terletak di system.compute.node_types.

Nama kolom Jenis data Deskripsi Contoh
account_id string ID akun tempat kluster ini dibuat. 23e22ba4-87b9-4cc2-9770-d10b894b7118
node_type string Pengidentifikasi unik untuk jenis node. Standard_D16s_v3
core_count ganda Jumlah virtual CPU untuk instance. 48.0
memory_mb panjang/lama Memori total untuk instance. 393216
gpu_count panjang/lama (depending on context) Jumlah GPU untuk instance. 0

Skema tabel garis waktu simpul

Tabel linimasa simpul merekam data pemanfaatan sumber daya tingkat simpul dengan granularitas menit. Setiap rekaman berisi data untuk menit waktu tertentu per kejadian.

Jalur tabel: Tabel sistem ini terletak di system.compute.node_timeline.

Nama kolom Jenis data Deskripsi Contoh
account_id string ID akun tempat sumber daya komputasi ini berjalan. 23e22ba4-87b9-4cc2-9770-d10b894b7118
workspace_id string ID ruang kerja tempat sumber daya komputasi ini berjalan. 1234567890123456
cluster_id string ID sumber daya komputasi. 0000-123456-crmpt124
instance_id string ID untuk instance tertentu. i-1234a6c12a2681234
start_time penanda waktu Waktu mulai untuk rekaman di UTC. 2024-07-16T12:00:00Z
end_time penanda waktu Waktu akhir rekaman dalam UTC. 2024-07-16T13:00:00Z
driver Boolean Apakah instans tersebut adalah node pengemudi atau node pekerja. true
cpu_user_percent ganda Persentase waktu yang dihabiskan CPU di userland. 34.76163817234407
cpu_system_percent ganda Persentase waktu yang dihabiskan CPU dalam kernel. 1.0895310279488264
cpu_wait_percent ganda Persentase waktu yang dihabiskan CPU untuk menunggu I/O. 0.03445157400629276
mem_used_percent ganda Persentase memori komputasi yang digunakan selama periode waktu (termasuk memori yang digunakan oleh proses latar belakang yang berjalan pada komputasi). 45.34858216779041
mem_swap_percent ganda Persentase penggunaan memori yang dikaitkan dengan pertukaran memori. 0.014648443087939
network_sent_bytes bigint Jumlah byte yang dikirim dalam lalu lintas jaringan. 517376
network_received_bytes bigint Jumlah byte yang diterima dari lalu lintas jaringan. 179234
disk_free_bytes_per_mount_point peta Pemanfaatan disk dikelompokkan menurut titik pemasangan. Ini adalah penyimpanan sementara yang disediakan hanya saat komputasi berjalan. {"/var/lib/lxc":123455551234,"/":
123456789123,"/local_disk0":123412341234}
node_type string Nama jenis node. Ini akan sesuai dengan nama tipe instans dari penyedia cloud. Standard_D16s_v3

Pembatasan yang diketahui

  • Sumber daya komputasi yang ditandai dihapus sebelum 23 Oktober 2023 tidak muncul dalam tabel kluster. Ini mungkin mengakibatkan penggabungan dari tabel system.billing.usage tidak cocok dengan data dalam tabel kluster. Semua sumber daya komputasi aktif telah diisi ulang.
  • Tabel ini hanya mencakup rekaman untuk komputasi tujuan umum dan pekerjaan. Mereka tidak berisi rekaman untuk komputasi tanpa server, komputasi DLT, atau gudang SQL.
  • Simpul yang beroperasi kurang dari 10 menit mungkin tidak muncul di tabel node_timeline.

Contoh kueri

Anda dapat menggunakan contoh kueri berikut untuk menjawab pertanyaan umum:

Catatan

Beberapa contoh ini menggabungkan tabel kluster dengan system.billing.usage tabel . Karena rekaman penagihan bersifat lintas regional sementara rekaman kluster spesifik wilayah, rekaman penagihan hanya akan cocok dengan rekaman kluster untuk wilayah tempat Anda melakukan kueri. Untuk melihat rekaman dari wilayah lain, jalankan kueri di wilayah tersebut.

Gabungkan catatan kluster dengan catatan penagihan terbaru

Kueri ini dapat membantu Anda memahami pengeluaran dari waktu ke waktu. Setelah Anda memperbarui usage_start_time ke periode penagihan terbaru, ia mengambil pembaruan terbaru pada catatan penagihan untuk bergabung ke dalam data kluster.

Setiap catatan dikaitkan dengan pemilik kluster selama proses yang bersangkutan. Jadi, jika pemilik kluster berubah, biaya akan digulung ke pemilik yang benar berdasarkan kapan kluster digunakan.

SELECT
  u.record_id,
  c.cluster_id,
  c.owned_by,
  c.change_time,
  u.usage_start_time,
  u.usage_quantity
FROM
  system.billing.usage u
  JOIN system.compute.clusters c
  JOIN (SELECT u.record_id, c.cluster_id, max(c.change_time) change_time
    FROM system.billing.usage u
    JOIN system.compute.clusters c
    WHERE
      u.usage_metadata.cluster_id is not null
      and u.usage_start_time >= '2023-01-01'
      and u.usage_metadata.cluster_id = c.cluster_id
      and date_trunc('HOUR', c.change_time) <= date_trunc('HOUR', u.usage_start_time)
    GROUP BY all) config
WHERE
  u.usage_metadata.cluster_id is not null
  and u.usage_start_time >= '2023-01-01'
  and u.usage_metadata.cluster_id = c.cluster_id
  and u.record_id = config.record_id
  and c.cluster_id = config.cluster_id
  and c.change_time = config.change_time
ORDER BY cluster_id, usage_start_time desc;

Identifikasi sumber daya komputasi dengan pemanfaatan rata-rata tertinggi dan pemanfaatan puncak

Identifikasi komputasi serbaguna dan berbasis pekerjaan yang memiliki pemanfaatan CPU rata-rata tertinggi dan pemanfaatan CPU puncak tertinggi.

SELECT
        distinct cluster_id,
driver,
avg(cpu_user_percent + cpu_system_percent) as `Avg CPU Utilization`,
max(cpu_user_percent + cpu_system_percent) as `Peak CPU Utilization`,
        avg(cpu_wait_percent) as `Avg CPU Wait`,
        max(cpu_wait_percent) as `Max CPU Wait`,
        avg(mem_used_percent) as `Avg Memory Utilization`,
        max(mem_used_percent) as `Max Memory Utilization`,
avg(network_received_bytes)/(1024^2) as `Avg Network MB Received per Minute`,
avg(network_sent_bytes)/(1024^2) as `Avg Network MB Sent per Minute`
FROM
        node_timeline
WHERE
        start_time >= date_add(now(), -1)
GROUP BY
        cluster_id,
        driver
ORDER BY
        3 desc;