Referensi tabel sistem komputer

Artikel
03/11/2025

Penting

Tabel sistem ini berada dalam Pratinjau Umum. Untuk mengakses tabel, skema harus diaktifkan di katalog system Anda. Untuk informasi selengkapnya, lihat Mengaktifkan skema tabel sistem.

Artikel ini memberi Anda panduan referensi untuk tabel sistem komputasi. Anda dapat menggunakan tabel ini untuk memantau aktivitas dan metrik komputasi semua tujuan dan pekerjaan di akun Anda:

clusters: Mencatat konfigurasi komputasi di akun Anda.
node_types: Menyertakan satu rekaman untuk setiap jenis node yang saat ini tersedia, termasuk informasi perangkat keras.
node_timeline: Menyertakan catatan menit demi menit metrik pemanfaatan komputasi Anda.

Skema kluster tabel

Tabel kluster adalah tabel dimensi yang berubah lambat yang berisi riwayat lengkap konfigurasi komputasi dari waktu ke waktu untuk komputasi semua tujuan dan pekerjaan.

Jalur tabel: Tabel sistem ini terletak di system.compute.clusters

Nama kolom	Jenis data	Deskripsi	Contoh
`account_id`	string	ID akun tempat kluster ini dibuat.	`23e22ba4-87b9-` `4cc2-9770-d10b894b7118`
`workspace_id`	string	ID ruang kerja tempat kluster ini dibuat.	`1234567890123456`
`cluster_id`	string	ID kluster yang dikaitkan dengan rekaman ini.	`0000-123456-crmpt124`
`cluster_name`	string	Nama yang ditentukan pengguna untuk kluster.	`My cluster`
`owned_by`	string	Nama pengguna pemilik kluster. Pengaturan bawaan adalah pembuat klaster, tetapi dapat diubah melalui API Klaster.	`sample_user@email.com`
`create_time`	penanda waktu	Tanda waktu perubahan pada definisi komputasi ini.	`2023-01-09 11:00:00.000`
`delete_time`	penanda waktu	Tanda waktu saat kluster dihapus. Nilainya adalah `null` jika kluster tidak dihapus.	`2023-01-09 11:00:00.000`
`driver_node_type`	string	Nama jenis node driver. Ini cocok dengan nama jenis instans dari penyedia cloud.	`Standard_D16s_v3`
`worker_node_type`	string	Nama tipe node pekerja. Ini cocok dengan nama jenis instans dari penyedia cloud.	`Standard_D16s_v3`
`worker_count`	bigint	Jumlah pekerja. Ditentukan hanya untuk kluster ukuran tetap.	`4`
`min_autoscale_workers`	bigint	Jumlah minimum pekerja yang ditetapkan. Bidang ini hanya valid untuk kluster penskalaan otomatis.	`1`
`max_autoscale_workers`	bigint	Jumlah maksimum pekerja yang ditetapkan. Bidang ini hanya valid untuk kluster penskalaan otomatis.	`1`
`auto_termination_minutes`	bigint	Durasi autoterminasi yang dikonfigurasi.	`120`
`enable_elastic_disk`	Boolean	Status pengaktifan penskalaan otomatis disk.	`true`
`tags`	peta	Tag yang ditentukan pengguna untuk kluster (tidak menyertakan tag default).	`{"ResourceClass":"SingleNode"}`
`cluster_source`	string	Menunjukkan pembuat untuk kluster: `UI`, `API`, `JOB`, dll.	`UI`
`init_scripts`	larik	Kumpulan jalur untuk skrip inisialisasi.	`"/Users/example@email.com` `/files/scripts/install-python-pacakges.sh"`
`aws_attributes`	struct	Pengaturan khusus AWS.	`null`
`azure_attributes`	struct	Pengaturan khusus Azure.	`{` `"first_on_demand": "0",` `"availability": "ON_DEMAND_AZURE",` `"spot_bid_max_price": "—1"` `}`
`gcp_attributes`	struct	Pengaturan khusus Google Cloud Platform. Bidang ini akan kosong.	`null`
`driver_instance_pool_id`	String	ID kumpulan instans jika driver dikonfigurasi di atas kumpulan instans.	`1107-555555-crhod16-pool-DIdnjazB`
`worker_instance_pool_id`	string	ID Kumpulan Instans jika pekerja dikonfigurasi di atas kumpulan instans.	`1107-555555-crhod16-pool-DIdnjazB`
`dbr_version`	string	Runtime Databricks untuk kluster.	`14.x-snapshot-scala2.12`
`change_time`	tanda waktu	Tanda waktu perubahan pada definisi komputasi.	`2023-01-09 11:00:00.000`
`change_date`	tanggal	Ubah tanggal. Digunakan untuk penyimpanan.	`2023-01-09`

Skema jenis node dalam tabel

Tabel jenis node menangkap jenis node yang saat ini tersedia dengan informasi perangkat keras dasarnya.

Jalur tabel: Tabel sistem ini terletak di system.compute.node_types.

Nama kolom	Jenis data	Deskripsi	Contoh
`account_id`	string	ID akun tempat kluster ini dibuat.	`23e22ba4-87b9-4cc2-9770-d10b894b7118`
`node_type`	string	Pengidentifikasi unik untuk jenis node.	`Standard_D16s_v3`
`core_count`	ganda	Jumlah virtual CPU untuk instance.	`48.0`
`memory_mb`	panjang/lama	Memori total untuk instance.	`393216`
`gpu_count`	panjang/lama (depending on context)	Jumlah GPU untuk instance.	`0`

Skema tabel garis waktu simpul

Tabel linimasa simpul merekam data pemanfaatan sumber daya tingkat simpul dengan granularitas menit. Setiap rekaman berisi data untuk menit waktu tertentu per kejadian.

Jalur tabel: Tabel sistem ini terletak di system.compute.node_timeline.

Nama kolom	Jenis data	Deskripsi	Contoh
`account_id`	string	ID akun tempat sumber daya komputasi ini berjalan.	`23e22ba4-87b9-4cc2-9770-d10b894b7118`
`workspace_id`	string	ID ruang kerja tempat sumber daya komputasi ini berjalan.	`1234567890123456`
`cluster_id`	string	ID sumber daya komputasi.	`0000-123456-crmpt124`
`instance_id`	string	ID untuk instance tertentu.	`i-1234a6c12a2681234`
`start_time`	penanda waktu	Waktu mulai untuk rekaman di UTC.	`2024-07-16T12:00:00Z`
`end_time`	penanda waktu	Waktu akhir rekaman dalam UTC.	`2024-07-16T13:00:00Z`
`driver`	Boolean	Apakah instans tersebut adalah node pengemudi atau node pekerja.	`true`
`cpu_user_percent`	ganda	Persentase waktu yang dihabiskan CPU di userland.	`34.76163817234407`
`cpu_system_percent`	ganda	Persentase waktu yang dihabiskan CPU dalam kernel.	`1.0895310279488264`
`cpu_wait_percent`	ganda	Persentase waktu yang dihabiskan CPU untuk menunggu I/O.	`0.03445157400629276`
`mem_used_percent`	ganda	Persentase memori komputasi yang digunakan selama periode waktu (termasuk memori yang digunakan oleh proses latar belakang yang berjalan pada komputasi).	`45.34858216779041`
`mem_swap_percent`	ganda	Persentase penggunaan memori yang dikaitkan dengan pertukaran memori.	`0.014648443087939`
`network_sent_bytes`	bigint	Jumlah byte yang dikirim dalam lalu lintas jaringan.	`517376`
`network_received_bytes`	bigint	Jumlah byte yang diterima dari lalu lintas jaringan.	`179234`
`disk_free_bytes_per_mount_point`	peta	Pemanfaatan disk dikelompokkan menurut titik pemasangan. Ini adalah penyimpanan sementara yang disediakan hanya saat komputasi berjalan.	`{"/var/lib/lxc":123455551234,"/":` `123456789123,"/local_disk0":123412341234}`
`node_type`	string	Nama jenis node. Ini akan sesuai dengan nama tipe instans dari penyedia cloud.	`Standard_D16s_v3`

Pembatasan yang diketahui

Sumber daya komputasi yang ditandai dihapus sebelum 23 Oktober 2023 tidak muncul dalam tabel kluster. Ini mungkin mengakibatkan penggabungan dari tabel system.billing.usage tidak cocok dengan data dalam tabel kluster. Semua sumber daya komputasi aktif telah diisi ulang.
Tabel ini hanya mencakup rekaman untuk komputasi tujuan umum dan pekerjaan. Mereka tidak berisi rekaman untuk komputasi tanpa server, komputasi DLT, atau gudang SQL.
Simpul yang beroperasi kurang dari 10 menit mungkin tidak muncul di tabel node_timeline.

Contoh kueri

Anda dapat menggunakan contoh kueri berikut untuk menjawab pertanyaan umum:

Menggabungkan rekaman kluster dengan rekaman penagihan terbaru
Identifikasi sumber daya komputasi dengan pemanfaatan rata-rata tertinggi dan pemanfaatan puncak

Catatan

Beberapa contoh ini menggabungkan tabel kluster dengan system.billing.usage tabel . Karena rekaman penagihan bersifat lintas regional sementara rekaman kluster spesifik wilayah, rekaman penagihan hanya akan cocok dengan rekaman kluster untuk wilayah tempat Anda melakukan kueri. Untuk melihat rekaman dari wilayah lain, jalankan kueri di wilayah tersebut.

Gabungkan catatan kluster dengan catatan penagihan terbaru

Kueri ini dapat membantu Anda memahami pengeluaran dari waktu ke waktu. Setelah Anda memperbarui usage_start_time ke periode penagihan terbaru, ia mengambil pembaruan terbaru pada catatan penagihan untuk bergabung ke dalam data kluster.

Setiap catatan dikaitkan dengan pemilik kluster selama proses yang bersangkutan. Jadi, jika pemilik kluster berubah, biaya akan digulung ke pemilik yang benar berdasarkan kapan kluster digunakan.

SELECT
  u.record_id,
  c.cluster_id,
  c.owned_by,
  c.change_time,
  u.usage_start_time,
  u.usage_quantity
FROM
  system.billing.usage u
  JOIN system.compute.clusters c
  JOIN (SELECT u.record_id, c.cluster_id, max(c.change_time) change_time
    FROM system.billing.usage u
    JOIN system.compute.clusters c
    WHERE
      u.usage_metadata.cluster_id is not null
      and u.usage_start_time >= '2023-01-01'
      and u.usage_metadata.cluster_id = c.cluster_id
      and date_trunc('HOUR', c.change_time) <= date_trunc('HOUR', u.usage_start_time)
    GROUP BY all) config
WHERE
  u.usage_metadata.cluster_id is not null
  and u.usage_start_time >= '2023-01-01'
  and u.usage_metadata.cluster_id = c.cluster_id
  and u.record_id = config.record_id
  and c.cluster_id = config.cluster_id
  and c.change_time = config.change_time
ORDER BY cluster_id, usage_start_time desc;

Identifikasi sumber daya komputasi dengan pemanfaatan rata-rata tertinggi dan pemanfaatan puncak

Identifikasi komputasi serbaguna dan berbasis pekerjaan yang memiliki pemanfaatan CPU rata-rata tertinggi dan pemanfaatan CPU puncak tertinggi.

SELECT
        distinct cluster_id,
driver,
avg(cpu_user_percent + cpu_system_percent) as `Avg CPU Utilization`,
max(cpu_user_percent + cpu_system_percent) as `Peak CPU Utilization`,
        avg(cpu_wait_percent) as `Avg CPU Wait`,
        max(cpu_wait_percent) as `Max CPU Wait`,
        avg(mem_used_percent) as `Avg Memory Utilization`,
        max(mem_used_percent) as `Max Memory Utilization`,
avg(network_received_bytes)/(1024^2) as `Avg Network MB Received per Minute`,
avg(network_sent_bytes)/(1024^2) as `Avg Network MB Sent per Minute`
FROM
        node_timeline
WHERE
        start_time >= date_add(now(), -1)
GROUP BY
        cluster_id,
        driver
ORDER BY
        3 desc;

Bagikan melalui