Referensi tabel sistem komputer
Penting
Tabel sistem ini berada dalam Pratinjau Umum. Untuk mengakses tabel, skema harus diaktifkan di katalog system
Anda. Untuk informasi selengkapnya, lihat Mengaktifkan skema tabel sistem.
Artikel ini memberi Anda panduan referensi untuk tabel sistem komputasi. Anda dapat menggunakan tabel ini untuk memantau aktivitas dan metrik komputasi semua tujuan dan pekerjaan di akun Anda:
-
clusters
: Mencatat konfigurasi komputasi di akun Anda. -
node_types
: Menyertakan satu rekaman untuk setiap jenis node yang saat ini tersedia, termasuk informasi perangkat keras. -
node_timeline
: Menyertakan catatan menit demi menit metrik pemanfaatan komputasi Anda.
Skema kluster tabel
Tabel kluster adalah tabel dimensi yang berubah lambat yang berisi riwayat lengkap konfigurasi komputasi dari waktu ke waktu untuk komputasi semua tujuan dan pekerjaan.
Jalur tabel: Tabel sistem ini terletak di system.compute.clusters
Nama kolom | Jenis data | Deskripsi | Contoh |
---|---|---|---|
account_id |
string | ID akun tempat kluster ini dibuat. | 23e22ba4-87b9- 4cc2-9770-d10b894b7118 |
workspace_id |
string | ID ruang kerja tempat kluster ini dibuat. | 1234567890123456 |
cluster_id |
string | ID kluster yang dikaitkan dengan rekaman ini. | 0000-123456-crmpt124 |
cluster_name |
string | Nama yang ditentukan pengguna untuk kluster. | My cluster |
owned_by |
string | Nama pengguna pemilik kluster. Pengaturan bawaan adalah pembuat klaster, tetapi dapat diubah melalui API Klaster. | sample_user@email.com |
create_time |
penanda waktu | Tanda waktu perubahan pada definisi komputasi ini. | 2023-01-09 11:00:00.000 |
delete_time |
penanda waktu | Tanda waktu saat kluster dihapus. Nilainya adalah null jika kluster tidak dihapus. |
2023-01-09 11:00:00.000 |
driver_node_type |
string | Nama jenis node driver. Ini cocok dengan nama jenis instans dari penyedia cloud. | Standard_D16s_v3 |
worker_node_type |
string | Nama tipe node pekerja. Ini cocok dengan nama jenis instans dari penyedia cloud. | Standard_D16s_v3 |
worker_count |
bigint | Jumlah pekerja. Ditentukan hanya untuk kluster ukuran tetap. | 4 |
min_autoscale_workers |
bigint | Jumlah minimum pekerja yang ditetapkan. Bidang ini hanya valid untuk kluster penskalaan otomatis. | 1 |
max_autoscale_workers |
bigint | Jumlah maksimum pekerja yang ditetapkan. Bidang ini hanya valid untuk kluster penskalaan otomatis. | 1 |
auto_termination_minutes |
bigint | Durasi autoterminasi yang dikonfigurasi. | 120 |
enable_elastic_disk |
Boolean | Status pengaktifan penskalaan otomatis disk. | true |
tags |
peta | Tag yang ditentukan pengguna untuk kluster (tidak menyertakan tag default). | {"ResourceClass":"SingleNode"} |
cluster_source |
string | Menunjukkan pembuat untuk kluster: UI , API , JOB , dll. |
UI |
init_scripts |
larik | Kumpulan jalur untuk skrip inisialisasi. | "/Users/example@email.com /files/scripts/install-python-pacakges.sh" |
aws_attributes |
struct | Pengaturan khusus AWS. | null |
azure_attributes |
struct | Pengaturan khusus Azure. | { "first_on_demand": "0", "availability": "ON_DEMAND_AZURE", "spot_bid_max_price": "—1" } |
gcp_attributes |
struct | Pengaturan khusus Google Cloud Platform. Bidang ini akan kosong. | null |
driver_instance_pool_id |
String | ID kumpulan instans jika driver dikonfigurasi di atas kumpulan instans. | 1107-555555-crhod16-pool-DIdnjazB |
worker_instance_pool_id |
string | ID Kumpulan Instans jika pekerja dikonfigurasi di atas kumpulan instans. | 1107-555555-crhod16-pool-DIdnjazB |
dbr_version |
string | Runtime Databricks untuk kluster. | 14.x-snapshot-scala2.12 |
change_time |
tanda waktu | Tanda waktu perubahan pada definisi komputasi. | 2023-01-09 11:00:00.000 |
change_date |
tanggal | Ubah tanggal. Digunakan untuk penyimpanan. | 2023-01-09 |
Skema jenis node dalam tabel
Tabel jenis node menangkap jenis node yang saat ini tersedia dengan informasi perangkat keras dasarnya.
Jalur tabel: Tabel sistem ini terletak di system.compute.node_types
.
Nama kolom | Jenis data | Deskripsi | Contoh |
---|---|---|---|
account_id |
string | ID akun tempat kluster ini dibuat. | 23e22ba4-87b9-4cc2-9770-d10b894b7118 |
node_type |
string | Pengidentifikasi unik untuk jenis node. | Standard_D16s_v3 |
core_count |
ganda | Jumlah virtual CPU untuk instance. | 48.0 |
memory_mb |
panjang/lama | Memori total untuk instance. | 393216 |
gpu_count |
panjang/lama (depending on context) | Jumlah GPU untuk instance. | 0 |
Skema tabel garis waktu simpul
Tabel linimasa simpul merekam data pemanfaatan sumber daya tingkat simpul dengan granularitas menit. Setiap rekaman berisi data untuk menit waktu tertentu per kejadian.
Jalur tabel: Tabel sistem ini terletak di system.compute.node_timeline
.
Nama kolom | Jenis data | Deskripsi | Contoh |
---|---|---|---|
account_id |
string | ID akun tempat sumber daya komputasi ini berjalan. | 23e22ba4-87b9-4cc2-9770-d10b894b7118 |
workspace_id |
string | ID ruang kerja tempat sumber daya komputasi ini berjalan. | 1234567890123456 |
cluster_id |
string | ID sumber daya komputasi. | 0000-123456-crmpt124 |
instance_id |
string | ID untuk instance tertentu. | i-1234a6c12a2681234 |
start_time |
penanda waktu | Waktu mulai untuk rekaman di UTC. | 2024-07-16T12:00:00Z |
end_time |
penanda waktu | Waktu akhir rekaman dalam UTC. | 2024-07-16T13:00:00Z |
driver |
Boolean | Apakah instans tersebut adalah node pengemudi atau node pekerja. | true |
cpu_user_percent |
ganda | Persentase waktu yang dihabiskan CPU di userland. | 34.76163817234407 |
cpu_system_percent |
ganda | Persentase waktu yang dihabiskan CPU dalam kernel. | 1.0895310279488264 |
cpu_wait_percent |
ganda | Persentase waktu yang dihabiskan CPU untuk menunggu I/O. | 0.03445157400629276 |
mem_used_percent |
ganda | Persentase memori komputasi yang digunakan selama periode waktu (termasuk memori yang digunakan oleh proses latar belakang yang berjalan pada komputasi). | 45.34858216779041 |
mem_swap_percent |
ganda | Persentase penggunaan memori yang dikaitkan dengan pertukaran memori. | 0.014648443087939 |
network_sent_bytes |
bigint | Jumlah byte yang dikirim dalam lalu lintas jaringan. | 517376 |
network_received_bytes |
bigint | Jumlah byte yang diterima dari lalu lintas jaringan. | 179234 |
disk_free_bytes_per_mount_point |
peta | Pemanfaatan disk dikelompokkan menurut titik pemasangan. Ini adalah penyimpanan sementara yang disediakan hanya saat komputasi berjalan. | {"/var/lib/lxc":123455551234,"/": 123456789123,"/local_disk0":123412341234} |
node_type |
string | Nama jenis node. Ini akan sesuai dengan nama tipe instans dari penyedia cloud. | Standard_D16s_v3 |
Pembatasan yang diketahui
- Sumber daya komputasi yang ditandai dihapus sebelum 23 Oktober 2023 tidak muncul dalam tabel kluster. Ini mungkin mengakibatkan penggabungan dari tabel
system.billing.usage
tidak cocok dengan data dalam tabel kluster. Semua sumber daya komputasi aktif telah diisi ulang. - Tabel ini hanya mencakup rekaman untuk komputasi tujuan umum dan pekerjaan. Mereka tidak berisi rekaman untuk komputasi tanpa server, komputasi DLT, atau gudang SQL.
- Simpul yang beroperasi kurang dari 10 menit mungkin tidak muncul di tabel
node_timeline
.
Contoh kueri
Anda dapat menggunakan contoh kueri berikut untuk menjawab pertanyaan umum:
- Menggabungkan rekaman kluster dengan rekaman penagihan terbaru
- Identifikasi sumber daya komputasi dengan pemanfaatan rata-rata tertinggi dan pemanfaatan puncak
Catatan
Beberapa contoh ini menggabungkan tabel kluster dengan system.billing.usage
tabel . Karena rekaman penagihan bersifat lintas regional sementara rekaman kluster spesifik wilayah, rekaman penagihan hanya akan cocok dengan rekaman kluster untuk wilayah tempat Anda melakukan kueri. Untuk melihat rekaman dari wilayah lain, jalankan kueri di wilayah tersebut.
Gabungkan catatan kluster dengan catatan penagihan terbaru
Kueri ini dapat membantu Anda memahami pengeluaran dari waktu ke waktu. Setelah Anda memperbarui usage_start_time
ke periode penagihan terbaru, ia mengambil pembaruan terbaru pada catatan penagihan untuk bergabung ke dalam data kluster.
Setiap catatan dikaitkan dengan pemilik kluster selama proses yang bersangkutan. Jadi, jika pemilik kluster berubah, biaya akan digulung ke pemilik yang benar berdasarkan kapan kluster digunakan.
SELECT
u.record_id,
c.cluster_id,
c.owned_by,
c.change_time,
u.usage_start_time,
u.usage_quantity
FROM
system.billing.usage u
JOIN system.compute.clusters c
JOIN (SELECT u.record_id, c.cluster_id, max(c.change_time) change_time
FROM system.billing.usage u
JOIN system.compute.clusters c
WHERE
u.usage_metadata.cluster_id is not null
and u.usage_start_time >= '2023-01-01'
and u.usage_metadata.cluster_id = c.cluster_id
and date_trunc('HOUR', c.change_time) <= date_trunc('HOUR', u.usage_start_time)
GROUP BY all) config
WHERE
u.usage_metadata.cluster_id is not null
and u.usage_start_time >= '2023-01-01'
and u.usage_metadata.cluster_id = c.cluster_id
and u.record_id = config.record_id
and c.cluster_id = config.cluster_id
and c.change_time = config.change_time
ORDER BY cluster_id, usage_start_time desc;
Identifikasi sumber daya komputasi dengan pemanfaatan rata-rata tertinggi dan pemanfaatan puncak
Identifikasi komputasi serbaguna dan berbasis pekerjaan yang memiliki pemanfaatan CPU rata-rata tertinggi dan pemanfaatan CPU puncak tertinggi.
SELECT
distinct cluster_id,
driver,
avg(cpu_user_percent + cpu_system_percent) as `Avg CPU Utilization`,
max(cpu_user_percent + cpu_system_percent) as `Peak CPU Utilization`,
avg(cpu_wait_percent) as `Avg CPU Wait`,
max(cpu_wait_percent) as `Max CPU Wait`,
avg(mem_used_percent) as `Avg Memory Utilization`,
max(mem_used_percent) as `Max Memory Utilization`,
avg(network_received_bytes)/(1024^2) as `Avg Network MB Received per Minute`,
avg(network_sent_bytes)/(1024^2) as `Avg Network MB Sent per Minute`
FROM
node_timeline
WHERE
start_time >= date_add(now(), -1)
GROUP BY
cluster_id,
driver
ORDER BY
3 desc;