Sdílet prostřednictvím


Referenční informace k tabulkám výpočetního systému

Důležité

Tato systémová tabulka je ve verzi Public Preview. Aby bylo možné získat přístup k tabulce, musí být schéma povolené v katalogu system. Další informace naleznete v tématu Povolení schémat systémových tabulek.

Tento článek obsahuje referenční příručku pro tabulky výpočetních systémů. Pomocí těchto tabulek můžete sledovat aktivitu a metriky výpočetních prostředků, které se používají pro všestranné účely a úkoly ve vašem účtu.

  • clusters: Zaznamenává výpočetní konfigurace ve vašem účtu.
  • node_types: Zahrnuje jeden záznam pro každý z aktuálně dostupných typů uzlů, včetně informací o hardwaru.
  • node_timeline: Zahrnuje záznamy metrik využití výpočetních prostředků po minutách.

Schéma tabulky clusteru

Tabulka clusteru je pomalu měnící se dimenze, která obsahuje úplnou historii konfigurací výpočetního prostředí v průběhu času pro výpočetní prostředí pro obecné účely a úlohy.

Cesta k tabulce: Tato systémová tabulka se nachází na adrese . system.compute.clusters

Název sloupce Datový typ Popis Příklad
account_id řetězec ID účtu, ve kterém byl tento cluster vytvořen. 23e22ba4-87b9-
4cc2-9770-d10b894b7118
workspace_id řetězec ID pracovního prostoru, ve kterém byl tento cluster vytvořen. 1234567890123456
cluster_id řetězec ID clusteru, ke kterému je tento záznam přidružený. 0000-123456-crmpt124
cluster_name řetězec Uživatelem definovaný název clusteru My cluster
owned_by řetězec / struna Uživatelské jméno vlastníka clusteru Ve výchozím nastavení je nastaveno na tvůrce clusteru, ale lze ho změnit prostřednictvím rozhraní API clusterů. sample_user@email.com
create_time časová značka Časové razítko změny této definice výpočetního systému. 2023-01-09 11:00:00.000
delete_time časová značka Časové razítko odstranění clustru Hodnota je null v případě, že se cluster neodstraní. 2023-01-09 11:00:00.000
driver_node_type řetězec Název typu uzlu ovladače Odpovídá názvu typu instance od poskytovatele cloudu. Standard_D16s_v3
worker_node_type řetězec Název typu pracovního uzlu Odpovídá názvu typu instance od poskytovatele cloudu. Standard_D16s_v3
worker_count bigint Počet pracovníků. Definované pouze pro clustery s pevnou velikostí. 4
min_autoscale_workers bigint Minimální stanovený počet pracovníků. Toto pole je platné jenom pro clustery automatického škálování. 1
max_autoscale_workers bigint Nastavený maximální počet pracovníků. Toto pole je platné jenom pro clustery automatického škálování. 1
auto_termination_minutes bigint Nakonfigurovaná doba trvání automatického ukončení. 120
enable_elastic_disk boolean Stav povolení automatického škálování disku true
tags mapa Uživatelem definované značky pro cluster (nezahrnuje výchozí značky). {"ResourceClass":"SingleNode"}
cluster_source řetězec / struna Označuje tvůrce clusteru: UI, API, JOBatd. UI
init_scripts pole Sada cest pro inicializační skripty "/Users/example@email.com
/files/scripts/install-python-pacakges.sh"
aws_attributes struct Konkrétní nastavení AWS. null
azure_attributes struct Konkrétní nastavení Azure {
"first_on_demand": "0",
"availability": "ON_DEMAND_AZURE",
"spot_bid_max_price": "—1"
}
gcp_attributes struktura Nastavení specifické pro GCP. Toto pole bude prázdné. null
driver_instance_pool_id řetězec ID fondu instancí, pokud je ovladač nakonfigurovaný nad fondem instancí. 1107-555555-crhod16-pool-DIdnjazB
worker_instance_pool_id řetězec ID fondu instancí, pokud je pracovník nakonfigurován na vrcholu fondu instancí. 1107-555555-crhod16-pool-DIdnjazB
dbr_version řetězec Databricks Runtime u daného clusteru. 14.x-snapshot-scala2.12
change_time časová značka Časové razítko změny výpočetní definice 2023-01-09 11:00:00.000
change_date datum Změnit datum. Používá se k uchovávání. 2023-01-09

Schéma tabulky typů uzlů

Tabulka typu uzlu zachycuje aktuálně dostupné typy uzlů s jejich základními informacemi o hardwaru.

cesta k tabulce: Tato systémová tabulka se nachází v system.compute.node_types.

Název sloupce Datový typ Popis Příklad
account_id řetězec ID účtu, ve kterém byl tento cluster vytvořen. 23e22ba4-87b9-4cc2-9770-d10b894b7118
node_type řetězec Jedinečný identifikátor pro typ uzlu. Standard_D16s_v3
core_count dvojitý Počet virtuálních procesorů instance 48.0
memory_mb dlouhý Celková paměť pro instanci. 393216
gpu_count dlouhý Počet grafických procesorů pro instanci 0

Schéma tabulky časového průběhu uzlu

Tabulka časové osy uzlu zachycuje data o využití prostředků na úrovni uzlu v minutovém rozlišení. Každý záznam obsahuje data za danou minutu času na instanci.

cesta k tabulce: Tato systémová tabulka se nachází v system.compute.node_timeline.

Název sloupce Datový typ Popis Příklad
account_id řetězec ID účtu, na kterém je tento výpočetní prostředek spuštěný. 23e22ba4-87b9-4cc2-9770-d10b894b7118
workspace_id řetězec ID pracovního prostoru, na kterém je tento výpočetní prostředek spuštěný. 1234567890123456
cluster_id řetězec ID výpočetního prostředku. 0000-123456-crmpt124
instance_id řetězec / struna ID konkrétní instance. i-1234a6c12a2681234
start_time časová značka Čas zahájení záznamu v UTC. 2024-07-16T12:00:00Z
end_time časová značka Koncový čas záznamu v UTC. 2024-07-16T13:00:00Z
driver booleovská hodnota Určuje, zda je instance ovladačem nebo pracovním uzlem. true
cpu_user_percent dvojitý Procento času, které procesor strávil v uživatelském prostoru 34.76163817234407
cpu_system_percent dvojitý Procento času stráveného procesorem v jádru 1.0895310279488264
cpu_wait_percent dvojitý Procento času stráveného čekáním na vstupně-výstupní operace procesoru 0.03445157400629276
mem_used_percent dvojitý Procento paměti výpočetních prostředků, které se použily během časového období (včetně paměti používané procesy na pozadí spuštěných na výpočetním prostředí). 45.34858216779041
mem_swap_percent dvojitý Procento využití paměti přičítané odkládací paměti 0.014648443087939
network_sent_bytes bigint Počet bajtů odesílaných v síťovém provozu 517376
network_received_bytes bigint Počet přijatých bajtů ze síťového provozu 179234
disk_free_bytes_per_mount_point mapa Využití disku seskupené podle přípojného bodu. Toto je dočasné úložiště zřízené jenom v době, kdy je výpočetní prostředí spuštěné. {"/var/lib/lxc":123455551234,"/":
123456789123,"/local_disk0":123412341234}
node_type řetězec Název typu uzlu. Bude se shodovat s názvem typu instance od poskytovatele cloudu. Standard_D16s_v3

Známá omezení

  • Výpočetní prostředky, které byly označeny jako odstraněné před 23. říjnem 2023, se v tabulce clusterů nezobrazují. To může vést k tomu, že sloučení z tabulky system.billing.usage neodpovídají záznamům v tabulce clusterů. Všechny aktivní výpočetní prostředky byly znovu vyplněny.
  • Tyto tabulky obsahují jen záznamy pro výpočty zaměřené na všeobecné účely a úlohy. Neobsahují záznamy pro výpočet bez serveru, výpočet DLT ani databázové sklady.
  • Uzly, které běžely méně než 10 minut, se v tabulce node_timeline nemusí objevit.

Vzorové dotazy

K zodpovězení běžných otázek můžete použít následující ukázkové dotazy:

Poznámka:

Některé z těchto příkladů spojují tabulku clusteru s tabulkou system.billing.usage . Vzhledem k tomu, že fakturační záznamy jsou regionálně křížové a záznamy clusteru jsou specifické pro danou oblast, odpovídají fakturační záznamy záznamům clusteru pouze pro oblast, na kterou se dotazujete. Pokud chcete zobrazit záznamy z jiné oblasti, spusťte dotaz v této oblasti.

Připojení záznamů clusteru s nejnovějšími fakturačními záznamy

Tento dotaz vám pomůže porozumět útratě v průběhu času. Jakmile aktualizujete usage_start_time na nejaktuálnější fakturační období, vezmou nejnovější aktualizace fakturačních záznamů, aby se připojily k datům clusterů.

Každý záznam je přidružený k vlastníkovi clusteru během tohoto konkrétního spuštění. Pokud se tedy vlastník clusteru změní, náklady se přiřadí správnému vlastníkovi podle toho, kdy byl cluster používán.

SELECT
  u.record_id,
  c.cluster_id,
  c.owned_by,
  c.change_time,
  u.usage_start_time,
  u.usage_quantity
FROM
  system.billing.usage u
  JOIN system.compute.clusters c
  JOIN (SELECT u.record_id, c.cluster_id, max(c.change_time) change_time
    FROM system.billing.usage u
    JOIN system.compute.clusters c
    WHERE
      u.usage_metadata.cluster_id is not null
      and u.usage_start_time >= '2023-01-01'
      and u.usage_metadata.cluster_id = c.cluster_id
      and date_trunc('HOUR', c.change_time) <= date_trunc('HOUR', u.usage_start_time)
    GROUP BY all) config
WHERE
  u.usage_metadata.cluster_id is not null
  and u.usage_start_time >= '2023-01-01'
  and u.usage_metadata.cluster_id = c.cluster_id
  and u.record_id = config.record_id
  and c.cluster_id = config.cluster_id
  and c.change_time = config.change_time
ORDER BY cluster_id, usage_start_time desc;

Identifikace výpočetních prostředků s nejvyšším průměrným využitím a nejvyšším využitím ve špičce

Identifikujte výpočetní prostředky pro všechny účely a úlohy, které mají nejvyšší průměrné využití procesoru a nejvyšší využití procesoru ve špičce.

SELECT
        distinct cluster_id,
driver,
avg(cpu_user_percent + cpu_system_percent) as `Avg CPU Utilization`,
max(cpu_user_percent + cpu_system_percent) as `Peak CPU Utilization`,
        avg(cpu_wait_percent) as `Avg CPU Wait`,
        max(cpu_wait_percent) as `Max CPU Wait`,
        avg(mem_used_percent) as `Avg Memory Utilization`,
        max(mem_used_percent) as `Max Memory Utilization`,
avg(network_received_bytes)/(1024^2) as `Avg Network MB Received per Minute`,
avg(network_sent_bytes)/(1024^2) as `Avg Network MB Sent per Minute`
FROM
        node_timeline
WHERE
        start_time >= date_add(now(), -1)
GROUP BY
        cluster_id,
        driver
ORDER BY
        3 desc;