Konfigurace výpočetních prostředků pro kanál DLT
Tento článek obsahuje pokyny a důležité informace o konfiguraci vlastních nastavení výpočetních prostředků pro kanály DLT.
Bezserverové kanály neposkytují možnosti konfigurace výpočetních prostředků. Viz Konfigurace bezserverového kanálu DLT.
Výběr zásad clusteru
Uživatelé musí mít oprávnění k nasazení výpočetních prostředků pro konfiguraci a aktualizaci kanálů DLT. Správci pracovního prostoru můžou nakonfigurovat zásady clusteru tak, aby uživatelům poskytovaly přístup k výpočetním prostředkům pro DLT. Podívejte se na Definovat omezení výpočetních zdrojů pro kanál DLT.
Poznámka
Zásady clusteru jsou volitelné. Obraťte se na správce pracovního prostoru, pokud nemáte potřebná výpočetní oprávnění pro DLT.
Pokud chcete zajistit správné použití výchozích hodnot zásad clusteru, nastavte
apply_policy_default_values
natrue
v konfiguracích clusteru v konfiguraci kanálu:{ "clusters": [ { "label": "default", "policy_id": "<policy-id>", "apply_policy_default_values": true } ] }
Konfigurace značek clusteru
Můžete použít značky clusteru ke sledování využití vašich clusterů pipeline. Značky clusteru můžete přidat do uživatelského rozhraní DLT, když vytvoříte nebo upravíte kanál nebo upravíte nastavení JSON pro clustery kanálů.
Výběr typů instancí pro spuštění kanálu
Ve výchozím nastavení DLT vybere typy instancí pro řídicí a pracovní uzly vašeho kanálu. Volitelně můžete nakonfigurovat typy instancí.
Vyberte například typy instancí, abyste zlepšili výkon kanálu nebo vyřešili problémy s pamětí při spuštění kanálu. Typy instancí můžete nakonfigurovat při vytváření nebo úpravách kanálu pomocí rozhraní REST API nebo v uživatelském rozhraní DLT.
Konfigurace typů instancí při vytváření nebo úpravě kanálu v uživatelském rozhraní DLT:
- Klikněte na tlačítko Nastavení.
- V části Upřesnit v nastavení kanálu vyberte v rozevíracích nabídkách typy instancí pro pipeline: pro typ pracovního procesu a pro typ ovladače .
pokročilé konfigurace výpočetních prostředků
Poznámka
Vzhledem k tomu, že výpočetní prostředky pro bezserverové datové toky DLT jsou plně spravované, nejsou při volbě bezserverové dostupná výpočetní nastavení.
Každý kanál DLT má dva přidružené clustery:
-
updates
cluster zpracovává aktualizace datového toku. - Cluster
maintenance
spouští úlohy každodenní údržby.
Výpočetní nastavení zadaná pomocí uživatelského rozhraní konfigurace potrubí pracovního prostoru platí pro clustery údržby i aktualizace. Pokud chcete tato nastavení upravit nezávisle, musíte upravit konfiguraci JSON.
Konfigurace těchto clusterů je určena atributem clusters
zadaným v nastavení kanálu.
Pomocí popisků clusteru můžete přidat výpočetní nastavení, která platí jenom pro konkrétní typ clusteru. Při konfiguraci clusterů pipeline můžete použít tři popisky:
Poznámka
Nastavení popisku clusteru je možné vynechat, pokud definujete pouze jednu konfiguraci clusteru. Popisek default
se použije u konfigurací clusteru, pokud není popisku přiřazeno žádné nastavení. Nastavení popisku clusteru se vyžaduje jenom v případě, že potřebujete přizpůsobit nastavení pro různé typy clusterů.
- Popisek
default
definuje nastavení výpočetních prostředků pro clusteryupdates
imaintenance
. Použití stejného nastavení u obou clusterů zlepšuje spolehlivost provozu údržby tím, že zajišťuje, že na údržbový cluster jsou aplikovány požadované konfigurace, jako jsou přihlašovací údaje pro přístup k datům pro umístění úložiště. - Popisek
maintenance
definuje nastavení výpočetních prostředků, která platí jenom promaintenance
cluster. Pomocí popiskumaintenance
můžete také přepsat nastavení nakonfigurovaná popiskemdefault
. - Popisek
updates
definuje nastavení, která platí jenom proupdates
cluster. Použijte ho ke konfiguraci nastavení, která by se neměla použít u clusterumaintenance
.
Nastavení definovaná pomocí popisků default
a updates
se sloučí, aby se vytvořila konečná konfigurace pro cluster updates
. Pokud je stejné nastavení definované pomocí popisků default
i updates
, přepíše nastavení definované popiskem updates
nastavení definované popiskem default
.
Následující příklad definuje parametr konfigurace Sparku, který se přidá pouze do konfigurace pro cluster updates
:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
DLT má podobné možnosti pro nastavení clusteru jako jiné výpočetní prostředky v Azure Databricks. Stejně jako u jiných nastavení kanálu můžete upravit konfiguraci JSON pro clustery a určit možnosti, které se v uživatelském rozhraní nenachází. Viz Výpočet.
Poznámka
Vzhledem k tomu, že modul runtime DLT spravuje životní cyklus clusterů kanálů a spouští vlastní verzi databricks Runtime, nemůžete některá nastavení clusteru nastavit ručně v konfiguraci kanálu, jako je verze Sparku nebo názvy clusterů. Viz atributy clusteru, které nejsou nastaveny uživatelem.
Konfigurace typů instancí pro clustery aktualizací a údržby
Pokud chcete nakonfigurovat typy instancí v nastavení JSON kanálu, klikněte na tlačítko JSON a zadejte konfigurace typu instance v konfiguraci clusteru:
Poznámka
Aby se zabránilo přiřazování nepotřebných prostředků ke clusteru maintenance
, použije tento příklad popisek updates
k nastavení typů instancí pouze pro cluster updates
. Pokud chcete přiřadit typy instancí ke clusterům updates
i maintenance
, použijte buď štítek default
, nebo vynechejte nastavení štítku. Popisek default
se použije u konfigurací clusteru pipeline, pokud není žádné nastavení pro popisek poskytnuto. Viz Pokročilé konfigurace výpočetních prostředků.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"...": "..."
}
]
}
Zpoždění vypnutí výpočetních prostředků
Pokud chcete řídit chování vypnutí clusteru, můžete využít vývojový nebo produkční režim, či nastavení pipelines.clusterShutdown.delay
v konfiguraci pipeline. Následující příklad nastaví hodnotu pipelines.clusterShutdown.delay
na 60 sekund:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Pokud je povolen režim production
, výchozí hodnota pro pipelines.clusterShutdown.delay
je 0 seconds
. Pokud je povolen režim development
, výchozí hodnota je 2 hours
.
Poznámka
Vzhledem k tomu, že se cluster DLT automaticky vypne, když se nepoužívá, odkazování na zásady clusteru, které nastaví autotermination_minutes
v konfiguraci clusteru, způsobí chybu.
Vytvoření clusteru s jedním uzlem
Pokud v nastavení clusteru nastavíte num_workers
na hodnotu 0, cluster se vytvoří jako cluster s jedním uzlem. Konfigurace automatického škálování clusteru a nastavení min_workers
na 0 a max_workers
na 0 vytvoří cluster s jedním uzlem.
Pokud nakonfigurujete cluster automatického škálování a nastavíte pouze min_workers
na 0, cluster se nevytvořil jako cluster s jedním uzlem. Cluster má vždy alespoň jeden aktivní pracovní uzel, dokud nebude ukončeno.
Příklad konfigurace clusteru pro vytvoření clusteru s jedním uzlem v DLT:
{
"clusters": [
{
"num_workers": 0
}
]
}