Sdílet prostřednictvím


Konfigurace výpočetních prostředků pro kanál DLT

Tento článek obsahuje pokyny a důležité informace o konfiguraci vlastních nastavení výpočetních prostředků pro kanály DLT.

Bezserverové kanály neposkytují možnosti konfigurace výpočetních prostředků. Viz Konfigurace bezserverového kanálu DLT.

Výběr zásad clusteru

Uživatelé musí mít oprávnění k nasazení výpočetních prostředků pro konfiguraci a aktualizaci kanálů DLT. Správci pracovního prostoru můžou nakonfigurovat zásady clusteru tak, aby uživatelům poskytovaly přístup k výpočetním prostředkům pro DLT. Podívejte se na Definovat omezení výpočetních zdrojů pro kanál DLT.

Poznámka

  • Zásady clusteru jsou volitelné. Obraťte se na správce pracovního prostoru, pokud nemáte potřebná výpočetní oprávnění pro DLT.

  • Pokud chcete zajistit správné použití výchozích hodnot zásad clusteru, nastavte apply_policy_default_values na true v konfiguracích clusteru v konfiguraci kanálu:

    {
      "clusters": [
        {
          "label": "default",
          "policy_id": "<policy-id>",
          "apply_policy_default_values": true
        }
      ]
    }
    

Konfigurace značek clusteru

Můžete použít značky clusteru ke sledování využití vašich clusterů pipeline. Značky clusteru můžete přidat do uživatelského rozhraní DLT, když vytvoříte nebo upravíte kanál nebo upravíte nastavení JSON pro clustery kanálů.

Výběr typů instancí pro spuštění kanálu

Ve výchozím nastavení DLT vybere typy instancí pro řídicí a pracovní uzly vašeho kanálu. Volitelně můžete nakonfigurovat typy instancí.

Vyberte například typy instancí, abyste zlepšili výkon kanálu nebo vyřešili problémy s pamětí při spuštění kanálu. Typy instancí můžete nakonfigurovat při vytváření nebo úpravách kanálu pomocí rozhraní REST API nebo v uživatelském rozhraní DLT.

Konfigurace typů instancí při vytváření nebo úpravě kanálu v uživatelském rozhraní DLT:

  1. Klikněte na tlačítko Nastavení.
  2. V části Upřesnit v nastavení kanálu vyberte v rozevíracích nabídkách typy instancí pro pipeline: pro typ pracovního procesu a pro typ ovladače .

pokročilé konfigurace výpočetních prostředků

Poznámka

Vzhledem k tomu, že výpočetní prostředky pro bezserverové datové toky DLT jsou plně spravované, nejsou při volbě bezserverové dostupná výpočetní nastavení.

Každý kanál DLT má dva přidružené clustery:

  • updates cluster zpracovává aktualizace datového toku.
  • Cluster maintenance spouští úlohy každodenní údržby.

Výpočetní nastavení zadaná pomocí uživatelského rozhraní konfigurace potrubí pracovního prostoru platí pro clustery údržby i aktualizace. Pokud chcete tato nastavení upravit nezávisle, musíte upravit konfiguraci JSON.

Konfigurace těchto clusterů je určena atributem clusters zadaným v nastavení kanálu.

Pomocí popisků clusteru můžete přidat výpočetní nastavení, která platí jenom pro konkrétní typ clusteru. Při konfiguraci clusterů pipeline můžete použít tři popisky:

Poznámka

Nastavení popisku clusteru je možné vynechat, pokud definujete pouze jednu konfiguraci clusteru. Popisek default se použije u konfigurací clusteru, pokud není popisku přiřazeno žádné nastavení. Nastavení popisku clusteru se vyžaduje jenom v případě, že potřebujete přizpůsobit nastavení pro různé typy clusterů.

  • Popisek default definuje nastavení výpočetních prostředků pro clustery updates i maintenance. Použití stejného nastavení u obou clusterů zlepšuje spolehlivost provozu údržby tím, že zajišťuje, že na údržbový cluster jsou aplikovány požadované konfigurace, jako jsou přihlašovací údaje pro přístup k datům pro umístění úložiště.
  • Popisek maintenance definuje nastavení výpočetních prostředků, která platí jenom pro maintenance cluster. Pomocí popisku maintenance můžete také přepsat nastavení nakonfigurovaná popiskem default.
  • Popisek updates definuje nastavení, která platí jenom pro updates cluster. Použijte ho ke konfiguraci nastavení, která by se neměla použít u clusteru maintenance.

Nastavení definovaná pomocí popisků default a updates se sloučí, aby se vytvořila konečná konfigurace pro cluster updates. Pokud je stejné nastavení definované pomocí popisků default i updates, přepíše nastavení definované popiskem updates nastavení definované popiskem default.

Následující příklad definuje parametr konfigurace Sparku, který se přidá pouze do konfigurace pro cluster updates:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

DLT má podobné možnosti pro nastavení clusteru jako jiné výpočetní prostředky v Azure Databricks. Stejně jako u jiných nastavení kanálu můžete upravit konfiguraci JSON pro clustery a určit možnosti, které se v uživatelském rozhraní nenachází. Viz Výpočet.

Poznámka

Vzhledem k tomu, že modul runtime DLT spravuje životní cyklus clusterů kanálů a spouští vlastní verzi databricks Runtime, nemůžete některá nastavení clusteru nastavit ručně v konfiguraci kanálu, jako je verze Sparku nebo názvy clusterů. Viz atributy clusteru, které nejsou nastaveny uživatelem.

Konfigurace typů instancí pro clustery aktualizací a údržby

Pokud chcete nakonfigurovat typy instancí v nastavení JSON kanálu, klikněte na tlačítko JSON a zadejte konfigurace typu instance v konfiguraci clusteru:

Poznámka

Aby se zabránilo přiřazování nepotřebných prostředků ke clusteru maintenance, použije tento příklad popisek updates k nastavení typů instancí pouze pro cluster updates. Pokud chcete přiřadit typy instancí ke clusterům updates i maintenance, použijte buď štítek default, nebo vynechejte nastavení štítku. Popisek default se použije u konfigurací clusteru pipeline, pokud není žádné nastavení pro popisek poskytnuto. Viz Pokročilé konfigurace výpočetních prostředků.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

Zpoždění vypnutí výpočetních prostředků

Pokud chcete řídit chování vypnutí clusteru, můžete využít vývojový nebo produkční režim, či nastavení pipelines.clusterShutdown.delay v konfiguraci pipeline. Následující příklad nastaví hodnotu pipelines.clusterShutdown.delay na 60 sekund:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Pokud je povolen režim production, výchozí hodnota pro pipelines.clusterShutdown.delay je 0 seconds. Pokud je povolen režim development, výchozí hodnota je 2 hours.

Poznámka

Vzhledem k tomu, že se cluster DLT automaticky vypne, když se nepoužívá, odkazování na zásady clusteru, které nastaví autotermination_minutes v konfiguraci clusteru, způsobí chybu.

Vytvoření clusteru s jedním uzlem

Pokud v nastavení clusteru nastavíte num_workers na hodnotu 0, cluster se vytvoří jako cluster s jedním uzlem. Konfigurace automatického škálování clusteru a nastavení min_workers na 0 a max_workers na 0 vytvoří cluster s jedním uzlem.

Pokud nakonfigurujete cluster automatického škálování a nastavíte pouze min_workers na 0, cluster se nevytvořil jako cluster s jedním uzlem. Cluster má vždy alespoň jeden aktivní pracovní uzel, dokud nebude ukončeno.

Příklad konfigurace clusteru pro vytvoření clusteru s jedním uzlem v DLT:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}