Úvod do monitorování Databricks Lakehouse
Tento článek popisuje monitorování Databricks Lakehouse. Zahrnuje výhody monitorování dat a poskytuje přehled komponent a využití monitorování Databricks Lakehouse.
Monitorování Databricks Lakehouse umožňuje monitorovat statistické vlastnosti a kvalitu dat ve všech tables ve vašem účtu. Můžete ho také použít ke sledování výkonu modelů strojového učení a koncových bodů obsluhy modelů monitorováním odvozování tables, které obsahují vstupy a předpovědi modelu. Diagram znázorňuje tok dat prostřednictvím kanálů dat a STROJOVÉho učení v Databricks a způsob, jak můžete pomocí monitorování průběžně sledovat kvalitu dat a výkon modelu.
Proč používat monitorování Databricks Lakehouse?
Pokud chcete z dat získat užitečné přehledy, musíte mít jistotu v kvalitu dat. Monitorování dat poskytuje kvantitativní míry, které vám pomůžou sledovat a potvrdit kvalitu a konzistenci dat v průběhu času. Když zjistíte změny v distribuci dat tablenebo v odpovídajícím modelu, tables vytvořené monitorováním Databricks Lakehouse vás může zachytávat a upozorňovat na změnu a pomůže vám identifikovat příčinu.
Monitorování Databricks Lakehouse pomáhá zodpovědět otázky, jako jsou následující:
- Jak vypadá integrita dat a jak se mění v průběhu času? Jaký je například podíl hodnoty null nebo nula values v aktuálních datech a zda se zvýšil?
- Jak vypadá statistické rozdělení dat a jak se mění v průběhu času? Jaký je například 90. percentil číselného column? Nebo jaké je rozdělení values v kategorii columna jak se liší od včerejška?
- Je mezi aktuálními daty a známým směrný plán nebo mezi po sobě jdoucími časovými okny dat posun?
- Jak vypadá statistické rozdělení nebo posun podmnožina nebo řezu dat?
- Jak se v průběhu času mění vstupy a predikce modelu ML?
- Jak se model v průběhu času mění v trendu výkonu? Funguje verze modelu A lépe než verze B?
Monitorování Databricks Lakehouse navíc umožňuje řídit časové intervaly pozorování a set vlastní metriky.
Požadavky
K používání monitorování Databricks Lakehouse jsou potřeba následující:
- Váš pracovní prostor musí být povolený pro Unity Catalog a musíte mít přístup k Databricks SQL.
- Pro monitorování je podporována pouze Delta tables a table musí být jedním z následujících typů table: spravované tables, externí tables, views, materializované viewsnebo streamované tables.
- Monitory vytvořené nad materializovanými views a streamovanými tables nepodporují přírůstkové zpracování.
- Nepodporují se všechny oblasti. Regionální podporu najdete v monitorování
Lakehouse v AI a strojovém učení .
Poznámka:
Monitorování Databricks Lakehouse používá pro úlohy bezserverové výpočetní prostředky. Informace o sledování výdajů na monitorování Lakehouse naleznete v tématu View Lakehouse Monitoring Expenses.
Jak funguje monitorování Lakehouse v Databricks
Pokud chcete sledovat table v Databricks, vytvoříte monitor připojený k table. Pokud chcete monitorovat výkon modelu strojového učení, připojíte ho k odvozovacímu table, který obsahuje vstupy modelu a odpovídající předpovědi.
Monitorování Databricks Lakehouse poskytuje následující typy analýzy: časové řady, snímky a odvozování.
Typ profilu | Popis |
---|---|
Časové řady | Používá se pro tables, které obsahují datovou sadu časových řad na základě časového razítka column. Monitorování počítá metriky kvality dat v časových oknech časové řady. |
Odvozování | Použijte pro tables, které obsahují protokol žádostí pro model. Každý řádek je požadavek s columns pro časové razítko , vstupy modelu, odpovídající predikce a (volitelné) popisek základní pravdy. Monitorování porovnává metriky výkonu modelu a kvality dat v časových oknech protokolu požadavků. |
Snímek | Slouží pro všechny ostatní typy tables. Sledování vypočítává metriky kvality dat nad všemi daty v table. Kompletní table se zpracuje s každým refresh. |
Tato část stručně popisuje vstup tables používaný monitorováním Databricks Lakehouse a metrika tables, kterou vytváří. Diagram znázorňuje vztah mezi vstupním tables, metrikou tables, monitorováním a řídicím panelem.
primární table a základní table
Kromě table, které má být monitorováno a které se nazývá "primární table", můžete volitelně stanovit základní table jako odkaz pro měření posunu nebo změnu values v průběhu času. Základní table je užitečné, když máte vzorek toho, co očekáváte, že vaše data budou vypadat. Myšlenka spočívá v tom, že posun se pak vypočítá vzhledem k očekávaným datům values a distribucím.
Základní table by měla obsahovat datovou sadu, která odráží očekávanou kvalitu vstupních dat z hlediska statistických rozdělení, jednotlivých column rozdělení, chybějících valuesa dalších charakteristik. Měl by odpovídat schema monitorovaného table. Výjimkou je časové razítko column pro tables používané s časovými řadami nebo profily odvozování. Pokud columns chybí v primárním table nebo ve standardním table, sledování k výpočtu výstupních metriků používá heuristiku co největšího úsilí.
U monitorů, které používají profil snímku, by měl základní profil table obsahovat snímek dat. Distribuce where představuje přijatelný standard kvality. Například u dat distribuce známek může jeden set směrný plán do předchozí třídy, where známky byly rovnoměrně distribuovány.
Pro monitorování, která používají profil časové řady, by měl základní table obsahovat data představující časová window(s) where rozdělení dat představují přijatelný standard kvality. Například u dat o počasí můžete set směrný plán na týden, měsíc nebo rok where teplota byla blízko očekávané normální teploty.
Pro monitorování, která používají profil odvozování, je dobrou volbou pro směrný plán data, která byla použita k trénování nebo ověření monitorovaného modelu. Tímto způsobem mohou být uživatelé upozorněni, když se data odchylují vzhledem k tomu, na co byl model natrénován a ověřen. Tato table by měla obsahovat stejnou funkci columns jako primární tablea navíc by měla mít stejnou model_id_col
, která byla zadána pro primární tableInferenceLog, aby se data agregovala konzistentně. V ideálním případě by se k zajištění srovnatelné metriky kvality modelu měly použít testovací nebo ověřovací set použité k vyhodnocení modelu.
Metrika tables a řídicí panel
Monitor table vytvoří dva metriky tables a řídicí panel. Metriky values se počítají pro celou tablea pro časová okna a podmnožiny dat (neboli "výřezy"), které zadáte při vytváření monitoru. Kromě toho se metriky pro analýzu odvozování počítají pro každé ID modelu. Další podrobnosti o metrice tablesnajdete v tématu Sledování metriky tables.
- Metrika profilu table obsahuje souhrnné statistiky. Prohlédněte si metriky profilu tableschema.
- Metriky posunu table obsahují statistiky související s posunem dat v průběhu času. Pokud je k dispozici referenční bod table, posun se sleduje také vzhledem k referenčnímu bodu values. Prohlédněte si metriky posunu tableschema.
Metrika tables je Delta tables a ukládá se v Unity Catalogschema, které určíte. Tyto tables můžete zobrazit pomocí uživatelského rozhraní Databricks, dotazovat se na ně pomocí Sql Databricks a vytvořit na základě nich řídicí panely a výstrahy.
Pro každé monitorování Databricks automaticky vytvoří řídicí panel, který vám pomůže vizualizovat a prezentovat výsledky monitorování. Řídicí panel je plně přizpůsobitelný. Podívejte se na řídicí panely.
Začínáme používat monitorování Lakehouse v Databricks
Podívejte se na následující články, abyste začali s get:
- Vytvořte monitorování pomocí uživatelského rozhraní Databricks.
- Vytvořte monitorování pomocí rozhraní API.
- Pochopit metriky monitorování tables.
- Pracujte s řídicím panelem monitorování.
- Vytvořte upozornění SQL na základě monitorování.
- Vytvořte vlastní metriky.
- Monitorování vlastních modelů obsluhujících koncové body.
- Monitorujte nestrannost a předsudky pro klasifikační modely.
- Podívejte se na referenční materiál pro rozhraní DATAbricks Lakehouse Monitoring API.
- Ukázkové poznámkové bloky