Referenční architektury Lakehouse (stažení)

Článek
03/06/2025

Tento článek popisuje pokyny k architektuře pro jezero z hlediska zdroje dat, příjmu dat, transformace, dotazování a zpracování, obsluhy, analýzy a úložiště.

Každá referenční architektura má ke stažení PDF ve formátu 11 x 17 (A3).

I když je Lakehouse na Databricks otevřená platforma, která se integruje s rozsáhlým ekosystémem partnerských nástrojů, referenční architektury se zaměřují pouze na služby Azure a Lakehouse Databricks. Zobrazené služby poskytovatele cloudu jsou vybrány k ilustraci konceptů a nejsou vyčerpávající.

referenční architektura pro Azure Databricks Lakehouse.

Ke stažení: Referenční architektura pro Azure Databricks Lakehouse

Referenční architektura Azure ukazuje následující služby specifické pro Azure pro příjem dat, ukládání, zpracování a analýzu:

Azure Synapse a SQL Server jako zdrojové systémy pro Federaci Lakehouse
Azure IoT Hub a Azure Event Hubs pro příjem streamování
Azure Data Factory pro dávkové ingestování
Azure Data Lake Storage Gen2 (ADLS) jako úložiště objektů
Azure SQL DB a Azure Cosmos DB jako provozní databáze
Azure Purview jako podnikový katalog, do kterého UC exportuje informace o schématu a rodokmenu
Power BI jako nástroj BI

Uspořádání referenčních architektur

Referenční architektura je strukturovaná podél linií Zdroj, Příjem, Transformace, Poptávka/Zpracování, Servírování, Analýza a Úložiště:

Zdroj

Architektura rozlišuje částečně strukturovaná a nestrukturovaná data (senzory a IoT, média, soubory/protokoly) a strukturovaná data (RDBMS, obchodní aplikace). Zdroje SQL (RDBMS) lze také integrovat do lakehouse a Unity Catalog bez použití ETL prostřednictvím lakehouse federation. Kromě toho se můžou načítat data od jiných poskytovatelů cloudu.
Požití

Data je možné ingestovat do lakehouse dávkovým zpracováním nebo streamováním.
- Databricks Lakeflow Connect nabízí integrované konektory pro příjem dat z podnikových aplikací a databází. Výsledný kanál příjmu dat se řídí katalogem Unity a využívá bezserverové výpočetní prostředky a DLT.
- Soubory doručované do cloudového úložiště lze načíst přímo pomocí Auto Loader Databricks.
- V případě dávkového příjmu dat z podnikových aplikací do Delta Lake spoléhá Databricks Lakehouse na partnerské nástroje ingestování s konkrétními adaptéry pro tyto systémy záznamu.
- Události streamování se můžou ingestovat přímo ze systémů streamování událostí, jako je Kafka pomocí strukturovaného streamování Databricks. Zdroje streamování můžou být senzory, IoT nebo procesy zachytávání dat.
Úložiště

Data jsou obvykle uložená v systému cloudového úložiště, kde kanály ETL používají architekturu medailonu k ukládání dat kurátorovaným způsobem jako soubory nebo tabulky Delta.
Transformovat a Dotaz / zpracování

Databricks Lakehouse používá své moduly Apache Spark a Photon pro všechny transformace a dotazy.

DLT (DLT) je deklarativní architektura pro zjednodušení a optimalizaci spolehlivých, udržovatelných a testovatelných kanálů zpracování dat.

Platforma Databricks Data Intelligence Platform s podporou Apache Sparku a Photonu podporuje oba typy úloh: dotazy SQL prostřednictvím sql warehouse a úlohy SQL, Python a Scala prostřednictvím clusterů pracovních prostorů.

Pro datovou vědu (modelování ML a generativní AI) poskytuje platforma Databricks AI a strojové učení specializovaná prostředí ML pro AutoML a pro kódování ML úloh. MLflow nejlépe podporuje všechny pracovní postupy datových věd a MLOps.
Obsluha

Pro případy použití DWH a BI poskytuje Databricks Lakehouse Databricks SQL, datový sklad využívající SQL Warehouse a bezserverové SQL Warehouse.

Pro strojové učení je servisní schopnost modelu škálovatelná, v reálném čase, a na úrovni podniku, hostovaná v řídicí rovině Databricks. Mosaic AI Gateway je řešení Databricks pro řízení a sledování přístupu k podporovaným generativním AI modelům a jejich souvisejícím koncovým bodům pro obsluhu modelů.

Provozní databáze: Externí systémy, jako jsou provozní databáze, se dají použít k ukládání a doručování konečných datových produktů do uživatelských aplikací.

Spolupráce: Obchodní partneři získají zabezpečený přístup k datům, která potřebují, prostřednictvím Delta Sharing. Na základě technologie Delta Sharing je Databricks Marketplace otevřeným fórem pro výměnu datových produktů.
Analýza

Poslední obchodní aplikace jsou v této plavecké dráze. Mezi příklady patří vlastní klienti, jako jsou aplikace AI připojené k Mosaic AI Model Serving pro predikci v reálném čase, nebo aplikace, které přistupují k datům přenášeným z lakehouse k provozní databázi.

V případě použití BI analytici obvykle používají nástroje BI pro přístup k datovému skladu. Vývojáři SQL můžou navíc použít Editor SQL Databricks (nezobrazuje se v diagramu) pro dotazy a řídicí panely.

Platforma data Intelligence také nabízí řídicí panely pro vytváření vizualizací dat a sdílení přehledů.
Integrovat
- Platforma Databricks se integruje se standardními zprostředkovateli identit pro správu uživatelů a jednotného přihlašování (SSO).
- Externí služby AI, jako jsou OpenAI, LangChain nebo HuggingFace lze používat přímo z platformy Databricks Intelligence Platform.
- Externí orchestrátory můžou používat komplexní rozhraní REST API nebo vyhrazené konektory pro externí nástroje orchestrace, jako je Apache Airflow.
- Katalog Unity se používá pro správu všech dat a AI v platformě Databricks Intelligence a může integrovat další databáze do svého systému správy prostřednictvím Lakehouse Federation.
  
  Katalog Unity lze navíc integrovat do jiných podnikových katalogů, například Purview. Podrobnosti získáte od dodavatele podnikového katalogu.

Společné funkce pro všechny úlohy

Kromě toho databricks lakehouse nabízí možnosti správy, které podporují všechny úlohy:

Zásady správného řízení pro data a AI

Centrální systém správy dat a umělé inteligence v Databricks Data Intelligence Platform je Unity Catalog. Katalog Unity poskytuje jediné místo pro správu zásad přístupu k datům, které se vztahují na všechny pracovní prostory, a podporuje všechny prostředky vytvořené nebo používané v lakehouse, jako jsou tabulky, svazky, funkce (feature store) a modely (model registry). Katalog Unity lze také použít ke zachycení sledování dat napříč dotazy běžícími v Databricks.

Monitorování dat v Databricks lakehouse umožňuje sledovat kvalitu dat všech tabulek ve vašem účtu. Může také sledovat výkon modelů strojového učení a koncových bodů obsluhy modelů.

Pro pozorovatelnost jsou systémové tabulky analytické úložiště provozních dat vašeho účtu hostované službou Databricks. Systémové tabulky se dají použít pro historickou pozorovatelnost v rámci vašeho účtu.
Modul pro analýzu dat

Platforma Databricks Data Intelligence umožňuje celé organizaci používat data a umělou inteligenci. Využívá databricksIQ a kombinuje generování umělé inteligence s unifikačními výhodami jezera, aby porozuměla jedinečné sémantice vašich dat.

Databricks Assistant je k dispozici v poznámkových blocích Databricks, editoru SQL a editoru souborů jako pomocník pro AI pracující s kontextem pro vývojáře.
automatizace & orchestrace

Databricks Jobs orchestrují zpracování dat, strojové učení a datové toky na Databricks Data Intelligence Platformě. DLT umožňují vytvářet spolehlivé a udržovatelné kanály ETL s deklarativní syntaxí. Platforma také podporuje CI/CD a MLOps

Základní případy použití platformy Data Intelligence v Azure

Databricks Lakeflow Connect nabízí integrované konektory pro příjem dat z podnikových aplikací a databází. Výsledný kanál příjmu dat se řídí katalogem Unity a využívá bezserverové výpočetní prostředky a DLT. Lakeflow Connect využívá efektivní přírůstkové čtení a zápisy k rychlejšímu, škálovatelnému a nákladově efektivnějšímu zpracování dat, zatímco vaše data zůstávají aktuální pro další zpracování.

Případ použití: Příjem dat pomocí lakeflow Connect:

příjem dat pomocí LFC v Azure Databricks.

Ke stažení: Referenční architektura Batch ETL pro Azure Databricks

Případ použití: Batch ETL

referenční architektura pro dávkové ETL v Azure Databricks.

Stáhnout: Referenční architektura Batch ETL pro Azure Databricks

Nástroje pro ingestování používají adaptéry specifické pro zdroj ke čtení dat ze zdroje a následně je buď ukládají do cloudového úložiště, odkud je může číst Auto Loader, nebo přímo volají Databricks (například s nástroji pro ingestování integrovanými do Databricks Lakehouse). K načtení dat spouští modul ETL a zpracování Databricks dotazy prostřednictvím DLT. Pracovní postupy s jedním nebo více úkoly je možné orchestrovat pomocí úloh Databricks a řídit se katalogem Unity (řízení přístupu, audit, rodokmen atd.). Pokud provozní systémy s nízkou latencí vyžadují přístup ke konkrétním zlatým tabulkám, je možné je exportovat do provozní databáze, jako je rdBMS nebo úložiště klíč-hodnota na konci kanálu ETL.

Případ použití: Streamování a zachytávání dat změn (CDC)

architekturu strukturovaného streamování Sparku v Azure Databricks.

Stažení: Architektura strukturovaného streamování Sparku pro Azure Databricks

Modul ETL pro Databricks používá strukturované streamování Sparku ke čtení z front událostí, jako je Apache Kafka nebo Azure Event Hub. Následující kroky se řídí přístupem výše uvedeného případu použití služby Batch.

Zachytávání dat změn v reálném čase (CDC) obvykle používá frontu událostí k ukládání extrahovaných událostí. Odsud se případ použití řídí případem použití streamování.

Pokud se CDC provádí v dávce, kde jsou extrahované záznamy nejprve uložené v cloudovém úložišti, může je autoloader Databricks přečíst a případ použití následuje po dávkovém ETL.

Případ použití: Strojové učení a AI

referenční architekturu strojového učení a umělé inteligence pro Azure Databricks.

Stáhnout: Referenční architektura strojového učení a AI pro Azure Databricks

Pro strojové učení poskytuje platforma Databricks Data Intelligence Mosaic AI, která se dodává s nejmodernějšími knihovnami strojového a hlubokého učení. Poskytuje funkce, jako je úložiště funkcí a registr modelů (integrované do katalogu Unity), funkce s nízkým kódem s AutoML a integrace MLflow do životního cyklu datových věd.

Všechny prostředky související s datovými vědami (tabulky, funkce a modely) se řídí katalogem Unity a datoví vědci můžou k orchestraci svých úloh použít Databricks Jobs.

Pokud chcete nasazovat modely škálovatelným a podnikovým způsobem, použijte funkce MLOps k publikování modelů v obsluhě modelu.

Případ použití: Aplikace agenta generování AI (Gen AI)

Referenční architektura aplikace Gen AI pro Azure Databricks.

Ke stažení: Referenční architektura aplikace Gen AI pro azure Databricks

Pro případy použití generativní umělé inteligence přichází Mosaic AI s nejmodernějšími knihovnami a specifickými schopnostmi generativní AI od návrhu promptů po doladění stávajících modelů a předtrénování od nuly. Výše uvedená architektura ukazuje příklad toho, jak je možné integrovat vektorové vyhledávání pro vytvoření generativní AI aplikace pomocí RAG (načítání rozšířené generace).

Pokud chcete nasazovat modely škálovatelným a podnikovým způsobem, použijte funkce MLOps k publikování modelů v obsluhě modelu.

Případ použití: ANALÝZY BI a SQL

referenční architektura analýzy BI a SQL pro Azure Databricks.

Stažení: Referenční architektura analýz BI a SQL pro Azure Databricks

V případě použití BI můžou obchodní analytici používat řídicí panely, editor SQL Databricks nebo konkrétní nástroje BI, jako je Tableau nebo Power BI. Ve všech případech je modul Databricks SQL (bezserverový nebo bezserverový) a zjišťování, zkoumání a řízení přístupu k datům poskytuje Katalog Unity.

Případ použití: Federace Lakehouse

Referenční architektura federace pro Lakehouse na Azure Databricks.

Stáhnout: Referenční architektura federace Lakehouse pro Azure Databricks

Federace Lakehouse umožňuje integraci externích databází SQL dat (například MySQL, Postgres, SQL Serveru nebo Azure Synapse) s Databricks.

Všechny úlohy (AI, DWH a BI) z toho mohou těžit, aniž by bylo nutné nejprve data ETL do objektového úložiště. Externí zdrojový katalog je mapován do katalogu Unity a jemně odstupňované řízení přístupu lze použít pro přístup přes platformu Databricks.

referenční architektura sdílení podnikových dat pro Azure Databricks

Stáhnout: Referenční architektura sdílení podnikových dat pro Azure Databricks

Delta Sharing poskytuje sdílení dat na podnikové úrovni. Poskytuje přímý přístup k datům v úložišti objektů zabezpečených službou Unity Catalog a Databricks Marketplace je otevřené fórum pro výměnu datových produktů.

Sdílet prostřednictvím

Referenční architektury Lakehouse (stažení)

Uspořádání referenčních architektur

Společné funkce pro všechny úlohy

Základní případy použití platformy Data Intelligence v Azure

Případ použití: Příjem dat pomocí lakeflow Connect:

Případ použití: Batch ETL

Případ použití: Streamování a zachytávání dat změn (CDC)

Případ použití: Strojové učení a AI

Případ použití: Aplikace agenta generování AI (Gen AI)

Případ použití: ANALÝZY BI a SQL

Případ použití: Federace Lakehouse

Váš názor

Další materiály

Sdílet prostřednictvím

Referenční architektury Lakehouse (stažení)

Uspořádání referenčních architektur

Společné funkce pro všechny úlohy

Základní případy použití platformy Data Intelligence v Azure

Případ použití: Příjem dat pomocí lakeflow Connect:

Případ použití: Batch ETL

Případ použití: Streamování a zachytávání dat změn (CDC)

Případ použití: Strojové učení a AI

Případ použití: Aplikace agenta generování AI (Gen AI)

Případ použití: ANALÝZY BI a SQL

Případ použití: Federace Lakehouse

Případ použití: Sdílení podnikových dat

Váš názor

Další materiály