Lakehouse referenciaarchitektúrák (letöltés)

Cikk
02/03/2025

Ez a cikk az adatforrás, a betöltés, az átalakítás, a lekérdezés és a feldolgozás, a kiszolgálás, az elemzés és a tárolás tekintetében ismerteti a lakehouse architektúra-útmutatását.

Minden referenciaarchitektúra 11 x 17 (A3) formátumban letölthető PDF-fájlokat használ.

Bár a Databricks lakehouse egy nyílt platform, amely partnereszközök nagy ökoszisztémájával integrálható, a referenciaarchitektúrák csak az Azure-szolgáltatásokra és a Databricks lakehouse-ra összpontosítanak. A megjelenített felhőszolgáltatói szolgáltatások a fogalmak szemléltetésére vannak kiválasztva, és nem teljesek.

Referenciaarchitektúra az Azure Databricks lakehouse-hoz.

Letöltés: Referenciaarchitektúra az Azure Databricks Lakehouse-hoz

Az Azure referenciaarchitektúrája a következő Azure-specifikus szolgáltatásokat mutatja be a betöltéshez, a tároláshoz, a kiszolgáláshoz és az elemzéshez:

Az Azure Synapse és az SQL Server mint a Lakehouse Federation forrásrendszerei
Azure IoT Hub és Azure Event Hubs streamelési célokra
Azure Data Factory a köteges adatbetöltéshez
Az Azure Data Lake Storage Gen 2 (ADLS) objektumtárolóként
Az Azure SQL DB és az Azure Cosmos DB operatív adatbázisokként
Az Azure Purview mint nagyvállalati katalógus, amelybe az UC séma- és életútadatokat exportál
Power BI mint BI-eszköz

A referenciaarchitektúrák szervezése

A referenciaarchitektúra a következő úszósávok mentén van strukturálva: Forrás, Beolvasás, Átalakítás, Lekérdezés/Folyamat, Kiszolgálás, Elemzésés Tárolás.

Forrás

Az architektúra megkülönbözteti a részben strukturált és strukturálatlan adatokat (érzékelők és IoT, média, fájlok/naplók) és a strukturált adatokat (RDBMS, üzleti alkalmazások). Az SQL-források (RDBMS) az ETL nélkül is integrálhatók a lakehouse-ba és a Unity-katalógusba a lakehouse-összevonáson keresztül. Emellett előfordulhat, hogy az adatok más felhőszolgáltatóktól is betölthetők.
Bevesz

Az adatok köteg vagy streamelés útján betölthetők a lakehouse-ba:
- Databricks Lakeflow Connect beépített összekötőket kínál a nagyvállalati alkalmazásokból és adatbázisokból való betöltéshez. Az eredményül kapott betöltési folyamatot a Unity Catalog szabályozza, és kiszolgáló nélküli számítással és DLT-sel működik.
- A felhőbeli tárolóba szállított fájlok közvetlenül a Databricks Automatikus betöltővel tölthetők be.
- A vállalati alkalmazásokból a Delta Lake-be történő kötegelt adatbetöltéshez a Databricks lakehouse a partneri betöltési eszközökre támaszkodik, amelyek speciális adapterekkel rendelkeznek ezekhez a nyilvántartási rendszerekhez.
- A streamelési események közvetlenül betölthetők olyan eseménystreamelési rendszerekből, mint például a Kafka a Databricks Strukturált streamelés használatával. A streamelő források lehetnek érzékelők, IoT vagy változáskövető adatrögzítés folyamatok.
Tárolás

Az adatokat általában a felhőbeli tárolórendszer tárolja, ahol az ETL-folyamatok a medallion architektúrát használják az adatok válogatott módon történő tárolására Delta-fájlokként/táblákként.
és lekérdezések és folyamatok átalakítása

A Databricks lakehouse az Apache Spark és a Photon motorjait használja minden átalakításhoz és lekérdezéshez.

A DLT (DLT) egy deklaratív keretrendszer a megbízható, karbantartható és tesztelhető adatfeldolgozási folyamatok egyszerűsítéséhez és optimalizálásához.

Az Apache Spark és a Photon által működtetett Databricks Adatintelligencia-platform mindkét számítási feladatot támogatja: SQL-lekérdezéseket SQL-raktárakon keresztül, valamint sql-, Python- és Scala-számítási feladatokat munkaterületfürtökön keresztül.

A Databricks AI és a Machine Learning platform az adatelemzés (ML-modellezés és gen AI) számára speciális ml-futtatókörnyezeteket biztosít az AutoML-hez és az ML-feladatok kódolásához. Az MLflow minden adatelemzési és MLOps-munkafolyamatota legjobban támogat.
kiszolgálás

DWH- és BI-használati esetek esetén a Databricks lakehouse biztosítja a Databricks SQL-t, az SQL-raktárak által üzemeltetett adattárházat és a kiszolgáló nélküli SQL-raktárakat.

A gépi tanuláshoz a modell-kiszolgálás egy skálázható, valós idejű, nagyvállalati szintű modellmegjelenítési képesség, amely a Databricks vezérlősíkon fut. Mozaik AI-átjáró Databricks-megoldás a támogatott generatív AI-modellekhez és a végpontokat kiszolgáló társított modellhez való hozzáférés szabályozására és monitorozására.

Operatív adatbázisok: A külső rendszerek, például az operatív adatbázisok felhasználhatók a végfelhasználói alkalmazások végső adattermékeinek tárolására és továbbítására.

Együttműködés: Az üzleti partnerek biztonságos hozzáférést kapnak a szükséges adatokhoz a Delta Sharing használatával. A Delta Sharing alapján a Databricks Marketplace egy nyílt fórum az adattermékek cseréjére.
Elemzés

A végső üzleti alkalmazások ebben a sávban vannak. Ilyenek például az egyéni ügyfelek, például a Mozaik AI-modellhez csatlakoztatott AI-alkalmazások, amelyek valós idejű következtetést szolgálnak ki, vagy olyan alkalmazások, amelyek hozzáférnek a lakehouse-ból egy operatív adatbázisba leküldött adatokhoz.

Bi-használati esetek esetén az elemzők általában BI-eszközöket használnak az adattárház eléréséhez. Az SQL-fejlesztők a Databricks SQL Editort is használhatják (a diagramon nem látható) lekérdezésekhez és irányítópultokhoz.

Az adatintelligencia-platform irányítópultokat is kínál az adatvizualizációk létrehozásához és az elemzések megosztásához.
Integrál
- A Databricks platform felhasználói felügyeleti és egyszeri bejelentkezés (SSO)szabványos identitásszolgáltatókkal integrálható.
- Az olyan külső AI-szolgáltatások, mint OpenAI, LangChain vagy HuggingFace közvetlenül a Databricks Intelligence Platformon belül használhatók.
- A külső orchesztátorok használhatják az átfogó REST API--t, vagy dedikált közvetítőket külső vezénylési eszközökhöz, például a Apache Airflow-hoz.
- A Unity Catalog a Databricks Intelligence Platform összes adat- & AI-szabályozásához használható, és a Lakehouse Federationsegítségével integrálhat más adatbázisokat a szabályozásába.
  
  Emellett a Unity Catalog más vállalati katalógusokba is integrálható, például Purview. Részletekért forduljon a vállalati katalógus szállítójához.

Általános képességek az összes számítási feladathoz

A Databricks lakehouse emellett olyan felügyeleti képességekkel is rendelkezik, amelyek az összes számítási feladatot támogatják:

Adatok és AI-szabályozás

A Databricks Adatintelligencia-platform központi adat- és AI-szabályozási rendszere a Unity Catalog. A Unity Catalog egyetlen helyen kezeli az összes munkaterületre vonatkozó adatelérési szabályzatokat, és támogatja a lakehouse-ban létrehozott vagy használt összes objektumot, például táblákat, köteteket, funkciókat (funkciótárolót) és modelleket (modellregisztrációs adatbázis). A Unity Catalog a Databricksen futtatott lekérdezések futtatókörnyezeti adatsorainak rögzítésére is használható.

A Databricks lakehouse monitorozása lehetővé teszi, hogy a fiókban található összes tábla adatminőségét figyelemmel kísérje. A gépi tanulási modellek és a modellkiszolgáló végpontok teljesítményét is nyomon követheti.

A megfigyelhetőség érdekében a rendszertáblák a fiók működési adatainak Databricks által üzemeltetett elemzési tárai. A rendszertáblák felhasználhatók a fiók előzményeinek megfigyelhetőségére.
Adatfeldolgozó rendszer

A Databricks Adatintelligencia-platform lehetővé teszi a teljes szervezet számára az adatok és az AI használatát. A DatabricksIQ hajtja, és a generatív mesterséges intelligenciát ötvözi a lakehouse egyesítő előnyeivel, hogy megértse az adatok egyedi szemantikáját.

A Databricks Assistant a Databricks-jegyzetfüzetekben, az SQL-szerkesztőben és a fájlszerkesztőben érhető el környezetfüggő AI-asszisztensként fejlesztők számára.
Automáció & Vezénylés

A Databricks Jobs vezényli az adatfeldolgozási, gépi tanulási és elemzési folyamatokat a Databricks Adatintelligencia-platformon. DLT lehetővé teszi megbízható és karbantartható ETL-folyamatok deklaratív szintaxissal történő létrehozását. A platform támogatja CI/CD és MLOps

Az Azure-beli adatintelligencia-platform magas szintű használati esetei

A Databricks Lakeflow Connect beépített összekötőket kínál a nagyvállalati alkalmazásokból és adatbázisokból való betöltéshez. Az eredményül kapott betöltési folyamatot a Unity Catalog szabályozza, és kiszolgáló nélküli számítással és DLT-sel működik. A Lakeflow Connect hatékony növekményes olvasásokat és írásokat használ az adatbetöltés gyorsabb, skálázható és költséghatékonyabbá tételéhez, miközben az adatok frissek maradnak az alsóbb rétegbeli felhasználáshoz.

Használati eset: Betöltés a Lakeflow Connecttel:

LFC-vel való betöltés az Azure Databricksben.

Letöltés: Batch ETL referenciaarchitektúra az Azure Databrickshez.

Használati eset: Batch ETL

Referenciaarchitektúra a batch ETL-hez az Azure Databricksben.

Letöltés: Batch ETL referenciaarchitektúra az Azure Databrickshez

Az betöltési eszközök forrásspecifikus adapterekkel olvasnak adatokat a forrásból, majd vagy a felhőbeli tárolóban tárolják, ahonnan az automatikus betöltő elolvashatja őket, vagy közvetlenül meghívhatják a Databrickset (például a Databricks lakehouse-ba integrált partnerbetöltési eszközökkel). Az adatok betöltéséhez a Databricks ETL és a feldolgozó motor a DLT-n keresztül futtatja a lekérdezéseket. Az egy- vagy többfeladatos munkafolyamatokat a Databricks Jobs vezényli, és a Unity Catalog szabályozza (hozzáférés-vezérlés, naplózás, életút stb.). Ha az alacsony késésű üzemeltetési rendszerek bizonyos aranytáblákhoz való hozzáférést igényelnek, exportálhatók egy operatív adatbázisba, például RDBMS-be vagy kulcs-érték tárolóba az ETL-folyamat végén.

Használati eset: Streamelés és változáskövetés (CDC)

Spark strukturált streamelési architektúra az Azure Databricksben.

Letöltés: Spark strukturált streamelési architektúra az Azure Databrickshez

A Databricks ETL-motor spark strukturált streamelést használ az olyan eseménysorokból való olvasáshoz, mint az Apache Kafka vagy az Azure Event Hub. Az alsóbb rétegbeli lépések a fenti Batch-használati eset megközelítését követik.

A valós idejű változásadat-rögzítés (CDC) általában egy eseménysort használ a kinyert események tárolására. Innen a használati eset a streamelési használati esetet követi.

Ha a CDC olyan kötegben történik, amelyben a kinyert rekordok először a felhőbeli tárolóban vannak tárolva, akkor a Databricks Autoloader felolvassa őket, és a használati eset a Batch ETL-t követi.

Használati eset: Gépi tanulás és AI

Gépi tanulási és AI-referenciaarchitektúra az Azure Databrickshez.

Letöltés: Gépi tanulási és AI-referenciaarchitektúra az Azure Databrickshez

A gépi tanuláshoz a Databricks Adatintelligencia-platform mozaik AI-t biztosít, amely a legkorszerűbb gépi és mélytanulási kódtárakkal rendelkezik. Olyan képességeket biztosít, mint a Funkciótár és a modellregisztrációs adatbázis (mindkettő a Unity Katalógusba integrálva), az AutoML alacsony kódú funkciói és az MLflow integrálása az adatelemzési életciklusba.

Az adatelemzéshez kapcsolódó összes objektumot (táblákat, funkciókat és modelleket) a Unity Catalog szabályozza, és az adattudósok a Databricks Jobs használatával vezényelhetik a feladataikat.

A modellek skálázható és nagyvállalati szintű üzembe helyezéséhez az MLOps képességeivel közzéteheti a modelleket a modellkiszolgálóban.

Használati eset: Generatív AI-ügynökalkalmazások

Gen AI-alkalmazások referenciaarchitektúrája az Azure Databrickshez.

Letöltés: Gen AI-alkalmazások referenciaarchitektúrája az Azure Databricks

A generatív AI-használati esetek esetében a Mozaik AI a legkorszerűbb kódtárakkal és a generációs AI speciális képességeivel rendelkezik, a gyors tervezéstől a meglévő modellek finomhangolásán át az előzetes betanításig. A fenti architektúra bemutatja, hogyan integrálható a vektorkeresés egy generatív MI-alkalmazás létrehozásához a RAG (lekérés-alapú kiterjesztett generáció) használatával.

A modellek skálázható és nagyvállalati szintű üzembe helyezéséhez az MLOps képességeivel közzéteheti a modelleket a modellkiszolgálóban.

Használati eset: BI és SQL Analytics

BI- és SQL Analytics-referenciaarchitektúrát az Azure Databrickshez.

Letöltés: BI- és SQL Analytics-referenciaarchitektúra az Azure Databrickshez

Üzletiintelligráns-használati esetekben az üzleti elemzők irányítópultokat, a Databricks SQL-szerkesztőt vagy adott BI-eszközöket, például Tableau-t vagy Power BI-t használhatnak. A motor minden esetben a Databricks SQL (kiszolgáló nélküli vagy nem kiszolgáló nélküli), az adatfelderítést, a feltárást és a hozzáférés-vezérlést pedig a Unity Catalog biztosítja.

Használati eset: Lakehouse-szövetség

Lakehouse összevonási referenciaarchitektúrája az Azure Databrickshez.

Letöltés: Lakehouse összevonási referenciaarchitektúra az Azure Databrickshez

A Lakehouse-összevonás lehetővé teszi, hogy külső adat SQL-adatbázisok (például MySQL, Postgres, SQL Server vagy Azure Synapse) integrálhatók legyenek a Databricksbe.

Minden számítási feladat (AI, DWH és BI) kihasználhatja ezt anélkül, hogy először ETL-be kellene helyeznie az adatokat az objektumtárolóba. A külső forráskatalógus a Unity-katalógusba van leképezve, és a Databricks platformon keresztül finomhangolt hozzáférés-vezérlés alkalmazható a hozzáférésre.

Nagyvállalati adatmegosztási referenciaarchitektúra az Azure Databrickshez.

Letöltés: Vállalati adatmegosztási referenciaarchitektúra az Azure Databrickshez

A nagyvállalati szintű adatmegosztást a Delta Sharing biztosítja. Közvetlen hozzáférést biztosít a Unity Catalog által védett objektumtároló adataihoz, a Databricks Marketplace pedig nyílt fórum az adattermékek cseréjéhez.

Megosztás a következőn keresztül:

Lakehouse referenciaarchitektúrák (letöltés)

A referenciaarchitektúrák szervezése

Általános képességek az összes számítási feladathoz

Az Azure-beli adatintelligencia-platform magas szintű használati esetei

Használati eset: Betöltés a Lakeflow Connecttel:

Használati eset: Batch ETL

Használati eset: Streamelés és változáskövetés (CDC)

Használati eset: Gépi tanulás és AI

Használati eset: Generatív AI-ügynökalkalmazások

Használati eset: BI és SQL Analytics

Használati eset: Lakehouse-szövetség

Visszajelzés

További források

Megosztás a következőn keresztül:

Lakehouse referenciaarchitektúrák (letöltés)

A referenciaarchitektúrák szervezése

Általános képességek az összes számítási feladathoz

Az Azure-beli adatintelligencia-platform magas szintű használati esetei

Használati eset: Betöltés a Lakeflow Connecttel:

Használati eset: Batch ETL

Használati eset: Streamelés és változáskövetés (CDC)

Használati eset: Gépi tanulás és AI

Használati eset: Generatív AI-ügynökalkalmazások

Használati eset: BI és SQL Analytics

Használati eset: Lakehouse-szövetség

Használati eset: Vállalati adatmegosztás

Visszajelzés

További források