Lakehouse referenciaarchitektúrák (letöltés)
Ez a cikk az adatforrás, a betöltés, az átalakítás, a lekérdezés és a feldolgozás, a kiszolgálás, az elemzés és a tárolás tekintetében ismerteti a lakehouse architektúra-útmutatását.
Minden referenciaarchitektúra 11 x 17 (A3) formátumban letölthető PDF-fájlokat használ.
Bár a Databricks lakehouse egy nyílt platform, amely partnereszközök nagy ökoszisztémájával integrálható, a referenciaarchitektúrák csak az Azure-szolgáltatásokra és a Databricks lakehouse-ra összpontosítanak. A megjelenített felhőszolgáltatói szolgáltatások a fogalmak szemléltetésére vannak kiválasztva, és nem teljesek.
Letöltés: Referenciaarchitektúra az Azure Databricks Lakehouse-hoz
Az Azure referenciaarchitektúrája a következő Azure-specifikus szolgáltatásokat mutatja be a betöltéshez, a tároláshoz, a kiszolgáláshoz és az elemzéshez:
- Az Azure Synapse és az SQL Server mint a Lakehouse Federation forrásrendszerei
- Azure IoT Hub és Azure Event Hubs streamelési célokra
- Azure Data Factory a köteges adatbetöltéshez
- Az Azure Data Lake Storage Gen 2 (ADLS) objektumtárolóként
- Az Azure SQL DB és az Azure Cosmos DB operatív adatbázisokként
- Az Azure Purview mint nagyvállalati katalógus, amelybe az UC séma- és életútadatokat exportál
- Power BI mint BI-eszköz
A referenciaarchitektúrák szervezése
A referenciaarchitektúra a következő úszósávok mentén van strukturálva: Forrás, Beolvasás, Átalakítás, Lekérdezés/Folyamat, Kiszolgálás, Elemzésés Tárolás.
Forrás
Az architektúra megkülönbözteti a részben strukturált és strukturálatlan adatokat (érzékelők és IoT, média, fájlok/naplók) és a strukturált adatokat (RDBMS, üzleti alkalmazások). Az SQL-források (RDBMS) az ETL nélkül is integrálhatók a lakehouse-ba és a Unity-katalógusba a lakehouse-összevonáson keresztül. Emellett előfordulhat, hogy az adatok más felhőszolgáltatóktól is betölthetők.
Bevesz
Az adatok köteg vagy streamelés útján betölthetők a lakehouse-ba:
- Databricks Lakeflow Connect beépített összekötőket kínál a nagyvállalati alkalmazásokból és adatbázisokból való betöltéshez. Az eredményül kapott betöltési folyamatot a Unity Catalog szabályozza, és kiszolgáló nélküli számítással és DLT-sel működik.
- A felhőbeli tárolóba szállított fájlok közvetlenül a Databricks Automatikus betöltővel tölthetők be.
- A vállalati alkalmazásokból a Delta Lake-be történő kötegelt adatbetöltéshez a Databricks lakehouse a partneri betöltési eszközökre támaszkodik, amelyek speciális adapterekkel rendelkeznek ezekhez a nyilvántartási rendszerekhez.
- A streamelési események közvetlenül betölthetők olyan eseménystreamelési rendszerekből, mint például a Kafka a Databricks Strukturált streamelés használatával. A streamelő források lehetnek érzékelők, IoT vagy változáskövető adatrögzítés folyamatok.
Tárolás
Az adatokat általában a felhőbeli tárolórendszer tárolja, ahol az ETL-folyamatok a medallion architektúrát használják az adatok válogatott módon történő tárolására Delta-fájlokként/táblákként.
és lekérdezések és folyamatok átalakítása
A Databricks lakehouse az Apache Spark és a Photon motorjait használja minden átalakításhoz és lekérdezéshez.
A DLT (DLT) egy deklaratív keretrendszer a megbízható, karbantartható és tesztelhető adatfeldolgozási folyamatok egyszerűsítéséhez és optimalizálásához.
Az Apache Spark és a Photon által működtetett Databricks Adatintelligencia-platform mindkét számítási feladatot támogatja: SQL-lekérdezéseket SQL-raktárakon keresztül, valamint sql-, Python- és Scala-számítási feladatokat munkaterületfürtökön keresztül.
A Databricks AI és a Machine Learning platform az adatelemzés (ML-modellezés és gen AI) számára speciális ml-futtatókörnyezeteket biztosít az AutoML-hez és az ML-feladatok kódolásához. Az MLflow minden adatelemzési és MLOps-munkafolyamatota legjobban támogat.
kiszolgálás
DWH- és BI-használati esetek esetén a Databricks lakehouse biztosítja a Databricks SQL-t, az SQL-raktárak által üzemeltetett adattárházat és a kiszolgáló nélküli SQL-raktárakat.
A gépi tanuláshoz a modell-kiszolgálás egy skálázható, valós idejű, nagyvállalati szintű modellmegjelenítési képesség, amely a Databricks vezérlősíkon fut. Mozaik AI-átjáró Databricks-megoldás a támogatott generatív AI-modellekhez és a végpontokat kiszolgáló társított modellhez való hozzáférés szabályozására és monitorozására.
Operatív adatbázisok: A külső rendszerek, például az operatív adatbázisok felhasználhatók a végfelhasználói alkalmazások végső adattermékeinek tárolására és továbbítására.
Együttműködés: Az üzleti partnerek biztonságos hozzáférést kapnak a szükséges adatokhoz a Delta Sharing használatával. A Delta Sharing alapján a Databricks Marketplace egy nyílt fórum az adattermékek cseréjére.
Elemzés
A végső üzleti alkalmazások ebben a sávban vannak. Ilyenek például az egyéni ügyfelek, például a Mozaik AI-modellhez csatlakoztatott AI-alkalmazások, amelyek valós idejű következtetést szolgálnak ki, vagy olyan alkalmazások, amelyek hozzáférnek a lakehouse-ból egy operatív adatbázisba leküldött adatokhoz.
Bi-használati esetek esetén az elemzők általában BI-eszközöket használnak az adattárház eléréséhez. Az SQL-fejlesztők a Databricks SQL Editort is használhatják (a diagramon nem látható) lekérdezésekhez és irányítópultokhoz.
Az adatintelligencia-platform irányítópultokat is kínál az adatvizualizációk létrehozásához és az elemzések megosztásához.
Integrál
- A Databricks platform felhasználói felügyeleti és egyszeri bejelentkezés (SSO)szabványos identitásszolgáltatókkal integrálható.
Az olyan külső AI-szolgáltatások, mint OpenAI, LangChain vagy HuggingFace közvetlenül a Databricks Intelligence Platformon belül használhatók.
A külső orchesztátorok használhatják az átfogó REST API--t, vagy dedikált közvetítőket külső vezénylési eszközökhöz, például a Apache Airflow-hoz.
A Unity Catalog a Databricks Intelligence Platform összes adat- & AI-szabályozásához használható, és a Lakehouse Federationsegítségével integrálhat más adatbázisokat a szabályozásába.
Emellett a Unity Catalog más vállalati katalógusokba is integrálható, például Purview. Részletekért forduljon a vállalati katalógus szállítójához.
Általános képességek az összes számítási feladathoz
A Databricks lakehouse emellett olyan felügyeleti képességekkel is rendelkezik, amelyek az összes számítási feladatot támogatják:
Adatok és AI-szabályozás
A Databricks Adatintelligencia-platform központi adat- és AI-szabályozási rendszere a Unity Catalog. A Unity Catalog egyetlen helyen kezeli az összes munkaterületre vonatkozó adatelérési szabályzatokat, és támogatja a lakehouse-ban létrehozott vagy használt összes objektumot, például táblákat, köteteket, funkciókat (funkciótárolót) és modelleket (modellregisztrációs adatbázis). A Unity Catalog a Databricksen futtatott lekérdezések futtatókörnyezeti adatsorainak rögzítésére is használható.
A Databricks lakehouse monitorozása lehetővé teszi, hogy a fiókban található összes tábla adatminőségét figyelemmel kísérje. A gépi tanulási modellek és a modellkiszolgáló végpontok teljesítményét is nyomon követheti.
A megfigyelhetőség érdekében a rendszertáblák a fiók működési adatainak Databricks által üzemeltetett elemzési tárai. A rendszertáblák felhasználhatók a fiók előzményeinek megfigyelhetőségére.
Adatfeldolgozó rendszer
A Databricks Adatintelligencia-platform lehetővé teszi a teljes szervezet számára az adatok és az AI használatát. A DatabricksIQ hajtja, és a generatív mesterséges intelligenciát ötvözi a lakehouse egyesítő előnyeivel, hogy megértse az adatok egyedi szemantikáját.
A Databricks Assistant a Databricks-jegyzetfüzetekben, az SQL-szerkesztőben és a fájlszerkesztőben érhető el környezetfüggő AI-asszisztensként fejlesztők számára.
Automáció & Vezénylés
A Databricks Jobs vezényli az adatfeldolgozási, gépi tanulási és elemzési folyamatokat a Databricks Adatintelligencia-platformon. DLT lehetővé teszi megbízható és karbantartható ETL-folyamatok deklaratív szintaxissal történő létrehozását. A platform támogatja CI/CD és MLOps
Az Azure-beli adatintelligencia-platform magas szintű használati esetei
A Databricks Lakeflow Connect beépített összekötőket kínál a nagyvállalati alkalmazásokból és adatbázisokból való betöltéshez. Az eredményül kapott betöltési folyamatot a Unity Catalog szabályozza, és kiszolgáló nélküli számítással és DLT-sel működik. A Lakeflow Connect hatékony növekményes olvasásokat és írásokat használ az adatbetöltés gyorsabb, skálázható és költséghatékonyabbá tételéhez, miközben az adatok frissek maradnak az alsóbb rétegbeli felhasználáshoz.
Használati eset: Betöltés a Lakeflow Connecttel:
Letöltés: Batch ETL referenciaarchitektúra az Azure Databrickshez.
Használati eset: Batch ETL
Letöltés: Batch ETL referenciaarchitektúra az Azure Databrickshez
Az betöltési eszközök forrásspecifikus adapterekkel olvasnak adatokat a forrásból, majd vagy a felhőbeli tárolóban tárolják, ahonnan az automatikus betöltő elolvashatja őket, vagy közvetlenül meghívhatják a Databrickset (például a Databricks lakehouse-ba integrált partnerbetöltési eszközökkel). Az adatok betöltéséhez a Databricks ETL és a feldolgozó motor a DLT-n keresztül futtatja a lekérdezéseket. Az egy- vagy többfeladatos munkafolyamatokat a Databricks Jobs vezényli, és a Unity Catalog szabályozza (hozzáférés-vezérlés, naplózás, életút stb.). Ha az alacsony késésű üzemeltetési rendszerek bizonyos aranytáblákhoz való hozzáférést igényelnek, exportálhatók egy operatív adatbázisba, például RDBMS-be vagy kulcs-érték tárolóba az ETL-folyamat végén.
Használati eset: Streamelés és változáskövetés (CDC)
Letöltés: Spark strukturált streamelési architektúra az Azure Databrickshez
A Databricks ETL-motor spark strukturált streamelést használ az olyan eseménysorokból való olvasáshoz, mint az Apache Kafka vagy az Azure Event Hub. Az alsóbb rétegbeli lépések a fenti Batch-használati eset megközelítését követik.
A valós idejű változásadat-rögzítés (CDC) általában egy eseménysort használ a kinyert események tárolására. Innen a használati eset a streamelési használati esetet követi.
Ha a CDC olyan kötegben történik, amelyben a kinyert rekordok először a felhőbeli tárolóban vannak tárolva, akkor a Databricks Autoloader felolvassa őket, és a használati eset a Batch ETL-t követi.
Használati eset: Gépi tanulás és AI
Letöltés: Gépi tanulási és AI-referenciaarchitektúra az Azure Databrickshez
A gépi tanuláshoz a Databricks Adatintelligencia-platform mozaik AI-t biztosít, amely a legkorszerűbb gépi és mélytanulási kódtárakkal rendelkezik. Olyan képességeket biztosít, mint a Funkciótár és a modellregisztrációs adatbázis (mindkettő a Unity Katalógusba integrálva), az AutoML alacsony kódú funkciói és az MLflow integrálása az adatelemzési életciklusba.
Az adatelemzéshez kapcsolódó összes objektumot (táblákat, funkciókat és modelleket) a Unity Catalog szabályozza, és az adattudósok a Databricks Jobs használatával vezényelhetik a feladataikat.
A modellek skálázható és nagyvállalati szintű üzembe helyezéséhez az MLOps képességeivel közzéteheti a modelleket a modellkiszolgálóban.
Használati eset: Generatív AI-ügynökalkalmazások
Letöltés: Gen AI-alkalmazások referenciaarchitektúrája az Azure Databricks
A generatív AI-használati esetek esetében a Mozaik AI a legkorszerűbb kódtárakkal és a generációs AI speciális képességeivel rendelkezik, a gyors tervezéstől a meglévő modellek finomhangolásán át az előzetes betanításig. A fenti architektúra bemutatja, hogyan integrálható a vektorkeresés egy generatív MI-alkalmazás létrehozásához a RAG (lekérés-alapú kiterjesztett generáció) használatával.
A modellek skálázható és nagyvállalati szintű üzembe helyezéséhez az MLOps képességeivel közzéteheti a modelleket a modellkiszolgálóban.
Használati eset: BI és SQL Analytics
Letöltés: BI- és SQL Analytics-referenciaarchitektúra az Azure Databrickshez
Üzletiintelligráns-használati esetekben az üzleti elemzők irányítópultokat, a Databricks SQL-szerkesztőt vagy adott BI-eszközöket, például Tableau-t vagy Power BI-t használhatnak. A motor minden esetben a Databricks SQL (kiszolgáló nélküli vagy nem kiszolgáló nélküli), az adatfelderítést, a feltárást és a hozzáférés-vezérlést pedig a Unity Catalog biztosítja.
Használati eset: Lakehouse-szövetség
Letöltés: Lakehouse összevonási referenciaarchitektúra az Azure Databrickshez
A Lakehouse-összevonás lehetővé teszi, hogy külső adat SQL-adatbázisok (például MySQL, Postgres, SQL Server vagy Azure Synapse) integrálhatók legyenek a Databricksbe.
Minden számítási feladat (AI, DWH és BI) kihasználhatja ezt anélkül, hogy először ETL-be kellene helyeznie az adatokat az objektumtárolóba. A külső forráskatalógus a Unity-katalógusba van leképezve, és a Databricks platformon keresztül finomhangolt hozzáférés-vezérlés alkalmazható a hozzáférésre.
Használati eset: Vállalati adatmegosztás
Letöltés: Vállalati adatmegosztási referenciaarchitektúra az Azure Databrickshez
A nagyvállalati szintű adatmegosztást a Delta Sharing biztosítja. Közvetlen hozzáférést biztosít a Unity Catalog által védett objektumtároló adataihoz, a Databricks Marketplace pedig nyílt fórum az adattermékek cseréjéhez.