Megosztás a következőn keresztül:


A lakehouse platform hatóköre

Modern adat- és AI-platform-keretrendszer

A Databricks adatintelligencia-platform hatókörének megvitatásához hasznos először meghatározni a modern adat- és AI-platform alapvető keretrendszerét:

felhőalapú adatelemzési keretrendszert.

A lakehouse hatókörének áttekintése

A Databricks Data Intelligence Platform a teljes modern adatplatform-keretrendszert fedi le. A lakehouse architektúrára épül, és egy adatintelligencia-motor hajtja, amely megérti az adatok egyedi tulajdonságait. Ez egy nyitott és egységes alap az ETL, az ML/AI és a DWH/BI számítási feladatokhoz, és központi adat- és AI-szabályozási megoldásként a Unity Catalogot tartalmazza.

A platform-keretrendszer személyiségei

A keretrendszer a keretrendszerben az alkalmazásokkal együttműködő elsődleges adatcsoporttagokat (persona-kat) fedi le:

  • Az adatszakértők pontos és reprodukálható adatokat biztosítanak az adattudósoknak és az üzleti elemzőknek az időszerű döntéshozatalhoz és a valós idejű elemzésekhez. Rendkívül konzisztens és megbízható ETL-folyamatokat implementálnak a felhasználói bizalom és az adatokba vetett bizalom növelése érdekében. Biztosítják, hogy az adatok megfelelően integrálva legyenek az üzlet különböző pilléreivel, és általában a szoftverfejlesztés ajánlott eljárásait követik.
  • Az adattudósok az elemzési szakértelem és az üzleti ismeretek ötvözése révén stratégiai elemzésekké és prediktív modellekké alakítják az adatokat. Képesek az üzleti kihívásokat adatvezérelt megoldásokká alakítani, legyen az visszamenőleges elemzési megállapítások vagy előretekintő prediktív modellezés. Az adatmodellezési és gépi tanulási technikákat kihasználva olyan modelleket terveznek, fejlesztenek és helyeznek üzembe, amelyek mintázatokat, trendeket és előrejelzéseket mutatnak be az adatokból. Hídként működnek, összetett adat narratívákat alakítanak át érthető történetekké, biztosítva, hogy az üzleti szereplők ne csak megértsék, hanem az adatvezérelt javaslatokra is reagáljanak, ezáltal pedig a szervezeten belüli problémamegoldás adatközpontú megközelítését irányítják.
  • A gépi tanulási mérnökök (gépi tanulási mérnökök) a gépi tanulási modellek létrehozásával, üzembe helyezésével és karbantartásával vezetik az adatelemzés gyakorlati alkalmazását a termékekben és megoldásokban. Elsődleges fókuszuk a modellfejlesztés és az üzembe helyezés mérnöki aspektusa felé mutat. Az ml-mérnökök biztosítják a gépi tanulási rendszerek robusztusságát, megbízhatóságát és méretezhetőségét élő környezetben, az adatminőséggel, az infrastruktúrával és a teljesítménnyel kapcsolatos kihívások kezelése érdekében. Az AI- és ML-modellek működési üzleti folyamatokba és felhasználói termékekbe való integrálásával megkönnyítik az adatelemzés használatát az üzleti kihívások megoldásában, így a modellek nem csak a kutatásban maradnak, hanem kézzelfogható üzleti értéket is teremtenek.
  • Üzleti elemzők és üzleti felhasználók: Az üzleti elemzők végrehajtható adatokat biztosítanak az érdekelt feleknek és az üzleti csapatoknak. Gyakran értelmezik az adatokat, és standard BI-eszközökkel hoznak létre jelentéseket vagy más dokumentációt a felügyelethez. Ezek általában a nem műszaki üzleti felhasználók és üzemeltetési munkatársak első kapcsolattartói a gyors elemzési kérdésekhez. A Databricks platformon elérhető irányítópultokat és üzleti alkalmazásokat közvetlenül az üzleti felhasználók használhatják.
  • Az üzleti partnerek fontos érdekelt felek az egyre inkább hálózatos üzleti világban. Ezek olyan vállalatként vagy magánszemélyekként vannak definiálva, akikkel egy vállalkozás formális kapcsolatban áll egy közös cél elérése érdekében, és beszállítókat, szállítókat, forgalmazókat és más külső partnereket is tartalmazhatnak. Az adatmegosztás az üzleti partnerségek fontos eleme, mivel lehetővé teszi az adatok átvitelét és cseréjét az együttműködés és az adatvezérelt döntéshozatal javítása érdekében.

A platform-keretrendszer tartományai

A platform több tartományból áll:

  • Tárolás: A felhőben az adatok elsősorban skálázható, hatékony és rugalmas objektumtárolókban tárolódnak a felhőszolgáltatókon.
  • Irányítás: Az adatszabályozással kapcsolatos képességek, például a hozzáférés-vezérlés, a naplózás, a metaadatok kezelése, a leálláskövetés és az összes adat és AI-eszköz monitorozása.
  • AI-motor: Az AI-motor generatív AI-képességeket biztosít a teljes platform számára.
  • Betöltés és átalakítás: Az ETL számítási feladatok képességei.
  • Speciális elemzés, gépi tanulás és AI: A gépi tanulás, az AI, a Generatív AI és a streamelemzés minden képessége.
  • Adattárház: A DWH- és BI-használati eseteket támogató tartomány.
  • Automation: munkafolyamat-kezelés adatfeldolgozáshoz, gépi tanuláshoz, elemzési folyamatokhoz, beleértve a CI/CD-t és az MLOps-támogatást.
  • ETL > DS-eszközök: Az adatmérnökök, adattudósok és gépi tanulási mérnökök által elsősorban a munkához használt előtérbeli eszközök.
  • BI-eszközök: Azok az előtérbeli eszközök, amelyeket a BI-elemzők elsősorban a munkához használnak.
  • Együttműködés: Képességek két vagy több fél közötti adatmegosztáshoz.

A Databricks Platform hatóköre

A Databricks Adatintelligencia-platform és összetevői a következő módon képezhetők le a keretrendszerre:

tóház hatókörének diagramja. Letöltés: A lakehouse hatóköre – Databricks-összetevők

Adatterhelések az Azure Databricksben

A legfontosabb, hogy a Databricks Adatintelligencia-platform az adattartomány összes releváns számítási feladatát lefedi egy platformon, motorként az Apache Spark/Photont használva.

  • Betöltés és átalakítás

    A Databricks többféle adatbetöltési módot is kínál:

    • Databricks Lakeflow Connect beépített összekötőket kínál a nagyvállalati alkalmazásokból és adatbázisokból való betöltéshez. Az eredményül kapott betöltési folyamatot a Unity Catalog szabályozza, és kiszolgáló nélküli számítással és DLT-sel működik.
    • automatikus betöltő növekményesen és automatikusan feldolgozza a felhőbeli tárolóban lévő fájlokat ütemezett vagy folyamatos feladatokban – állapotinformációk kezelése nélkül. A betöltést követően a nyers adatokat át kell alakítani, hogy azok készen legyenek a BI-ra és az ML/AI-re. A Databricks hatékony ETL-képességeket biztosít az adatmérnökök, adattudósok és elemzők számára.

    DLT (DLT) lehetővé teszi az ETL-feladatok deklaratív módon történő írását, leegyszerűsítve a teljes megvalósítási folyamatot. Az adatminőség az adat elvárásainak meghatározásával javítható.

  • Speciális elemzés, gépi tanulás és AI

    A platform magában foglalja a Databricks Mozaik AI, egy teljesen integrált gépi tanulás és MI eszközkészletet klasszikus gépi és mélytanuláshoz, valamint generatív MI-hez és nagy nyelvi modellekhez (LLM-ekhez). A teljes munkafolyamatot lefedi az adatok előkészítésétől a gépi tanulás és mélytanulási modellek elkészítésén át a Mosaic AI Model Serving-ig.

    A Spark strukturált streamelése és a DLT lehetővé teszi a valós idejű elemzést.

  • Adattárház

    A Databricks Adatintelligencia-platform egy teljes adattárház-megoldást is biztosít a Databricks SQL-vel, amely központilag a Unity Catalog felügyelete alatt áll, részletes hozzáférés-vezérléssel.

    AI-függvények olyan beépített SQL-függvények, amelyek lehetővé teszik, hogy a mesterséges intelligenciát közvetlenül SQL-ből alkalmazza az adataira. Az AI elemzési munkafolyamatokba való integrálása hozzáférést biztosít az elemzők számára korábban elérhetetlen információkhoz, és lehetővé teszi számukra, hogy megalapozottabb döntéseket hozzanak, kockázatokat kezelhessenek, és az adatvezérelt innováció és hatékonyság révén versenyelőnyhöz juthassanak.

Az Azure Databricks szolgáltatásterületeinek vázlata

Ez a Databricks Adatintelligencia-platform funkcióinak leképezése a keretrendszer többi rétegére, alulról felülre:

  • Felhőtárhely

    A tóház összes adata a felhőszolgáltató objektumtárolójában van tárolva. A Databricks három felhőszolgáltatót támogat: az AWS-t, az Azure-t és a GCP-t. A különböző strukturált és félig strukturált formátumokban (például Parquet, CSV, JSON és Avro), valamint strukturálatlan formátumokban (például képekben és dokumentumokban) lévő fájlok kötegelt vagy streamelési folyamatokkal vannak betöltve és átalakítva.

    A Delta Lake a lakehouse ajánlott adatformátuma (fájltranzakciók, megbízhatóság, konzisztencia, frissítések stb.), és teljesen nyílt forráskód a zárolás elkerülése érdekében. A Delta Universal Format (UniForm) lehetővé teszi a Delta-táblák olvasását Iceberg-olvasó ügyfelekkel.

    A Databricks Adatintelligencia-platform nem használ védett adatformátumokat.

  • adat- és AI-szabályozási

    A tárolási rétegen felül a Unity Catalog számos adat- és AI-szabályozási képességet kínál, beleértve a metaadattár metaadat-kezelési, hozzáférés-vezérlési, naplózási, adatfelderítésiés adatkisorolási.

    A Lakehouse monitorozása beépített minőségi metrikákat biztosít az adatokhoz és az AI-eszközökhöz, valamint automatikusan létrehozott irányítópultokat ezeknek a metrikáknak a megjelenítéséhez.

    A külső SQL-források a lakehouse federáción keresztül integrálhatók a lakehouse-ba és a Unity-katalógusba.

  • AI-motor

    Az adatintelligencia-platform a lakehouse architektúrára épül, és a DatabricksIQ adatintelligencia-motorja javítja. A DatabricksIQ egyesíti a generatív AI-t a lakehouse-architektúra egyesítési előnyeivel az adatok egyedi szemantikájának megértéséhez. Az Intelligens keresés és a Databricks Assistant olyan AI-alapú szolgáltatások, amelyek minden felhasználó számára leegyszerűsítik a platformmal való munkát.

  • Orchestration

    A Databricks-feladatok lehetővé teszik különböző számítási feladatok futtatását a teljes adatokhoz és az AI-életciklushoz bármilyen felhőben. Lehetővé teszik a feladatok, mint például az SQL, Spark, notebookok, DBT, ML-modellek és egyéb komponensek DLT-jának vezénylését.

    A platform támogatja CI/CD és MLOps

  • ETL > DS-eszközök

    A felhasználói rétegben az adatmérnökök és az ml-mérnökök általában idE-k használatával dolgoznak a platformon. Az adattudósok gyakran a jegyzetfüzeteket részesítik előnyben, és az ML > AI-futtatókörnyezeteket, valamint a gépi tanulási munkafolyamat-rendszer MLflow-ját használják a kísérletek nyomon követéséhez és a modell életciklusának kezeléséhez.

  • BI-eszközök

    Az üzleti elemzők általában az előnyben részesített BI-eszközüket használják a Databricks adattárház eléréséhez. A Databricks SQL különböző elemzési és BI-eszközökkel kérdezhető le, lásd: BI és vizualizáció

    A platform emellett lekérdezési és elemzési eszközöket is kínál a dobozból:

    • AI/BI-irányítópultok az adatvizualizációk húzásához és az elemzések megosztásához.
    • A tartományi szakértők, például az adatelemzők, AI-/BI Genie-terek adathalmazokkal, minta lekérdezésekkel és szöveges irányelvekkel konfigurálva segítenek a Genie-nek az üzleti kérdések elemzési lekérdezésekké való lefordításában. A beállítás után az üzleti felhasználók kérdéseket tehetnek fel, és vizualizációkat hozhatnak létre a működési adatok megértéséhez.
    • Databricks Apps lehetővé teszi, hogy a fejlesztők biztonságos adatokat és AI-alkalmazásokat hozzanak létre a Databricks platformon, és megosztják az alkalmazásokat a felhasználókkal.
  • Együttműködés

    A Delta Sharing egy nyílt protokoll , amelyet a Databricks fejlesztett ki a más szervezetekkel való biztonságos adatmegosztáshoz, függetlenül attól, hogy milyen számítási platformokat használnak.

    A Databricks Marketplace egy nyílt fórum az adattermékek cseréjéhez. Kihasználja a Delta Sharing előnyeit, hogy az adatszolgáltatók számára olyan eszközöket biztosítson az adattermékek biztonságos megosztásához, valamint az adatfelhasználók számára, hogy felfedezhessék és bővíthessék a szükséges adatokhoz és adatszolgáltatásokhoz való hozzáférésüket.

    Tiszta szobák deltamegosztással és kiszolgáló nélküli számítással biztonságos és adatvédelemmel rendelkező környezetet biztosít, ahol több fél is együttműködhet a bizalmas vállalati adatokon anélkül, hogy közvetlenül hozzáférnek egymás adataihoz.