Mi az adattárház-kezelés az Azure Databricksben?
Az adatraktározás több forrásból származó adatok gyűjtésére és tárolására utal, így azok gyorsan elérhetők az üzleti elemzésekhez és jelentésekhez. Ez a cikk az adattárház data lakehouse-ban történő kiépítésének legfontosabb fogalmait tartalmazza.
Adattárház a tóházban
A Lakehouse architektúrája és a Databricks SQL felhőbeli adattárházi képességeket biztosít a data lake-ekhez. A jól ismert adatstruktúrák, kapcsolatok és felügyeleti eszközök használatával egy nagy teljesítményű, költséghatékony adattárházat modellezhet, amely közvetlenül a data lake-en fut. További információ: Mi az a data lakehouse?
A hagyományos adattárházakhoz hasonlóan az üzleti követelményeknek megfelelően modellezheti az adatokat, majd a végfelhasználók számára is kiszolgálhatja őket elemzésekhez és jelentésekhez. A hagyományos adattárházaktól eltérően elkerülheti az üzleti elemzési adatok silózását, vagy redundáns másolatokat hozhat létre, amelyek gyorsan elavulttá válnak.
A lakehouse-beli adattárház létrehozása lehetővé teszi, hogy az összes adatot egyetlen rendszerbe hozza, és kihasználhassa az olyan funkciók előnyeit, mint a Unity Catalog és a Delta Lake.
Unity Catalog egy egységes szabályozási modellt ad hozzá, így biztonságossá teheti és naplózhatja az adathozzáférést, és leágazási információkat biztosíthat az alsóbb rétegbeli táblákhoz. Delta Lake ACID tranzakciókat és sémafejlődést ad hozzá, többek között más hatékony eszközökkel együtt, az adatok megbízható, méretezhető és magas színvonalú fenntartása érdekében.
Mi az a Databricks SQL?
Feljegyzés
A Databricks SQL Serverless nem érhető el az Azure China-ban. A Databricks SQL nem érhető el az Azure Government-régiókban.
A Databricks SQL olyan szolgáltatások gyűjteménye, amelyek adatraktározási képességeket és teljesítményt hoznak létre a meglévő adattavakban. A Databricks SQL támogatja a nyílt formátumokat és a szabványos ANSI SQL-t. A platformon belüli SQL-szerkesztő és irányítópult-eszközök lehetővé teszik a csapattagok számára, hogy közvetlenül a munkaterületen együttműködjenek más Databricks-felhasználókkal. A Databricks SQL számos eszközzel is integrálható, így az elemzők lekérdezéseket és irányítópultokat hozhatnak létre kedvenc környezeteikben anélkül, hogy új platformra módosítanák őket.
A Databricks SQL általános számítási erőforrásokat biztosít, amelyek a lakehouse-beli táblákon lesznek végrehajtva. A Databricks SQL-t sql-raktárak, korábbi nevén SQL-végpontok működtetik, és skálázható SQL számítási erőforrásokat kínálnak a tárterülettől elválasztva.
Az SQL Warehouse alapértelmezett beállításairól és beállításairól további információt a Csatlakozás SQL Warehouse-hoz című témakörben talál.
A Databricks SQL integrálható a Unity Catalog szolgáltatással, így egyetlen helyről fedezheti fel, naplózhatja és szabályozhatja az adategységeket. További információ: Mi a Unity Katalógus?
Adatmodellezés az Azure Databricksben
A lakehouse számos modellezési stílust támogat. Az alábbi képen az adatok összeválogatása és modellezése látható, miközben egy tóház különböző rétegei között mozognak.
Medallion architektúra
A medallion architektúra egy adattervezési minta, amely növekményesen finomított adatrétegek sorozatát írja le, amelyek alapszintű struktúrát biztosítanak a tóházban. A bronz, ezüst és arany rétegek minden szinten növekvő adatminőséget jeleznek, az arany pedig a legmagasabb minőséget képviseli. További információ: Mi a medallion lakehouse architektúra?
Egy tóházban minden réteg tartalmazhat egy vagy több táblát. Az adattárház az ezüst rétegen modellezhető, és speciális adat martokat táplál az aranyrétegben.
Bronz réteg
Az adatok bármilyen formátumban és köteg- vagy gőzölési tranzakciók bármilyen kombinációjával beléphetnek a lakehouse-ba. A bronz réteg az összes nyers adat kezdőterét biztosítja eredeti formájában. Az adatok deltatáblákká alakulnak.
Ezüst réteg
Az ezüst réteg egyesíti a különböző forrásokból származó adatokat. Az adatelemzési és gépi tanulási alkalmazásokra összpontosító üzleti tevékenységnek ez az a része, ahol megkezdheti a hasznos adategységek kurálását. Ezt a folyamatot gyakran a sebességre és az agilitásra összpontosítják.
Az ezüst rétegben a különböző forrásokból származó adatokat is gondosan integrálhatja, így adattárházat hozhat létre a meglévő üzleti folyamatokkal összhangban. Ezek az adatok gyakran harmadik normál űrlapot (3NF) vagy Data Vault-modellt követnek. Az elsődleges és idegen kulcsokra vonatkozó korlátozások megadása lehetővé teszi a végfelhasználók számára a táblakapcsolatok megértését a Unity Catalog használatakor. Az adattárháznak az adatpiacok egyetlen igazságforrásaként kell szolgálnia.
Maga az adattárház íráskori sémaalapú és atomi tulajdonságú. A módosításra van optimalizálva, így gyorsan módosíthatja az adattárházat, hogy megfeleljen az aktuális igényeknek, amikor az üzleti folyamatok megváltoznak vagy fejlődnek.
Arany réteg
Az aranyréteg a bemutató réteg, amely egy vagy több adathelyet tartalmazhat. Az adat martok gyakran olyan dimenziómodellek, amelyek egy adott üzleti perspektívát rögzítő kapcsolódó táblák formájában jelennek meg.
Az aranyréteg emellett részleg- és adatelemzési tesztkörnyezeteket is biztosít, amelyek lehetővé teszik az önkiszolgáló elemzést és az adatelemzést a vállalaton belül. Ha ezeket a tesztkörnyezeteket és saját külön számítási fürtöket biztosít, az üzleti csapatok nem hozhatnak létre másolatokat az adatokról a lakehouse-on kívül.
Következő lépés
Ha többet szeretne megtudni a databricks használatával történő tóház megvalósításának és üzemeltetésének alapelveiről és ajánlott eljárásairól, tekintse meg a jól felépítésű data lakehouse bemutatása című témakört.