Adatbázis-objektumok az Azure Databricksben
Az Azure Databricks két elsődleges biztonságos objektumot használ az adatok tárolásához és eléréséhez.
- táblázatok szabályozzák a táblázatos adatokhoz való hozzáférést.
- kötetek szabályozzák a nem táblázatos adatokhoz való hozzáférést.
Ez a cikk azt ismerteti, hogyan kapcsolódnak ezek az adatbázis-objektumok az Azure Databricks katalógusaihoz, sémáihoz, nézeteihez és egyéb adatbázis-objektumaihoz. Ez a cikk azt is ismerteti, hogyan működnek az adatbázis-objektumok az általános platformarchitektúra kontextusában.
Mik azok az adatbázis-objektumok az Azure Databricksben?
Az adatbázis-objektumok olyan entitások, amelyek segítenek az adatok rendszerezésében, elérésében és szabályozásában. Az Azure Databricks háromszintű hierarchiát használ az adatbázis-objektumok rendszerezéséhez:
- Katalógus: A legfelső szintű tároló sémákat tartalmaz. Lásd Mik azok a katalógusok az Azure Databricksben?.
- séma vagy adatbázis: Adatobjektumokat tartalmaz. Lásd: Mik azok a sémák az Azure Databricksben?.
- A sémában tárolható adatobjektumok:
- Kötet: a nem táblázatos adatok logikai kötete a felhőobjektum-tárolóban. Lásd Mik azok a Unity Catalog-kötetek?.
- Tábla: sorok és oszlopok szerint rendezett adatgyűjtemény. Lásd Mik azok a táblák és nézetek?.
- megtekintése: mentett lekérdezés egy vagy több táblán. Lásd : Mi az a nézet?.
- függvény: mentett logika, amely skaláris értéket vagy sorkészletet ad vissza. Lásd felhasználó által definiált függvényeket (UDF-eket) a Unity Catalog.
- Modell: MLflow-jal csomagolt gépi tanulási modell. Lásd: Modell életciklusának kezelése a Unity Katalógusban.
A katalógusok egy fiókszinten felügyelt metaadattárban vannak regisztrálva. Csak a rendszergazdák használják közvetlenül a metaadattárat. Lásd: Metaadattárak.
Az Azure Databricks további eszközöket biztosít az adatok kezeléséhez, amelyek mindegyike munkaterületszintű hozzáférés-vezérléssel vagy a Unity Catalog, a Databricks adatszabályozási megoldásával szabályozható:
- Munkaterületszintű adategységek, például jegyzetfüzetek, feladatok és lekérdezések.
- A Unity Catalog biztonságos objektumai, például a tár hitelesítő adatai és a Delta Sharing-megosztások, amelyek elsősorban a tárterülethez való hozzáférést vagy a biztonságos megosztást szabályozzák.
További információ: Adatbázis-objektumok és a munkaterület biztonságos adategységei és Unity Catalog biztonságos hitelesítő adatai és infrastruktúrája.
Adatbázis-objektumokhoz való hozzáférés kezelése a Unity Catalog használatával
Az adatbázis-objektumokhoz a hierarchia bármely szintjén hozzáférést adhat és vonhat vissza, beleértve magát a metaadattárat is. Az objektumhoz való hozzáférés implicit módon ugyanazt a hozzáférést biztosítja az objektum összes gyermekéhez, kivéve, ha a hozzáférés visszavonásra kerül.
Tipikus ANSI SQL-parancsokkal hozzáférést adhat és vonhat vissza az objektumokhoz a Unity Catalogban. Az adatobjektum-jogosultságok felhasználói felületalapú felügyeletéhez a Catalog Explorert is használhatja.
A Unity Catalog objektumainak biztonságossá tételével kapcsolatos további információkért tekintse meg a Unity Catalogbiztonságos objektumait.
Alapértelmezett objektumengedélyek a Unity Katalógusban
Attól függően, hogy a munkaterület hogyan lett létrehozva és engedélyezve a Unity Cataloghoz, előfordulhat, hogy a felhasználók alapértelmezett engedélyekkel rendelkeznek az automatikusan kiépített katalógusokhoz, beleértve a main
katalógust vagy a munkaterület-katalógus (<workspace-name>
). További információ: Alapértelmezett felhasználói jogosultságok.
Ha a munkaterület manuálisan lett engedélyezve a Unity-katalógushoz, az tartalmaz egy alapértelmezett, default
nevű sémát a main
katalógusban, amely a munkaterület összes felhasználója számára elérhető. Ha a munkaterület automatikusan engedélyezve lett a Unity Cataloghoz, és tartalmaz egy <workspace-name>
katalógust, akkor a katalógus tartalmaz egy default
nevű sémát, amely a munkaterület összes felhasználója számára elérhető.
Adatbázis-objektumok és munkaterület biztonságos adategységei
Az Azure Databricks lehetővé teszi, hogy az adatbázis-objektumok mellett több adatelemzési, elemzési, ml- és AI-objektumot is kezeljen. Ezeket az adategységeket nem regisztrálja a Unity Catalogban. Ehelyett ezeket az eszközöket a munkaterület szintjén kezeli a rendszer, és vezérlőlistákat használ az engedélyek szabályozásához. Ezek az adategységek a következők:
- Jegyzetfüzetek
- Irányítópultok
- Feladatok
- Pipelines
- Munkaterület fájljai
- SQL-lekérdezések
- Kísérletek
A legtöbb adategység olyan logikát tartalmaz, amely az adatbázis-objektumokkal együttműködve adatokat kérdez le, függvényeket használ, modelleket regisztrál vagy egyéb gyakori feladatokat végez. A munkaterület adategységek biztonságossá tételéről további információt a Hozzáférés-vezérlési listák című témakörben talál.
Feljegyzés
A számításhoz való hozzáférést hozzáférés-vezérlési listák szabályozzák. A számítást hozzáférési móddal konfigurálhatja, és további felhőbeli engedélyeket adhat hozzá, amelyek szabályozzák, hogy a felhasználók hogyan férhetnek hozzá az adatokhoz. A Databricks ajánlott eljárásként számítási szabályzatok használatát és a fürtlétrehozási jogosultságok korlátozását javasolja. Lásd: Hozzáférési módok.
Unity Catalog biztonságos hitelesítő adatai és infrastruktúrája
A Unity Catalog a metaadattár szintjén regisztrált biztonságos objektumok használatával kezeli a felhőbeli objektumok tárolásához, adatmegosztásához és lekérdezési összevonásához való hozzáférést. Az alábbiakban rövid leírást ad ezeknek a nem adatbiztosítható objektumoknak.
A Unity Catalog csatlakoztatása a felhőbeli objektumtárolóhoz
Új felügyelt tárolóhely létrehozásához vagy külső táblák vagy külső kötetek regisztrálásához meg kell határoznia a tárolási hitelesítő adatokat és a külső helyeket. Ezek a biztonságos objektumok a Unity Katalógusban vannak regisztrálva:
- Tárolási hitelesítő adatok: Hosszú távú felhőalapú hitelesítő adatok, amelyek hozzáférést biztosítanak a felhőbeli tárolókhoz.
- Külső hely: Hivatkozás egy felhőalapú objektum tárolási útvonalára, amely a párosított tároló hitelesítő adataival érhető el.
Lásd: Csatlakozás felhőbeli objektumtárolókhoz és -szolgáltatásokhoz a Unity Cataloghasználatával.
Delta-megosztás
Az Azure Databricks a következő Delta Sharing biztonságos objektumokat regisztrálja a Unity Catalogban:
- megosztása: Táblák, kötetek és egyéb adategységek írásvédett gyűjteménye.
- szolgáltatói: Az adatokat megosztó szervezet vagy entitás. A Databricks-to-Databricks megosztómodellben a szolgáltató a címzett Unity Catalog-metaadattárában van regisztrálva a metaadattár azonosítója által azonosított egyedi entitásként.
- Címzett: Az az entitás, amely megosztásokat fogad egy szolgáltatótól. A Databricks-to-Databricks megosztómodellben a címzettet egyedi metaadattár-azonosítója azonosítja a szolgáltatónak.
Lásd : Mi az a deltamegosztás?.
Lakehouse Federation
A Lakehouse Federation lehetővé teszi, hogy olyan külső katalógusokat hozzon létre, amelyeken keresztül írásvédett hozzáférést biztosít más rendszerekben, például a PostgreSQL-ben, a MySQL-ben és a Snowflake-ben található adatokhoz. Külföldi katalógusok létrehozásához meg kell határoznia a külső rendszerrel való kapcsolatot.
kapcsolat: A Unity-katalógus egy biztosítható objektuma megadja a külső adatbázis-rendszerhez való hozzáférés elérési útját és hitelesítő adatait egy Lakehouse-szövetségi forgatókönyvben.
Lásd : Mi az a Lakehouse Federation?.
Felügyelt kötetek és táblák felügyelt tárolási helyei
Az Azure Databricks táblák és kötetek létrehozásakor választhat, hogy felügyelt vagy külső. A Unity Catalog kezeli a külső táblákhoz és kötetekhez való hozzáférést az Azure Databricksből, de nem szabályozza a mögöttes fájlokat, és nem kezeli teljes mértékben ezeknek a fájloknak a tárolási helyét. A felügyelt táblákat és köteteket viszont teljes mértékben a Unity Catalog felügyeli, és egy felügyelt tárolóhelyen tárolja őket,, amely a sémához van társítva. Lásd a Unity Catalogfelügyelt tárolóhelyének megadását
A Databricks felügyelt köteteket és felügyelt táblákat javasol a legtöbb számítási feladathoz, mivel leegyszerűsítik a konfigurációt, az optimalizálást és a szabályozást.
Unity Catalog vs. korábbi Hive metaadattár
A Databricks a Unity Catalog használatát javasolja az összes adatbázis-objektum regisztrálásához és szabályozásához, de a Hive metaadattár régi támogatását is biztosítja sémák, táblák, nézetek és függvények kezeléséhez.
Ha a Hive metaadattárban regisztrált adatbázis-objektumokkal kommunikál, tekintse meg az örökölt Hive metaadattár adatbázis-objektumait.