Megosztás a következőn keresztül:


Csatlakozás felhőalapú objektumtárhoz és -szolgáltatásokhoz a Unity Catalog használatával

Ez a cikk áttekintést nyújt az adatok Unity Catalog használatával történő használatához szükséges felhőalapú tárolási kapcsolatokról, valamint arról, hogy a Unity Catalog hogyan szabályozza a felhőbeli tárolókhoz és a külső felhőszolgáltatásokhoz való hozzáférést.

Feljegyzés

Ha a munkaterület 2023. november 9. előtt lett létrehozva, lehet, hogy a Unity Catalog nem lett engedélyezve. A fiókadminisztrátornak engedélyeznie kell a Unity Katalógust a munkaterületen. Lásd: Munkaterület engedélyezése a Unity Cataloghoz.

Hogyan használja a Unity Catalog a felhőtárhelyet?

A Databricks azt javasolja, hogy a Unity Catalog használatával kezelje a felhőobjektum-tárolóban tárolt összes adathoz való hozzáférést. A Unity Catalog eszközkészletet biztosít a felhőobjektum-tároló biztonságos kapcsolatainak konfigurálásához. Ezek a kapcsolatok hozzáférést biztosítanak a következő műveletek végrehajtásához:

  • Nyers adatok betöltése egy tóházba.
  • Felügyelt táblák és felügyelt kötetek létrehozása és olvasása strukturálatlan adatokból a Unity Katalógus által felügyelt felhőbeli tárolóban.
  • Regisztráljon vagy hozzon létre táblázatos adatokat és strukturálatlan adatokat tartalmazó külső köteteket tartalmazó külső táblákat a felhőszolgáltatóval felügyelt felhőtárhelyen.
  • Strukturálatlan adatok olvasása és írása (Unity Catalog-kötetekként).

Pontosabban a Unity Catalog két elsődleges módon használja a felhőbeli tárolást:

  • A Databricksben létrehozott felügyelt táblák és felügyelt kötetek (strukturálatlan, nem táblázatos adatok) alapértelmezett (vagy "felügyelt") tárolási helyei. Ezek a felügyelt tárolóhelyek a metaadattár, a katalógus vagy a séma szintjén határozhatók meg. Felügyelt tárolóhelyeket hoz létre a felhőszolgáltatóban, de életciklusukat teljes mértékben a Unity Catalog felügyeli.
  • Tárolási helyek, ahol külső táblákat és köteteket tárolnak. Ezek olyan táblák és kötetek, amelyek hozzáférését az Azure Databricksből a Unity Catalog kezeli, de az adatok életciklusa és a fájlelrendezés a felhőszolgáltató és más adatplatformok használatával történik. Általában külső táblák használatával regisztrál nagy mennyiségű meglévő adatot az Azure Databricksben, vagy ha írási hozzáférést is igényel az adatokhoz az Azure Databricksen kívüli eszközökkel.

További információ a felügyelt és a külső táblákról és kötetekről: Mi az a tábla? és Mik azok a Unity Catalog-kötetek?.

Figyelmeztetés

Ne adjon a végfelhasználóknak társzintű hozzáférést a Unity Catalog által felügyelt táblákhoz vagy kötetekhez. Ez veszélyezteti az adatbiztonságot és a szabályozást.

A felhasználók, szolgáltatásfiókok vagy felügyelt identitások közvetlen hozzáférésének biztosítása a Unity Catalog által szabályozott adatokat tartalmazó Azure Data Lake Storage Gen2-tárolókhoz lehetővé teszi a Unity Catalog megkerülését. Ez az adatok kitettségét eredményezi a túlzott engedélyeknek, adatkiszivárgásnak és jogosulatlan hozzáférésnek, miközben bonyolultabbá teszi az auditálást és növeli a felügyeleti többletterhelést.

A Unity Catalog által felügyelt táblák nem támogatják a közvetlen tárterület-hozzáférést.

Mely felhőtárhely-szolgáltatók támogatottak?

Az Azure Databricks az Azure Data Lake Storage Gen2-tárolókat és a Cloudflare R2-gyűjtőket is támogatja felhőalapú tárolóhelyként a Unity Catalogban regisztrált adatok és AI-eszközök számára. Az R2 elsősorban olyan használati esetekre szolgál, amelyekben el szeretné kerülni az adatforgalom díjait, például a felhők és régiók közötti deltamegosztást. További információ: Cloudflare R2-replikák használata vagy tároló áttelepítése R2-re.

Hogyan szabályozza a Unity Catalog a felhőbeli tárolókhoz való hozzáférést?

A táblákat és köteteket tartalmazó mögöttes felhőalapú tárolóhoz való hozzáférés kezeléséhez a Unity Catalog egy külső helynek nevezett biztonságos objektumot használ, amely meghatározza a felhőbeli tárolóhely elérési útját és a hely eléréséhez szükséges hitelesítő adatokat. Ezek a hitelesítő adatok viszont egy Unity Catalog biztonságos objektumban, úgynevezett tárolási hitelesítő adatokban vannak definiálva. A Unity Catalogban a külső helyek biztonságossá tételéhez való hozzáférés engedélyezésével és visszavonásával szabályozhatja a felhőbeli tárolóhelyen lévő adatokhoz való hozzáférést. A Unity Catalogban a tároló hitelesítő adatokhoz való hozzáférés biztosításával és visszavonásával szabályozhatja a külső helyobjektumok létrehozását.

További részletekért lásd : A felhőbeli tárolókhoz való hozzáférés kezelése a Unity Catalog használatával.

Elérési útalapú hozzáférés a felhőbeli tárolóhoz

Bár a Unity Catalog támogatja a külső táblákhoz és külső kötetekhez való elérési utat a felhőalapú tárolási URI-k használatával, a Databricks azt javasolja, hogy a felhasználók olvassák és írják meg az összes Unity Catalog-táblát táblanevek használatával, és férjenek hozzá a kötetekben lévő adatokhoz elérési utak használatával /Volumes . A kötetek olyan biztonságos objektumok, amelyeket a legtöbb Azure Databricks-felhasználónak közvetlenül kell használnia a nem táblázatos adatokkal való közvetlen interakcióhoz a felhőobjektum-tárolóban. Lásd: Mik azok a Unity Catalog-kötetek?.

Figyelmeztetés

Ha nem Databricks-ügyféllel frissíti a külső tábla metaadatait, vagy útvonalalapú hozzáférést használ a Databricksből, akkor a metaadatok nem szinkronizálják automatikusan az állapotot a Unity Katalógussal. A Databricks nem javasolja az ilyen metaadat-frissítéseket, de ha mégis végrehajt egyet, akkor a MSCK REPAIR TABLE <table-name> SYNC METADATA-t kell futtatnia a séma frissítéséhez a Unity Catalogban. Lásd REPAIR TABLE.

Ajánlott eljárások a felhőbeli tároláshoz a Unity Catalog használatával

Az Azure Databricks megköveteli, hogy az Azure Data Lake Storage Gen2-t használja Azure Storage-szolgáltatásként az Azure Databricksben a Unity Catalog szabályozásával feldolgozott adatokhoz. Az Azure Data Lake Storage Gen2 lehetővé teszi a tárolási és számítási költségek elkülönítését, valamint a Unity Catalog által biztosított részletes hozzáférés-vezérlés előnyeit. Ha az adatok a OneLake-ben (a Microsoft Fabric data lake-ben) vannak tárolva, és a Databricks dolgozza fel (a Unity Catalog megkerülésével), a csomagban tárolt tárolási és számítási költségekkel kell számolnia. Ez az olvasások esetében körülbelül 3x magasabb, az adatok tárolásához, olvasásához és írásához használt Azure Data Lake Storage Gen2-hez képest pedig 1,6-kal magasabb költségekhez vezethet. Az Azure Blob Storage nem kompatibilis a Unity Catalog szolgáltatással is.

Jellemző Azure Blob tárolás Azure Data Lake Storage Gen2 OneLake
A Unity Catalog támogatja X X
További szövetkapacitás-vásárlást igényel X X
Támogatott műveletek külső motorokról
  • Olvas
  • Ír
  • Olvas
  • Ír
  • Olvasás (Az olvasási költségek 3-szor magasabbak az Azure Data Lake Storage Gen2-ből való adatolvasáshoz képest).
  • Az írások nem támogatottak.

További részletekért tekintse meg a OneLake dokumentációját.
Telepítés Regionális Regionális Globális
Hitelesítés Entra ID közös hozzáférésű jogosultságkód Entra ID közös hozzáférésű jogosultságkód Entra-azonosító
Tárolási események X
Helyreállítható törlés
Hozzáférés-vezérlés RBAC RBAC, ABAC, ACL RBAC (csak tábla/mappa, a parancsikon ACL-ek nem támogatottak)
Titkosítási kulcsok X
Hozzáférési szintek Online archívum Forró, hűvös, hideg, archívum Csak forró

Hogyan szabályozza a Unity Catalog a más felhőszolgáltatásokhoz való hozzáférést?

A Unity Katalógus a nem tárolási szolgáltatásokhoz való hozzáférést egy szolgáltatás hitelesítő adatainak nevű biztonságos objektummal szabályozza. A szolgáltatás hitelesítő adatai olyan hosszú távú felhőalapú hitelesítő adatokat foglalnak össze, amelyek hozzáférést biztosítanak egy külső szolgáltatáshoz, amelyhez a felhasználóknak csatlakozniuk kell az Azure Databricksből.

A szolgáltatás hitelesítő adatai nem a Unity Katalógus által felügyelt tárolóhelyként vagy külső tárolóhelyként használt felhőtárhelyhez való hozzáférés szabályozására szolgálnak. Ezekben a használati esetekben használjon tárolási hitelesítő adatot, ahogyan a Hogyan szabályozza a Unity Catalog a felhőbeli tárolókhoz való hozzáférést? szakasz leírja.

Részletes információ:

Következő lépések

Ha még csak most kezdi el rendszergazdaként a Unity Catalog használatát, tekintse meg a következőt:

Ha Ön új felhasználó, és a munkaterülete már engedélyezve van a Unity Catalogban, tekintse meg a következőt:

A felhőbeli tárolókhoz való hozzáférés kezelésével kapcsolatos további információkért lásd:

A felhőszolgáltatásokhoz való hozzáférés kezelésével kapcsolatos további információkért lásd: