Megosztás a következőn keresztül:


Databricks-adatok elérése külső rendszerekkel

Ez a cikk áttekintést nyújt az Azure Databricks által felügyelt és szabályozott adatok más rendszerek számára történő elérhetővé tételéhez szükséges funkciókról és javaslatokról.

Ezek a minták olyan helyzetekre összpontosítanak, amikor a szervezetnek megbízható eszközöket vagy rendszereket kell integrálnia az Azure Databricks-adatokba. Ha útmutatást keres a szervezeten kívüli adatok megosztásához, olvassa el Adatok és AI-eszközök biztonságos megosztása más szervezetek felhasználóival.

Milyen külső hozzáférést támogat az Azure Databricks?

Az Azure Databricks a Unity Catalog használatát javasolja az összes adategység szabályozásához.

Az alábbi táblázat áttekintést nyújt a Unity Catalog-objektumok támogatási formátumairól és hozzáférési mintáiról.

Unity Catalog-objektum Támogatott formátumok Hozzáférési minták
Felügyelt táblák Delta Lake, Iceberg Hitelesítő adatok kiadása, Iceberg REST-katalógus, Delta Sharing
Külső táblák Delta-tó Hitelesítő adatok kiosztása, Iceberg REST-katalógus, Delta Sharing, felhőalapú URI-k
Külső táblák CSV, JSON, Avro, Parquet, ORC, text Felhőalapú URI-k
Külső kötetek Minden adattípus Felhőalapú URI-k

Jegyzet

Az Iceberg-támogatás az Azure Databricks által a Delta Lake használatával, de az Iceberg-olvasások (UniForm) engedélyezésével írt táblákat ismerteti.

A Unity Catalog objektumokkal kapcsolatos további részletekért tekintse meg a következőket:

Unity Catalog hitelesítő adatok kiosztása

A Unity Catalog hitelesítő adatok szolgáltatása lehetővé teszi a felhasználók számára, hogy külső klienseket konfiguráljanak az Azure Databricks által szabályozott adatokra vonatkozó jogosultságok örökölésére. Lásd: Unity Catalog hitelesítő adatok kiosztása külső rendszer-hozzáféréshez.

Táblázatok olvasása Iceberg-ügyfelekkel

Az Azure Databricks csak olvasási támogatást biztosít az Iceberg kliensek számára a Unity Catalogban regisztrált táblákhoz. A támogatott ügyfelek közé tartozik az Apache Spark, az Apache Flink, a Trino és a Snowflake. Lásd: Databricks-táblák olvasása Iceberg kliensekkel.

Írásvédett táblák megosztása domainek között

A Delta Sharing használatával írásvédett hozzáférést biztosíthat a felügyelt vagy külső Delta-táblákhoz tartományok és támogatott rendszerek között. A Delta-megosztási táblák másolás nélküli olvasását támogató szoftverrendszerek közé tartozik az SAP, az Amperity és az Oracle. Lásd: Adatok és AI-eszközök biztonságos megosztása más szervezetek felhasználóival.

Jegyzet

A Delta Sharing használatával csak olvasási hozzáférést is biztosíthat az ügyfeleknek vagy partnereknek. A Delta Sharing a Databricks Marketplace-használatával megosztott adatokat is visszavesz.

Külső Delta-táblák olvasása és írása

A Delta Lake által támogatott Unity Catalog külső táblákat külső Delta Lake-olvasó- és írói ügyfelekről érheti el a felhőobjektum-tároló URI-kkal és hitelesítő adatokkal.

A Unity Catalog nem szabályozza a közvetlenül a külső rendszerekből származó felhőobjektum-tárolókon végzett olvasásokat és írásokat, ezért további szabályzatokat és hitelesítő adatokat kell konfigurálnia a felhőfiókban, hogy az adatszabályozási szabályzatokat az Azure Databricksen kívül is tiszteletben tartsák.

Jegyzet

Az Azure Databricks dokumentációja a Databricks Runtime-verziók és a platformfunkciók alapján felsorolja a korlátozásokat és a kompatibilitási szempontokat. Meg kell győződnie arról, hogy az ügyfelük milyen olvasói és írói protokollokat, valamint táblafunkciókat támogat. Lásd: delta.io.

Nem Delta Lake táblázatos adatok elérése külső táblákkal

A Unity Catalog külső táblái a Delta Lake-en kívül számos formátumot támogatnak, beleértve a Parquetet, az ORC-t, a CSV-t és a JSON-t. A külső táblák az összes adatfájlt címtárakban tárolják a tábla létrehozása során megadott felhőbeli URI által megadott felhőobjektum-tárolóhelyen. Más rendszerek közvetlenül a felhőobjektum-tárolóból érik el ezeket az adatfájlokat.

A Unity Catalog nem szabályozza a közvetlenül a külső rendszerekből származó felhőobjektum-tárolókon végzett olvasásokat és írásokat, ezért további szabályzatokat és hitelesítő adatokat kell konfigurálnia a felhőfiókban, hogy az adatszabályozási szabályzatokat az Azure Databricksen kívül is tiszteletben tartsák.

A több rendszerből származó külső táblák olvasása és írása konzisztenciaproblémákhoz és adatsérüléshez vezethet, mivel a Delta Lake-től eltérő formátumokra nem nyújtanak tranzakciós garanciát.

Előfordulhat, hogy a Unity Catalog nem veszi fel a Delta Lake-en kívüli formátumok által készített, külső táblákra írt új partíciókat. A Databricks javasolja a MSCK REPAIR TABLE table_name rendszeres futtatását, hogy a Unity Catalog regisztrálja-e a külső rendszerek által írt összes adatfájlt.

Nem táblázatos adatok elérése külső kötetekkel

A Databricks azt javasolja, hogy külső kötetekkel tárolja a nem táblázatos adatfájlokat, amelyeket az Azure Databricks mellett külső rendszerek olvasnak vagy írnak. Lásd Mik azok a Unity Catalog-kötetek?.

A Unity Catalog nem szabályozza a közvetlenül a külső rendszerekből származó felhőobjektum-tárolókon végzett olvasásokat és írásokat, ezért további szabályzatokat és hitelesítő adatokat kell konfigurálnia a felhőfiókban, hogy az adatszabályozási szabályzatokat az Azure Databricksen kívül is tiszteletben tartsák.

A kötetek API-kat, SDK-kat és egyéb eszközöket biztosítanak a fájlok lekéréséhez és kötetekbe helyezéséhez. Lásd: Fájlok kezelése kötetekben.

Jegyzet

A Delta Sharing lehetővé teszi a kötetek más Azure Databricks-fiókokba való megosztását, de nem integrálható külső rendszerekkel.