Databricks-adatok elérése külső rendszerekkel
Ez a cikk áttekintést nyújt az Azure Databricks által felügyelt és szabályozott adatok más rendszerek számára történő elérhetővé tételéhez szükséges funkciókról és javaslatokról.
Ezek a minták olyan helyzetekre összpontosítanak, amikor a szervezetnek megbízható eszközöket vagy rendszereket kell integrálnia az Azure Databricks-adatokba. Ha útmutatást keres a szervezeten kívüli adatok megosztásához, olvassa el Adatok és AI-eszközök biztonságos megosztása más szervezetek felhasználóival.
Milyen külső hozzáférést támogat az Azure Databricks?
Az Azure Databricks a Unity Catalog használatát javasolja az összes adategység szabályozásához.
Az alábbi táblázat áttekintést nyújt a Unity Catalog-objektumok támogatási formátumairól és hozzáférési mintáiról.
Unity Catalog-objektum | Támogatott formátumok | Hozzáférési minták |
---|---|---|
Felügyelt táblák | Delta Lake, Iceberg | Hitelesítő adatok kiadása, Iceberg REST-katalógus, Delta Sharing |
Külső táblák | Delta-tó | Hitelesítő adatok kiosztása, Iceberg REST-katalógus, Delta Sharing, felhőalapú URI-k |
Külső táblák | CSV, JSON, Avro, Parquet, ORC, text | Felhőalapú URI-k |
Külső kötetek | Minden adattípus | Felhőalapú URI-k |
Jegyzet
Az Iceberg-támogatás az Azure Databricks által a Delta Lake használatával, de az Iceberg-olvasások (UniForm) engedélyezésével írt táblákat ismerteti.
A Unity Catalog objektumokkal kapcsolatos további részletekért tekintse meg a következőket:
Unity Catalog hitelesítő adatok kiosztása
A Unity Catalog hitelesítő adatok szolgáltatása lehetővé teszi a felhasználók számára, hogy külső klienseket konfiguráljanak az Azure Databricks által szabályozott adatokra vonatkozó jogosultságok örökölésére. Lásd: Unity Catalog hitelesítő adatok kiosztása külső rendszer-hozzáféréshez.
Táblázatok olvasása Iceberg-ügyfelekkel
Az Azure Databricks csak olvasási támogatást biztosít az Iceberg kliensek számára a Unity Catalogban regisztrált táblákhoz. A támogatott ügyfelek közé tartozik az Apache Spark, az Apache Flink, a Trino és a Snowflake. Lásd: Databricks-táblák olvasása Iceberg kliensekkel.
Írásvédett táblák megosztása domainek között
A Delta Sharing használatával írásvédett hozzáférést biztosíthat a felügyelt vagy külső Delta-táblákhoz tartományok és támogatott rendszerek között. A Delta-megosztási táblák másolás nélküli olvasását támogató szoftverrendszerek közé tartozik az SAP, az Amperity és az Oracle. Lásd: Adatok és AI-eszközök biztonságos megosztása más szervezetek felhasználóival.
Jegyzet
A Delta Sharing használatával csak olvasási hozzáférést is biztosíthat az ügyfeleknek vagy partnereknek. A Delta Sharing a Databricks Marketplace-használatával megosztott adatokat is visszavesz.
Külső Delta-táblák olvasása és írása
A Delta Lake által támogatott Unity Catalog külső táblákat külső Delta Lake-olvasó- és írói ügyfelekről érheti el a felhőobjektum-tároló URI-kkal és hitelesítő adatokkal.
A Unity Catalog nem szabályozza a közvetlenül a külső rendszerekből származó felhőobjektum-tárolókon végzett olvasásokat és írásokat, ezért további szabályzatokat és hitelesítő adatokat kell konfigurálnia a felhőfiókban, hogy az adatszabályozási szabályzatokat az Azure Databricksen kívül is tiszteletben tartsák.
Jegyzet
Az Azure Databricks dokumentációja a Databricks Runtime-verziók és a platformfunkciók alapján felsorolja a korlátozásokat és a kompatibilitási szempontokat. Meg kell győződnie arról, hogy az ügyfelük milyen olvasói és írói protokollokat, valamint táblafunkciókat támogat. Lásd: delta.io.
Nem Delta Lake táblázatos adatok elérése külső táblákkal
A Unity Catalog külső táblái a Delta Lake-en kívül számos formátumot támogatnak, beleértve a Parquetet, az ORC-t, a CSV-t és a JSON-t. A külső táblák az összes adatfájlt címtárakban tárolják a tábla létrehozása során megadott felhőbeli URI által megadott felhőobjektum-tárolóhelyen. Más rendszerek közvetlenül a felhőobjektum-tárolóból érik el ezeket az adatfájlokat.
A Unity Catalog nem szabályozza a közvetlenül a külső rendszerekből származó felhőobjektum-tárolókon végzett olvasásokat és írásokat, ezért további szabályzatokat és hitelesítő adatokat kell konfigurálnia a felhőfiókban, hogy az adatszabályozási szabályzatokat az Azure Databricksen kívül is tiszteletben tartsák.
A több rendszerből származó külső táblák olvasása és írása konzisztenciaproblémákhoz és adatsérüléshez vezethet, mivel a Delta Lake-től eltérő formátumokra nem nyújtanak tranzakciós garanciát.
Előfordulhat, hogy a Unity Catalog nem veszi fel a Delta Lake-en kívüli formátumok által készített, külső táblákra írt új partíciókat. A Databricks javasolja a MSCK REPAIR TABLE table_name
rendszeres futtatását, hogy a Unity Catalog regisztrálja-e a külső rendszerek által írt összes adatfájlt.
Nem táblázatos adatok elérése külső kötetekkel
A Databricks azt javasolja, hogy külső kötetekkel tárolja a nem táblázatos adatfájlokat, amelyeket az Azure Databricks mellett külső rendszerek olvasnak vagy írnak. Lásd Mik azok a Unity Catalog-kötetek?.
A Unity Catalog nem szabályozza a közvetlenül a külső rendszerekből származó felhőobjektum-tárolókon végzett olvasásokat és írásokat, ezért további szabályzatokat és hitelesítő adatokat kell konfigurálnia a felhőfiókban, hogy az adatszabályozási szabályzatokat az Azure Databricksen kívül is tiszteletben tartsák.
A kötetek API-kat, SDK-kat és egyéb eszközöket biztosítanak a fájlok lekéréséhez és kötetekbe helyezéséhez. Lásd: Fájlok kezelése kötetekben.
Jegyzet
A Delta Sharing lehetővé teszi a kötetek más Azure Databricks-fiókokba való megosztását, de nem integrálható külső rendszerekkel.