Sdílet prostřednictvím


Připojení k cloudovému úložišti objektů a službám pomocí katalogu Unity

Tento článek obsahuje přehled připojení cloudového úložiště, která jsou potřebná pro práci s daty pomocí katalogu Unity, a informace o tom, jak katalog Unity řídí přístup ke cloudovému úložišti a externím cloudovým službám.

Poznámka:

Pokud byl váš pracovní prostor vytvořen před 9. listopadem 2023, nemusí být povolený pro katalog Unity. Správce účtu musí pro váš pracovní prostor povolit katalog Unity. Vizte Povolení pracovního prostoru pro katalog Unity.

Jak katalog Unity používá cloudové úložiště?

Databricks doporučuje ke správě přístupu ke všem datům uloženým v cloudovém úložišti objektů pomocí katalogu Unity. Unity Catalog poskytuje sadu nástrojů pro konfiguraci zabezpečených připojení ke cloudovému úložišti objektů. Tato připojení poskytují přístup k provedení následujících akcí:

  • Ingestování nezpracovaných dat do jezera
  • Vytváření a čtení spravovaných tabulek a spravovaných svazků nestrukturovaných dat v cloudovém úložišti spravovaném v Katalogu Unity
  • Zaregistrujte nebo vytvořte externí tabulky obsahující tabulková data a externí svazky obsahující nestrukturovaná data v cloudovém úložišti spravovaném pomocí poskytovatele cloudu.
  • Čtení a zápis nestrukturovaných dat (jako svazky katalogu Unity)

Katalog Unity používá cloudové úložiště dvěma primárními způsoby:

  • Výchozí (nebo "spravovaná") umístění úložiště pro spravované tabulky a spravované svazky (nestrukturovaná, ne tabulková data), která vytvoříte v Databricks. Tato spravovaná umístění úložiště je možné definovat na úrovni metastoru, katalogu nebo schématu. Ve svém poskytovateli cloudu vytvoříte spravovaná umístění úložiště, ale správu jejich životního cyklu plně zajišťuje Unity Catalog.
  • Umístění úložiště, kde jsou uložené externí tabulky a svazky. Jedná se o tabulky a svazky, jejichž přístup z Azure Databricks spravuje Katalog Unity, ale jejichž životní cyklus dat a rozložení souborů se spravují pomocí poskytovatele cloudu a dalších datových platforem. K registraci velkých objemů stávajících dat v Azure Databricks obvykle používáte externí tabulky nebo pokud potřebujete také přístup k zápisu k datům pomocí nástrojů mimo Azure Databricks.

Další informace o spravovaných a externích tabulkách a svazcích najdete v tématu Co je tabulka? a Co jsou svazky katalogu Unity?.

Varování

Neudělujte koncovým uživatelům přístup na úrovni úložiště ke spravovaným tabulkám nebo svazkům katalogu Unity. To ohrožuje zabezpečení a zásady správného řízení dat.

Udělení uživatelům, instančním objektům nebo spravovaným identitám přímý přístup ke kontejnerům Azure Data Lake Storage Gen2, které obsahují data spravovaná Unity Catalogem obchází Unity Catalog. Tím se data zpřístupňují nadměrnému oprávnění, exfiltraci a neoprávněnému přístupu a zároveň komplikují auditování a zvyšují režijní náklady na správu.

Přímý přístup k úložišti není podporován pro spravované tabulky katalogu Unity.

Kteří poskytovatelé cloudového úložiště jsou podporovaní?

Azure Databricks podporuje kontejnery Azure Data Lake Storage Gen2 i kontejnery Cloudflare R2 jako umístění cloudového úložiště pro data a prostředky AI zaregistrované v katalogu Unity. R2 je určen především pro případy použití, ve kterých se chcete vyhnout poplatkům za odchozí přenos dat, jako je Delta Sharing mezi cloudy a oblastmi. Další informace najdete v tématu Použití replik Cloudflare R2 nebo migrace úložiště na R2.

Jak katalog Unity řídí přístup ke cloudovému úložišti?

Ke správě přístupu k podkladovému cloudovému úložišti, které obsahuje tabulky a svazky, používá Katalog Unity zabezpečitelný objekt označovaný jako externí umístění, který definuje cestu k umístění cloudového úložiště a přihlašovací údaje potřebné pro přístup k němuž. Tyto oprávnění úložiště jsou následně definovány v zabezpečitelném objektu katalogu Unity nazývaném oprávnění úložiště. Udělením a odvoláním přístupu k externím umístěním zabezpečení v rámci katalogu Unity řídíte přístup k datům v umístění cloudového úložiště. Udělením a odvoláním přístupu k přihlašovacím údajům úložiště v katalogu Unity řídíte možnost vytvářet objekty externího umístění.

Podrobnosti najdete v tématu Správa přístupu ke cloudovému úložišti pomocí katalogu Unity.

Přístup založený na cestě ke cloudovému úložišti

Ačkoli Katalog Unity podporuje přístup k externím tabulkám a externím svazkům pomocí identifikátorů URI cloudového úložiště, Databricks doporučuje, aby uživatelé četli a zapisovali všechny tabulky Katalogu Unity pomocí názvů tabulek a přistupovali k datům ve svazcích pomocí /Volumes cest. Svazky jsou zabezpečitelný objekt, který by většina uživatelů Azure Databricks měla použít k přímé interakci s ne tabulkovými daty v cloudovém úložišti objektů. Podívejte se na Co jsou to svazky katalogu Unity?

Varování

Pokud aktualizujete metadata externí tabulky pomocí klienta jiného než Databricks nebo interním přístupem v rámci Databricks, tato metadata automaticky nesynchronizují stav s Unity Catalog. Databricks nedoporučuje takové aktualizace metadat, ale pokud je přesto provedete, musíte spustit MSCK REPAIR TABLE <table-name> SYNC METADATA, abyste schéma v katalogu Unity aktualizovali. Viz REPAIR TABLE.

Osvědčené postupy pro cloudové úložiště s katalogem Unity

Azure Databricks vyžaduje použití Azure Data Lake Storage Gen2 jako služby úložiště Azure pro data zpracovávaná v Azure Databricks pomocí zásad správného řízení katalogu Unity. Azure Data Lake Storage Gen2 umožňuje oddělit náklady na úložiště a výpočetní prostředky a využívat jemně odstupňované řízení přístupu poskytované katalogem Unity. Pokud jsou data uložena v OneLake (Microsoft Fabric Data Lake) a zpracovávána prostřednictvím Databricks (přeskočením katalogu Unity), budou vám účtovány náklady na úložiště a výpočetní prostředky. To může vést k nákladům, které jsou přibližně 3x vyšší pro čtení a 1,6x vyšší pro zápisy v porovnání s Azure Data Lake Storage Gen2 pro ukládání, čtení a zápis dat. Služba Azure Blob Storage je také nekompatibilní s katalogem Unity.

Funkce Azure Blob Storage (Úložiště Azure pro objekty typu blob) Azure Data Lake Storage Gen2 OneLake
Podporováno katalogem Unity X X
Vyžaduje další nákup kapacity Fabric. X X
Podporované operace z externích systémů
  • Číst
  • Pište
  • Číst
  • Pište
  • Čtení (při čtení se náklady zvyšují 3x oproti čtení dat z Azure Data Lake Storage Gen2).
  • Zápisy nejsou podporovány.

Podrobnosti najdete v dokumentaci k OneLake.
Nasazení Regionální Regionální Globální
Ověřování Sdílený přístupový podpis Entra ID Sdílený přístupový podpis Entra ID Entra ID
Události úložiště X
Měkké odstranění
Řízení přístupu RBAC RBAC, ABAC, ACL RBAC (pouze tabulka nebo složka, zkratky ACL nejsou podporovány)
Šifrovací klíče X
Úrovně přístupu Online archiv Horká, chladná, studená, archiv Pouze horká

Jak katalog Unity řídí přístup k jiným cloudovým službám?

Katalog Unity řídí přístup ke službám, které nejsou úložištěm, pomocí zabezpečitelného objektu označovaného jako přihlašovací údaje služby. Přihlašovací údaje služby zapouzdřují dlouhodobé cloudové přihlašovací údaje, které poskytují přístup k externí službě, ke které se uživatelé potřebují připojit z Azure Databricks.

Přihlašovací údaje služby nejsou určené pro řízení přístupu ke cloudovému úložišti, které se používá jako umístění spravovaného úložiště katalogu Unity nebo externího úložiště. Pro tyto případy použití použijte pověření pro úložiště, jak je popsáno v části Jak katalog Unity řídí přístup ke cloudovému úložišti?

Podrobnosti najdete tady:

Další kroky

Pokud právě začínáte s Katalogem Unity jako správcem, podívejte se na:

Pokud jste novým uživatelem a váš pracovní prostor už je připravený pro katalog Unity, přečtěte si téma:

Další informace o správě přístupu ke cloudovému úložišti najdete tady:

Další informace o správě přístupu ke cloudovým službám najdete tady: