Condividi tramite


Connettersi all'archiviazione di oggetti cloud e ai servizi usando il catalogo unity

Questo articolo offre una panoramica delle connessioni di archiviazione cloud necessarie per lavorare con i dati usando Unity Catalog, oltre a informazioni sul modo in cui Il catalogo unity regola l'accesso all'archiviazione cloud e ai servizi cloud esterni.

Nota

Se l'area di lavoro è stata creata prima del 9 novembre 2023, potrebbe non essere abilitata per il catalogo Unity. Un amministratore dell'account deve abilitare il catalogo Unity per l'area di lavoro. Vedere Abilitare un'area di lavoro per il Catalogo Unity.

In che modo Unity Catalog usa l'archiviazione cloud?

Databricks consiglia di usare Unity Catalog per gestire l'accesso a tutti i dati archiviati nell'archiviazione di oggetti cloud. Il catalogo Unity offre una suite di strumenti per configurare connessioni sicure all'archiviazione di oggetti cloud. Queste connessioni forniscono l'accesso per completare le seguenti azioni:

  • Inserire dati non elaborati in un lakehouse.
  • Creare e leggere tabelle gestite e volumi gestiti di dati non strutturati nell'archiviazione cloud gestita da Unity Catalog.
  • Registrare o creare tabelle esterne contenenti dati tabulari e volumi esterni contenenti dati non strutturati nell'archiviazione cloud gestita tramite il provider di servizi cloud.
  • Leggere e scrivere dati non strutturati (come volumi del catalogo Unity).

Per essere più specifico, Il catalogo di Unity usa l'archiviazione cloud in due modi principali:

  • Percorsi di archiviazione predefiniti (o "gestiti") per tabelle gestite e volumi gestiti (dati non strutturati e non tabulari) creati in Databricks. Questi percorsi di archiviazione gestiti possono essere definiti a livello di metastore, catalogo o schema. È possibile creare posizioni di archiviazione gestite nel provider di servizi cloud, ma il loro ciclo di vita è completamente gestito dal catalogo unity.
  • Percorsi di archiviazione in cui vengono archiviati tabelle e volumi esterni. Si tratta di tabelle e volumi il cui accesso da Azure Databricks è gestito da Unity Catalog, ma il cui ciclo di vita dei dati e il layout dei file vengono gestiti usando il provider di servizi cloud e altre piattaforme dati. In genere si usano tabelle esterne per registrare grandi quantità di dati esistenti in Azure Databricks o se è necessario anche l'accesso in scrittura ai dati usando strumenti esterni ad Azure Databricks.

Per altre informazioni su tabelle e volumi gestiti e esterni, vedere Che cos'è una tabella? e Che cosa sono i volumi del catalogo Unity?.

Avviso

Non concedere agli utenti finali l'accesso a livello di archiviazione a tabelle o volumi gestiti del catalogo Unity. Ciò compromette la sicurezza e governance dei dati.

La concessione diretta di utenti, entità servizio o identità gestite ai contenitori di Azure Data Lake Storage Gen2 che contengono dati regolati da Unity Catalog ignora Catalogo Unity. Ciò espone i dati all'over-permissioning, all'esfiltrazione e all'accesso non autorizzato, complicando il controllo e aumentando il sovraccarico di gestione.

L'accesso diretto alle risorse di archiviazione non è supportato per le tabelle gestite di Unity Catalog.

Quali provider di archiviazione cloud sono supportati?

Azure Databricks supporta sia i contenitori di Azure Data Lake Storage Gen2 che i bucket Cloudflare R2 come posizioni di archiviazione cloud per i dati e gli asset di intelligenza artificiale registrati nel catalogo Unity. R2 è destinato principalmente ai casi d'uso in cui si vogliono evitare commissioni di trasferimento dati, ad esempio la condivisione Delta tra cloud e aree. Per altre informazioni, si veda Usare repliche Cloudflare R2 o eseguire la migrazione dell'archiviazione a R2.

In che modo Unity Catalog gestisce l'accesso all'archiviazione cloud?

Per gestire l'accesso all'archiviazione cloud sottostante che contiene tabelle e volumi, Unity Catalog usa un oggetto a protezione diretta denominato posizione esterna, che definisce un percorso di archiviazione cloud e le credenziali necessarie per accedere a tale posizione. Tali credenziali sono, a loro volta, definite in un oggetto a protezione diretta del catalogo Unity denominato credenziale di archiviazione. Concedendo e revocando l'accesso alle sicurezze delle posizioni esterne in Unity Catalog, si controlla l'accesso ai dati nella posizione di archiviazione cloud. Concedendo e revocando l'accesso agli elementi sicuri delle credenziali di archiviazione in Unity Catalog, è possibile controllare la possibilità di creare oggetti di posizione esterna.

Per maggiori dettagli, vedere Gestire l'accesso all'archiviazione cloud utilizzando Unity Catalog.

Accesso basato sul percorso alla memoria cloud

Anche se Unity Catalog supporta l'accesso alle tabelle esterne e ai volumi esterni tramite percorsi usando gli URI di archiviazione cloud, Databricks consiglia agli utenti di leggere e scrivere tutte le tabelle del Catalogo Unity tramite i nomi di tabella e di accedere ai dati nei volumi tramite i percorsi /Volumes. I volumi sono l'oggetto a protezione diretta che la maggior parte degli utenti di Azure Databricks deve usare per interagire direttamente con dati non tabulari nell'archiviazione di oggetti cloud. Vedere Che cosa sono i volumi del catalogo Unity?.

Avviso

Se si aggiornano i metadati della tabella esterna usando un client diverso da Databricks o l'accesso basato su percorso all'interno di Databricks, quei metadati non sincronizzano automaticamente lo stato con Unity Catalog. Databricks sconsiglia di eseguire tali aggiornamenti dei metadati, ma se ne esegui uno, è necessario eseguire MSCK REPAIR TABLE <table-name> SYNC METADATA per aggiornare lo schema in Unity Catalog. Vedi REPAIR TABLE.

Procedure consigliate per l'archiviazione cloud con il catalogo Unity

Azure Databricks richiede l'uso di Azure Data Lake Storage Gen2 come servizio di archiviazione di Azure per i dati elaborati in Azure Databricks usando la governance del catalogo Unity. Azure Data Lake Storage Gen2 consente di separare i costi di archiviazione e calcolo e sfruttare il controllo di accesso con granularità fine fornito dal catalogo Unity. Se i dati vengono archiviati in OneLake (data lake di Microsoft Fabric) ed elaborati da Databricks (ignorando il catalogo Unity), verranno addebitati i costi di archiviazione e calcolo in bundle. Ciò può comportare costi di circa 3 volte superiori per le operazioni di lettura e 1,6 volte superiori per le operazioni di scrittura rispetto ad Azure Data Lake Storage Gen2 per l'archiviazione, la lettura e la scrittura di dati. Anche Azure Blob Storage è incompatibile con Unity Catalog.

Funzionalità Archiviazione BLOB di Azure Azure Data Lake Storage Gen2 OneLake
Supportato dal catalogo Unity X X
Richiede un acquisto aggiuntivo di capacità del Fabric X X
Operazioni supportate dai motori esterni
  • Leggere
  • Scrivere
  • Leggere
  • Scrivere
  • Lettura (le letture comportano 3 volte il costo rispetto alla lettura dei dati da Azure Data Lake Storage Gen2).
  • Le operazioni di scrittura non sono supportate.

Per informazioni dettagliate, si veda la documentazione OneLake.
Distribuzione Regionale Regionale Generale
Autenticazione ID Entra firma di accesso condiviso ID Entra firma di accesso condiviso Entra ID
Eventi di archiviazione X
Elimina temporaneamente
Controllo di accesso RBAC Controllo degli accessi in base al ruolo (RBAC), Controllo degli accessi basato sugli attributi (ABAC), Lista di controllo degli accessi (ACL) RBAC (solo tabella/cartella, ACL di collegamento rapido non supportati)
Chiavi di crittografia X
Livelli di accesso Archivio online Caldo, fresco, freddo, archivio Solo articoli di tendenza

In che modo Unity Catalog gestisce l'accesso ad altri servizi cloud?

Il catalogo unity regola l'accesso ai servizi non di archiviazione usando un oggetto a protezione diretta denominato credenziale del servizio. Una credenziale del servizio incapsula una credenziale cloud a lungo termine che fornisce l'accesso a un servizio esterno a cui gli utenti devono connettersi da Azure Databricks.

Le credenziali del servizio non sono destinate alla regolamentazione dell'accesso all'archiviazione cloud utilizzata come posizione di archiviazione gestita di Unity Catalog o come percorso di archiviazione esterna. Per questi casi d'uso, usare una credenziale di archiviazione, come descritto in How does Unity Catalog govern access to cloud storage?.

Per informazioni dettagliate, vedere:

Passaggi successivi

Per iniziare a usare Unity Catalog come amministratore, vedere:

Sei un nuovo utente e l'area di lavoro è già abilitata per Unity Catalog, consulta:

Per altre informazioni su come gestire l'accesso all'archiviazione cloud, vedere:

Per altre informazioni su come gestire l'accesso ai servizi cloud, vedere: