Megosztás a következőn keresztül:


A Delta Sharing kimenő költségeinek monitorozása és kezelése (szolgáltatók esetén)

Ez a cikk azokat az eszközöket ismerteti, amelyekkel figyelheti és kezelheti a felhő szállítói kimenő költségeit, amikor adatokat és AI-eszközöket oszt meg a Delta Sharing használatával.

Más adatmegosztási platformoktól eltérően a Delta-megosztás nem igényel adatreplikációt. Ennek a modellnek számos előnye van, de ez azt jelenti, hogy az Ön felhőszolgáltatója kimenő adatforgalmi díjakat számíthat fel, ha Ön adatokat oszt meg felhők vagy régiók között. Ha a Delta Sharing használatával adatokat és AI-eszközöket oszt meg egy régión belül, akkor nincs kimenő költség.

A kimenő forgalom díjainak monitorozásához és kezeléséhez a Databricks a következő lehetőségeket nyújtja:

Adatok replikálás a kimenő költségek elkerülése érdekében

A kimenő forgalom költségeinek elkerülésének egyik módja, hogy a szolgáltató helyi replikákat hoz létre és szinkronizál a megosztott adatokról a címzettek által használt régiókban. Egy másik módszer, hogy a címzettek klónozzák a megosztott adatokat a helyi régiókba aktív lekérdezés céljából, és beállítják a szinkronizálást a megosztott tábla és a helyi klón között. Ez a szakasz számos replikációs mintát tárgyal.

Delta mély klón használata növekményes replikációhoz

A szolgáltatók a DEEP CLONE használatával replikálhatják a Delta-táblákat az általuk megosztott régiók külső helyére. A mély klónok a forrástábla adatait és metaadatait a klón céljába másolják. A mély klónok növekményes frissítéseket is lehetővé tesznek a forrástábla új adatainak azonosításával és a cél ennek megfelelően történő frissítésével.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

A Databricks-feladatokat ütemezheti a céltáblák adatainak növekményes frissítésére a megosztott tábla legutóbbi frissítéseivel a következő paranccsal:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

Lásd: Tábla klónozása az Azure Databricks-en és A Databricks orchesztráció áttekintése.

Változásadatcsatorna (CDF) engedélyezése megosztott táblákon növekményes replikációhoz

Amikor egy táblát megosztanak a CDF-jével, a címzett hozzáférhet a módosításokhoz, és egyesítheti őket a tábla helyi példányával, ahol a felhasználók lekérdezéseket hajtanak végre. Ebben az esetben az adatok címzettjeinek hozzáférése nem lépi át a régiók határait, és a kimenő forgalom csak egy helyi példány frissítésére korlátozódik. Ha a címzett a Databricksben van, egy Databricks-munkafolyamat-feladat használatával propagálja a módosításokat egy helyi replikára.

Ha meg szeretne osztani egy táblát a CDF-fel, először engedélyeznie kell a CDF-et a táblán, majd meg kell osztania WITH HISTORY.

További információ a CDF használatáról: Delta Lake-változási adatcsatorna használata az Azure Databricksben és Táblák hozzáadása egy megosztásba.

Cloudflare R2-replikák használata vagy tároló áttelepítése R2-re

A Cloudflare R2 objektumtároló nem jár kimenő költségekkel. Az R2-be megosztott adatok replikálása vagy migrálása lehetővé teszi az adatok megosztását a Delta Sharing használatával kimenő díjak nélkül. Ez azonban nem vonatkozik a nézetmegosztásra, amely esetében továbbra is felmerülhetnek kimenő költségek. Ez a szakasz azt ismerteti, hogyan replikálhat adatokat R2-helyre, és hogyan engedélyezheti a forrástáblák növekményes frissítéseit.

Követelmények

  • A Databricks-munkaterület engedélyezve van a Unity Cataloghoz.
  • Databricks Runtime 14.3 vagy újabb, vagy SQL Warehouse 2024.15 vagy újabb.
  • Cloudflare-fiók. Lásd: https://dash.cloudflare.com/sign-up.
  • Cloudflare R2 rendszergazdai szerepkör. Tekintse meg a Cloudflare-szerepkörök dokumentációját.
  • CREATE STORAGE CREDENTIAL privilégium a munkaterülethez csatolt Unity Catalog metaadattárban. A fiókadminisztrátor és a metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.
  • CREATE EXTERNAL LOCATION jogosultság hozzárendelése mind a metaadattárhoz, mind a külső helyen hivatkozott tárolási hitelesítő adathoz. A metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.
  • CREATE MANAGED STORAGE külső helyen lévő jogosultság.
  • CREATE CATALOG a metaadattárban. A metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.

A Cloudflare R2 korlátozásai

A szolgáltatók nem oszthatnak meg olyan R2-táblákat, amelyek folyékony fürtözést és V2 ellenőrzőpontot használnak.

R2-tároló csatlakoztatása külső helyként az Azure Databricks-ben

  1. Hozzon létre egy Cloudflare R2-vödröt.

    Lásd R2-tároló konfigurálása.

  2. Hozzon létre egy tárolási hitelesítő adatot a Unity Katalógusban, amely hozzáférést biztosít az R2-gyűjtőhöz.

    Lásd : A tároló hitelesítő adatainak létrehozása.

  3. A tárolási hitelesítő adatok használatával hozzon létre egy külső helyet a Unity Katalógusban.

    Lásd: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.

Új katalógus létrehozása a külső hely használatával

Hozzon létre egy katalógust, amely az új külső helyet használja felügyelt tárolóhelyként.

Lásd: Katalógusok létrehozása.

A katalógus létrehozásakor tegye a következőket:

Katalóguskezelő

  • Válasszon egy Standard katalógustípust.
  • A Tárolási helyalatt válassza a Tárolási hely kiválasztása lehetőséget, és adja meg a külső helyként meghatározott R2 vödör elérési útját. Például: r2://mybucket@my-account-id.r2.cloudflarestorage.com

SQL

Használja az R2-gyűjtő elérési útját, amelyet külső helyként definiált. Példa:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

Klónozza azokat az adatokat, amelyeket meg szeretne osztani egy táblával az új katalógusban

A DEEP CLONE használatával replikálhatja az Azure Data Lake Storage Gen2-ben lévő táblákat az R2-t használó új katalógusba a felügyelt tároláshoz. A mély klónok a forrástábla adatait és metaadatait a klón célhelyére másolják. A mély klónok növekményes frissítéseket is lehetővé tesznek a forrástábla új adatainak azonosításával és a cél ennek megfelelően történő frissítésével.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

A Databricks-feladatokat úgy ütemezheti, hogy a céltábla adatait növekményesen frissítse a forrástábla legutóbbi frissítéseivel, a következő paranccsal:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

Lásd: Tábla klónozása az Azure Databricks-on és A Databricks orkesztráció áttekintése.

Az új tábla megosztása

A megosztás létrehozásakor vegye fel az R2-ben tárolt új katalógusban lévő táblákat. A folyamat ugyanaz, mint bármely tábla hozzáadása egy megosztáshoz.

Lásd: Megosztások létrehozása és kezelése a Delta Sharing esetében.