A Delta Sharing kimenő költségeinek monitorozása és kezelése (szolgáltatók esetén)
Ez a cikk azokat az eszközöket ismerteti, amelyekkel figyelheti és kezelheti a felhő szállítói kimenő költségeit, amikor adatokat és AI-eszközöket oszt meg a Delta Sharing használatával.
Más adatmegosztási platformoktól eltérően a Delta-megosztás nem igényel adatreplikációt. Ennek a modellnek számos előnye van, de ez azt jelenti, hogy az Ön felhőszolgáltatója kimenő adatforgalmi díjakat számíthat fel, ha Ön adatokat oszt meg felhők vagy régiók között. Ha a Delta Sharing használatával adatokat és AI-eszközöket oszt meg egy régión belül, akkor nincs kimenő költség.
A kimenő forgalom díjainak monitorozásához és kezeléséhez a Databricks a következő lehetőségeket nyújtja:
- Utasítások az adatok régiók közötti replikálására a forgalmi díjak elkerülése érdekében.
- A Cloudflare R2 Storage támogatása a kimenő díjak elkerülése érdekében.
Adatok replikálás a kimenő költségek elkerülése érdekében
A kimenő forgalom költségeinek elkerülésének egyik módja, hogy a szolgáltató helyi replikákat hoz létre és szinkronizál a megosztott adatokról a címzettek által használt régiókban. Egy másik módszer, hogy a címzettek klónozzák a megosztott adatokat a helyi régiókba aktív lekérdezés céljából, és beállítják a szinkronizálást a megosztott tábla és a helyi klón között. Ez a szakasz számos replikációs mintát tárgyal.
Delta mély klón használata növekményes replikációhoz
A szolgáltatók a DEEP CLONE
használatával replikálhatják a Delta-táblákat az általuk megosztott régiók külső helyére. A mély klónok a forrástábla adatait és metaadatait a klón céljába másolják. A mély klónok növekményes frissítéseket is lehetővé tesznek a forrástábla új adatainak azonosításával és a cél ennek megfelelően történő frissítésével.
CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
[TBLPROPERTIES clause] [LOCATION path];
A Databricks-feladatokat ütemezheti a céltáblák adatainak növekményes frissítésére a megosztott tábla legutóbbi frissítéseivel a következő paranccsal:
CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;
Lásd: Tábla klónozása az Azure Databricks-en és A Databricks orchesztráció áttekintése.
Változásadatcsatorna (CDF) engedélyezése megosztott táblákon növekményes replikációhoz
Amikor egy táblát megosztanak a CDF-jével, a címzett hozzáférhet a módosításokhoz, és egyesítheti őket a tábla helyi példányával, ahol a felhasználók lekérdezéseket hajtanak végre. Ebben az esetben az adatok címzettjeinek hozzáférése nem lépi át a régiók határait, és a kimenő forgalom csak egy helyi példány frissítésére korlátozódik. Ha a címzett a Databricksben van, egy Databricks-munkafolyamat-feladat használatával propagálja a módosításokat egy helyi replikára.
Ha meg szeretne osztani egy táblát a CDF-fel, először engedélyeznie kell a CDF-et a táblán, majd meg kell osztania WITH HISTORY
.
További információ a CDF használatáról: Delta Lake-változási adatcsatorna használata az Azure Databricksben és Táblák hozzáadása egy megosztásba.
Cloudflare R2-replikák használata vagy tároló áttelepítése R2-re
A Cloudflare R2 objektumtároló nem jár kimenő költségekkel. Az R2-be megosztott adatok replikálása vagy migrálása lehetővé teszi az adatok megosztását a Delta Sharing használatával kimenő díjak nélkül. Ez azonban nem vonatkozik a nézetmegosztásra, amely esetében továbbra is felmerülhetnek kimenő költségek. Ez a szakasz azt ismerteti, hogyan replikálhat adatokat R2-helyre, és hogyan engedélyezheti a forrástáblák növekményes frissítéseit.
Követelmények
- A Databricks-munkaterület engedélyezve van a Unity Cataloghoz.
- Databricks Runtime 14.3 vagy újabb, vagy SQL Warehouse 2024.15 vagy újabb.
- Cloudflare-fiók. Lásd: https://dash.cloudflare.com/sign-up.
- Cloudflare R2 rendszergazdai szerepkör. Tekintse meg a Cloudflare-szerepkörök dokumentációját.
-
CREATE STORAGE CREDENTIAL
privilégium a munkaterülethez csatolt Unity Catalog metaadattárban. A fiókadminisztrátor és a metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal. -
CREATE EXTERNAL LOCATION
jogosultság hozzárendelése mind a metaadattárhoz, mind a külső helyen hivatkozott tárolási hitelesítő adathoz. A metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal. -
CREATE MANAGED STORAGE
külső helyen lévő jogosultság. -
CREATE CATALOG
a metaadattárban. A metaadattár-rendszergazdák alapértelmezés szerint rendelkeznek ezzel a jogosultsággal.
A Cloudflare R2 korlátozásai
A szolgáltatók nem oszthatnak meg olyan R2-táblákat, amelyek folyékony fürtözést és V2 ellenőrzőpontot használnak.
R2-tároló csatlakoztatása külső helyként az Azure Databricks-ben
Hozzon létre egy Cloudflare R2-vödröt.
Lásd R2-tároló konfigurálása.
Hozzon létre egy tárolási hitelesítő adatot a Unity Katalógusban, amely hozzáférést biztosít az R2-gyűjtőhöz.
Lásd : A tároló hitelesítő adatainak létrehozása.
A tárolási hitelesítő adatok használatával hozzon létre egy külső helyet a Unity Katalógusban.
Lásd: Külső hely létrehozása a felhőbeli tároló Azure Databrickshez való csatlakoztatásához.
Új katalógus létrehozása a külső hely használatával
Hozzon létre egy katalógust, amely az új külső helyet használja felügyelt tárolóhelyként.
Lásd: Katalógusok létrehozása.
A katalógus létrehozásakor tegye a következőket:
Katalóguskezelő
- Válasszon egy Standard katalógustípust.
- A Tárolási helyalatt válassza a Tárolási hely kiválasztása lehetőséget, és adja meg a külső helyként meghatározott R2 vödör elérési útját. Például:
r2://mybucket@my-account-id.r2.cloudflarestorage.com
SQL
Használja az R2-gyűjtő elérési útját, amelyet külső helyként definiált. Példa:
CREATE CATALOG IF NOT EXISTS my-r2-catalog
MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
COMMENT 'Location for managed tables and volumes to share using Delta Sharing';
Klónozza azokat az adatokat, amelyeket meg szeretne osztani egy táblával az új katalógusban
A DEEP CLONE
használatával replikálhatja az Azure Data Lake Storage Gen2-ben lévő táblákat az R2-t használó új katalógusba a felügyelt tároláshoz. A mély klónok a forrástábla adatait és metaadatait a klón célhelyére másolják. A mély klónok növekményes frissítéseket is lehetővé tesznek a forrástábla új adatainak azonosításával és a cél ennek megfelelően történő frissítésével.
CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';
A Databricks-feladatokat úgy ütemezheti, hogy a céltábla adatait növekményesen frissítse a forrástábla legutóbbi frissítéseivel, a következő paranccsal:
CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;
Lásd: Tábla klónozása az Azure Databricks-on és A Databricks orkesztráció áttekintése.
Az új tábla megosztása
A megosztás létrehozásakor vegye fel az R2-ben tárolt új katalógusban lévő táblákat. A folyamat ugyanaz, mint bármely tábla hozzáadása egy megosztáshoz.
Lásd: Megosztások létrehozása és kezelése a Delta Sharing esetében.