Bagikan melalui


Pantau dan kelola biaya egress Delta Sharing (untuk penyedia)

Artikel ini menjelaskan alat yang dapat Anda gunakan untuk memantau dan mengelola biaya egress vendor cloud saat Anda berbagi data dan aset AI menggunakan Delta Sharing.

Tidak seperti platform berbagi data lainnya, Berbagi Delta tidak memerlukan replikasi data. Model ini memiliki banyak keuntungan, tetapi artinya vendor cloud Anda dapat membebankan biaya keluar data saat Anda berbagi data di seluruh cloud atau wilayah. Jika Anda menggunakan Delta Sharing untuk berbagi data dan aset AI di dalam wilayah, Anda tidak dikenakan biaya keluar.

Untuk memantau dan mengelola biaya keluar, Databricks menyediakan:

Mereplikasi data untuk menghindari biaya keluar

Salah satu pendekatan untuk menghindari biaya keluar adalah agar penyedia membuat dan menyinkronkan replika lokal data bersama di wilayah yang digunakan penerimanya. Pendekatan lain adalah agar penerima mengkloning data yang dibagikan ke wilayah lokal untuk kueri aktif, mengatur sinkronisasi antara tabel yang dibagikan dan kloning lokal. Bagian ini membahas sejumlah pola replikasi.

Gunakan Delta deep clone untuk replikasi inkremental

Penyedia dapat menggunakan DEEP CLONE untuk mereplikasi tabel Delta ke lokasi eksternal di seluruh wilayah tempat mereka berbagi. Klon mendalam menyalin data tabel sumber dan metadata ke target kloning. Klon mendalam juga memungkinkan pembaruan bertahap dengan mengidentifikasi data baru dalam tabel sumber dan memperbarui target yang sesuai.

CREATE TABLE [IF NOT EXISTS] table_name DEEP CLONE source_table_name
   [TBLPROPERTIES clause] [LOCATION path];

Anda dapat menjadwalkan pekerjaan Databricks untuk menyegarkan data tabel target secara bertahap dengan pembaruan terbaru dalam tabel bersama, menggunakan perintah berikut:

CREATE OR REPLACE TABLE table_name DEEP CLONE source_table_name;

Lihat Mengkloning tabel di Azure Databricks dan Gambaran umum orkestrasi di Azure Databricks.

Aktifkan aliran data perubahan (CDF) pada tabel bersama untuk replikasi inkremental

Saat tabel dibagikan dengan CDF-nya, penerima dapat mengakses perubahan dan menggabungkannya ke dalam salinan lokal tabel, di mana pengguna melakukan kueri. Dalam skenario ini, akses penerima ke data tidak melintasi batas wilayah, dan pengeluaran data terbatas pada memperbarui salinan lokal. Jika penerima berada di Databricks, mereka dapat menggunakan tugas alur kerja Databricks untuk menerapkan perubahan pada replika lokal.

Untuk berbagi tabel dengan CDF, Anda harus mengaktifkan CDF pada tabel dan membagikannya WITH HISTORY.

Untuk informasi selengkapnya tentang menggunakan CDF, lihat Menggunakan umpan data perubahan Delta Lake di Azure Databricks dan Menambahkan tabel ke pembagian.

Menggunakan replika Cloudflare R2 atau memigrasikan penyimpanan ke R2

Penyimpanan objek Cloudflare R2 tidak dikenakan biaya keluar. Menduplikat atau memindahkan data yang Anda bagikan ke R2 memungkinkan Anda berbagi data menggunakan Delta Sharing tanpa dikenakan biaya lalu lintas data keluar. Namun, ini tidak berlaku untuk berbagi tampilan, yang mungkin masih dikenakan biaya egress. Bagian ini menjelaskan cara mereplikasi data ke lokasi R2 dan mengaktifkan pembaruan bertahap dari tabel sumber.

Persyaratan

  • Ruang kerja Databricks diaktifkan untuk Unity Catalog.
  • Databricks Runtime 14.3 atau lebih tinggi, atau gudang SQL 2024.15 atau lebih tinggi.
  • Akun Cloudflare. Lihat https://dash.cloudflare.com/sign-up.
  • Peran Admin Cloudflare R2. Lihat dokumentasi peran Cloudflare.
  • CREATE STORAGE CREDENTIAL hak istimewa di metastore Unity Catalog yang terhubung dengan ruang kerja. Admin akun dan admin metastore memiliki hak istimewa ini secara default.
  • CREATE EXTERNAL LOCATION hak istimewa pada metastore dan kredensial penyimpanan yang direferensikan di lokasi eksternal. Admin Metastore memiliki hak istimewa ini secara default.
  • CREATE MANAGED STORAGE hak istimewa pada lokasi eksternal.
  • CREATE CATALOG pada metastore tersebut. Admin Metastore memiliki hak istimewa ini secara default.

Batasan untuk Cloudflare R2

Penyedia tidak dapat berbagi tabel R2 yang menggunakan pengklusteran cairan dan titik pemeriksaan V2.

Memasang wadah R2 sebagai lokasi eksternal di Azure Databricks

  1. Buat wadah Cloudflare R2.

    Lihat Mengonfigurasi bucket R2.

  2. Buat kredensial penyimpanan di Katalog Unity yang memberikan akses ke wadah R2.

    Lihat Membuat kredensial penyimpanan.

  3. Gunakan kredensial penyimpanan untuk membuat lokasi eksternal di Unity Catalog.

    Lihat Membuat lokasi eksternal untuk menyambungkan penyimpanan cloud ke Azure Databricks.

Membuat katalog baru menggunakan lokasi eksternal

Buat katalog yang menggunakan lokasi eksternal baru sebagai lokasi penyimpanan terkelolanya.

Lihat "Buat katalog".

Saat Anda membuat katalog, lakukan hal berikut:

Eksplorer Katalog

  • Pilih tipe katalog Standar.
  • Di bawah Lokasi penyimpanan, pilih Pilih lokasi penyimpanan dan masukkan jalur ke wadah R2 yang Anda tentukan sebagai lokasi eksternal. Misalnya: r2://mybucket@my-account-id.r2.cloudflarestorage.com

SQL

Gunakan jalur ke wadah R2 yang Anda tentukan sebagai lokasi eksternal. Contohnya:

  CREATE CATALOG IF NOT EXISTS my-r2-catalog
    MANAGED LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com'
    COMMENT 'Location for managed tables and volumes to share using Delta Sharing';

Mengkloning data yang ingin Anda bagikan ke tabel di katalog baru

Gunakan DEEP CLONE untuk mereplikasi tabel di Azure Data Lake Storage Gen2 ke katalog baru yang menggunakan R2 untuk penyimpanan terkelola. Klon mendalam menyalin data tabel sumber dan metadata ke target kloning. Klon mendalam juga memungkinkan pembaruan bertahap dengan mengidentifikasi data baru dalam tabel sumber dan memperbarui target yang sesuai.

CREATE TABLE IF NOT EXISTS new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table
  LOCATION 'r2://mybucket@my-account-id.r2.cloudflarestorage.com';

Anda dapat menjadwalkan pekerjaan Databricks untuk menyegarkan data tabel target secara bertahap dengan pembaruan terbaru dalam tabel sumber, menggunakan perintah berikut:

CREATE OR REPLACE TABLE new_catalog.schema1.new_table DEEP CLONE old_catalog.schema1.source_table;

Lihat Mengkloning tabel di Azure Databricks dan Gambaran umum orkestrasi di Azure Databricks.

Bagikan tabel baru

Saat Anda membuat pembagian, tambahkan tabel yang ada di katalog baru yang disimpan di R2. Prosesnya sama dengan menambahkan tabel apa pun ke sumber berbagi.

Lihat Membuat dan mengelola ruang berbagi untuk Delta Sharing.