Membaca data yang dibagikan menggunakan fitur berbagi terbuka Delta Sharing (untuk penerima)
Artikel ini menjelaskan cara membaca data yang telah dibagikan dengan Anda menggunakan protokol Delta Sharing berbagi terbuka. Ini termasuk instruksi untuk membaca data bersama menggunakan Databricks, Apache Spark, pandas, Power BI, dan Tableau.
Dalam berbagi terbuka, Anda menggunakan file kredensial yang dibagikan dengan anggota tim Anda oleh penyedia data untuk mendapatkan akses baca yang aman ke data bersama. Akses bertahan selama kredensial valid dan penyedia terus berbagi data. Penyedia mengelola kedaluwarsa dan rotasi kredensial. Pembaruan data tersedia untuk Anda dalam waktu dekat. Anda dapat membaca dan membuat salinan data bersama, tetapi Anda tidak dapat mengubah data sumber.
Catatan
Jika data telah dibagikan dengan Anda menggunakan Berbagi Delta dari Databricks ke Databricks, Anda tidak memerlukan file kredensial untuk mengakses data, dan artikel ini tidak relevan bagi Anda. Untuk instruksi lebih lanjut, lihat Membaca data yang dibagikan menggunakan Pembagian Delta Databricks ke Databricks (untuk penerima).
Bagian berikut ini menjelaskan cara menggunakan Azure Databricks, Apache Spark, pandas, dan Power BI untuk mengakses dan membaca data bersama menggunakan file kredensial. Untuk daftar lengkap konektor Berbagi Delta dan informasi tentang cara menggunakannya, lihat dokumentasi sumber terbuka Berbagi Delta . Jika Anda mengalami masalah saat mengakses data yang dibagi, hubungi penyedia data.
Catatan
Integrasi mitra, kecuali dinyatakan lain, disediakan oleh pihak ketiga dan Anda harus memiliki akun dengan penyedia yang sesuai untuk penggunaan produk dan layanan mereka. Sementara Databricks melakukan yang terbaik untuk menjaga konten ini tetap kekinian, kami tidak membuat pernyataan mengenai integrasi atau keakuratan konten pada halaman integrasi mitra. Hubungi penyedia yang sesuai mengenai integrasi.
Sebelum Anda mulai
Anggota tim Anda harus mengunduh file kredensial yang dibagikan oleh penyedia data. Lihat Dapatkan akses pada model berbagi terbuka.
Mereka harus menggunakan saluran aman untuk berbagi file atau lokasi file tersebut dengan Anda.
Azure Databricks: Membaca data bersama menggunakan konektor pembagian terbuka
Bagian ini menjelaskan cara mengimpor penyedia dan cara mengkueri data bersama di Catalog Explorer atau di buku catatan Python:
- Jika ruang kerja Azure Databricks Anda diaktifkan untuk Unity Catalog, gunakan UI Penyedia impor di Catalog Explorer. Ini memungkinkan Anda membuat katalog dari berbagi dengan mengklik tombol, menggunakan kontrol akses Katalog Unity untuk memberikan akses ke tabel bersama, dan menggunakan sintaks Katalog Unity standar untuk mengkueri berbagi tersebut, tanpa perlu menyimpan file kredensial atau menentukannya saat Anda mengkueri data bersama.
- Jika ruang kerja Azure Databricks Anda tidak diaktifkan untuk Unity Catalog, gunakan instruksi buku catatan Python sebagai contoh. Instruksi buku catatan juga menjelaskan cara menggunakan buku catatan untuk mencantumkan dan membaca tabel bersama.
Catatan
Jika penyedia data menggunakan pembagian Databricks-ke-Databricks, mereka tidak perlu membagikan file kredensial dengan Anda, dan instruksi pada artikel ini tidak berlaku. Sebagai gantinya, lihat Baca data yang dibagikan dengan menggunakan Databricks-to-Databricks Delta Sharing (untuk penerima).
Eksplorer Katalog
Izin diperlukan: Seorang admin metastore atau pengguna yang memiliki hak istimewa CREATE PROVIDER
dan USE PROVIDER
pada metastore Katalog Unity Anda.
Di ruang kerja Azure Databricks Anda, klik ikon Katalog
untuk membuka Penjelajah Katalog.
Di bagian atas panel Katalog, klik
dan pilih Berbagi Delta.
Atau, dari Halaman Akses Cepat, klik tombol Delta Sharing >.
Pada tab Dibagikan dengan saya, klik Impor penyedia secara langsung.
Pada dialog Penyedia impor, masukkan nama penyedia.
Nama tidak dapat menyertakan spasi.
Unggah file kredensial yang dibagikan penyedia dengan Anda.
Banyak penyedia memiliki jaringan Berbagi Delta mereka sendiri dari mana Anda dapat menerima pembagian. Untuk informasi selengkapnya, lihat konfigurasi khusus Penyedia .
(Opsional) Masukkan komentar.
UI
Klik Impor.
Buat katalog dari data bersama.
Pada tab Berbagi, klik Buat katalog pada baris berbagi.
Untuk informasi tentang menggunakan SQL atau Databricks CLI untuk membuat katalog dari berbagi, lihat Membuat katalog dari berbagi.
Berikan akses ke katalog.
Lihat Bagaimana cara menyediakan data yang dibagikan untuk tim saya? dan Mengelola izin untuk skema, tabel, dan volume dalam katalog Delta Sharing.
Baca objek data bersama seperti yang Anda lakukan pada objek data apa pun yang terdaftar di Unity Catalog.
Untuk detail dan contohnya, lihat Mengakses data dalam tabel atau volume bersama.
Python
Bagian ini menjelaskan cara menggunakan konektor berbagi terbuka untuk mengakses data bersama menggunakan buku catatan di ruang kerja Azure Databricks Anda. Anda atau anggota lain dari tim Anda menyimpan file kredensial di Azure Databricks, lalu Anda menggunakannya untuk mengautentikasi ke akun Azure Databricks penyedia data dan membaca data yang dibagikan penyedia data dengan Anda.
Catatan
Instruksi ini mengasumsikan bahwa ruang kerja Azure Databricks Anda tidak diaktifkan untuk Unity Catalog. Jika Anda menggunakan Katalog Unity, Anda tidak perlu menunjuk ke file kredensial saat membaca dari sumber berbagi. Anda dapat membaca dari tabel bersama seperti yang Anda lakukan dari tabel apa pun yang terdaftar di Katalog Unity. Databricks merekomendasikan agar Anda menggunakan UI penyedia Impor di Catalog Explorer alih-alih instruksi yang diberikan di sini.
Pertama-tama gunakan buku catatan Python di Azure Databricks untuk menyimpan file kredensial sehingga pengguna di tim Anda dapat mengakses data bersama.
Di editor teks, buka file kredensial.
Di ruang kerja Azure Databricks Anda, klik Notebook Baru>.
- Masukkan nama.
- Set bahasa default untuk buku catatan ke Python.
- Pilih kluster untuk dilampirkan ke buku catatan.
- Klik Buat.
Buku catatan terbuka di editor buku catatan.
Untuk menggunakan Python atau pandas untuk mengakses data bersama, pasang konektor Python delta-sharing. Di editor buku catatan, tempel perintah berikut:
%sh pip install delta-sharing
Jalankan sel.
Pustaka
delta-sharing
Python akan diinstal di kluster jika belum terpasang.Di sel baru, tempelkan perintah berikut, yang mengunggah konten file kredensial ke folder di DBFS.
Ganti variabel sebagai berikut:
<dbfs-path>
: jalur ke folder tempat Anda ingin menyimpan file info masuk<credential-file-contents>
: isi file kredensial. Ini bukan jalur ke file, tetapi isi file yang disalin.File kredensial berisi JSON yang menentukan tiga bidang:
shareCredentialsVersion
, ,endpoint
danbearerToken
.%scala dbutils.fs.put("<dbfs-path>/config.share",""" <credential-file-contents> """)
Jalankan sel.
Setelah file kredensial diunggah, Anda dapat menghapus sel ini. Semua pengguna ruang kerja dapat membaca file kredensial dari DBFS, dan file kredensial tersedia di DBFS di semua kluster dan gudang SQL di ruang kerja Anda. Untuk menghapus sel, klik x di menu
yang berada di ujung kanan.
Sekarang setelah file kredensial disimpan, Anda bisa menggunakan buku catatan untuk mencantumkan dan membaca tabel bersama
Menggunakan Python, cantumkan tabel dalam berkas berbagi.
Di sel baru, tempelkan perintah berikut. Ganti
<dbfs-path>
dengan jalur yang dibuat di atas.Saat kode berjalan, Python membaca file kredensial dari DBFS di kluster. Akses data yang disimpan di DBFS di jalur
/dbfs/
.import delta_sharing client = delta_sharing.SharingClient(f"/dbfs/<dbfs-path>/config.share") client.list_all_tables()
Jalankan sel.
Hasilnya adalah array tabel, bersama dengan metadata untuk setiap tabel. Keluaran berikut menunjukkan dua tabel:
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
Jika keluaran kosong atau tidak berisi tabel yang Anda harapkan, hubungi penyedia data.
Mengkueri tabel bersama.
Menggunakan Scala:
Di sel baru, tempelkan perintah berikut. Ketika kode dijalankan, file kredensial dibaca dari DBFS melalui JVM.
Ganti variabel sebagai berikut:
-
<profile-path>
: jalur DBFS dari file kredensial. Contohnya,/<dbfs-path>/config.share
. -
<share-name>
: nilaishare=
untuk tabel. -
<schema-name>
: nilaischema=
untuk tabel. -
<table-name>
: nilainame=
untuk tabel.
%scala spark.read.format("deltaSharing") .load("<profile-path>#<share-name>.<schema-name>.<table-name>").limit(10);
Jalankan sel. Setiap kali Memuat tabel yang dibagikan, Anda melihat data baru dari sumbernya.
-
Menggunakan SQL:
Untuk mengkueri data menggunakan SQL, Anda membuat tabel lokal di ruang kerja dari tabel bersama, lalu mengkueri tabel lokal. Data bersama tidak disimpan atau di-cache dalam tabel lokal. Setiap kali Anda menanyakan tabel lokal, Anda melihat status data yang dibagikan saat ini.
Di sel baru, tempelkan perintah berikut.
Ganti variabel sebagai berikut:
-
<local-table-name>
: nama tabel lokal. -
<profile-path>
: lokasi file kredensial. -
<share-name>
: nilaishare=
untuk tabel. -
<schema-name>
: nilaischema=
untuk tabel. -
<table-name>
: nilainame=
untuk tabel.
%sql DROP TABLE IF EXISTS table_name; CREATE TABLE <local-table-name> USING deltaSharing LOCATION "<profile-path>#<share-name>.<schema-name>.<table-name>"; SELECT * FROM <local-table-name> LIMIT 10;
Saat Anda menjalankan perintah, data yang dibagi akan dikueri secara langsung. Sebagai tes, tabel dikueri dan 10 hasil pertama dikembalikan.
-
Jika output kosong atau tidak berisi data yang Anda harapkan, hubungi penyedia data.
Apache Spark: Membaca data bersama
Ikuti langkah-langkah ini untuk mengakses data bersama menggunakan Spark 3.x atau lebih tinggi.
Instruksi ini mengasumsikan bahwa Anda memiliki akses ke file kredensial yang dibagikan oleh penyedia data. Lihat Dapatkan akses dalam model berbagi terbuka.
Catatan
Jika Anda menggunakan Spark di ruang kerja Azure Databricks yang diaktifkan untuk Katalog Unity, dan Anda menggunakan UI penyedia impor untuk mengimpor penyedia dan berbagi, instruksi di bagian ini tidak berlaku untuk Anda. Anda dapat mengakses tabel bersama seperti tabel lain yang terdaftar di Unity Catalog. Anda tidak perlu menginstal konektor Python delta-sharing
atau menyediakan jalur ke file kredensial. Lihat Azure Databricks: Membaca data yang dibagikan dengan menggunakan konektor berbagi terbuka.
Menginstal konektor Delta Sharing Python dan Spark
Untuk mengakses metadata yang terkait dengan data bersama, seperti daftar tabel yang dibagikan dengan Anda, lakukan hal berikut. Contoh ini menggunakan Python.
Install konektor Python delta-sharing:
pip install delta-sharing
Pasang Konektor Apache Spark.
Menampilkan tabel yang dibagikan menggunakan Spark
Cantumkan tabel dalam berbagi. Dalam contoh di bawah ini, ganti <profile-path>
dengan lokasi file kredensial.
import delta_sharing
client = delta_sharing.SharingClient(f"<profile-path>/config.share")
client.list_all_tables()
Hasilnya adalah array tabel, bersama dengan metadata untuk setiap tabel. Keluaran berikut menunjukkan dua tabel:
Out[10]: [Table(name='example_table', share='example_share_0', schema='default'), Table(name='other_example_table', share='example_share_0', schema='default')]
Jika keluaran kosong atau tidak berisi tabel yang Anda harapkan, hubungi penyedia data.
Mengakses data bersama menggunakan Spark
Jalankan yang berikut ini, ganti variabel ini:
-
<profile-path>
: lokasi file kredensial. -
<share-name>
: nilaishare=
untuk tabel. -
<schema-name>
: nilaischema=
untuk tabel. -
<table-name>
: nilainame=
untuk tabel. -
<version-as-of>
: opsional. Versi tabel untuk memasukkan data. Hanya berfungsi jika penyedia data berbagi riwayat tabel.delta-sharing-spark
Membutuhkan 0.5.0 atau lebih tinggi. -
<timestamp-as-of>
: opsional. Muat data pada versi sebelum atau pada tanda waktu yang diberikan. Hanya berfungsi jika penyedia data berbagi riwayat tabel.delta-sharing-spark
Membutuhkan 0.6.0 atau lebih tinggi.
Python
delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", version=<version-as-of>)
spark.read.format("deltaSharing")\
.option("versionAsOf", <version-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))
delta_sharing.load_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>", timestamp=<timestamp-as-of>)
spark.read.format("deltaSharing")\
.option("timestampAsOf", <timestamp-as-of>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")\
.limit(10))
Scala
Jalankan yang berikut ini, ganti variabel ini:
-
<profile-path>
: lokasi file kredensial. -
<share-name>
: nilaishare=
untuk tabel. -
<schema-name>
: nilaischema=
untuk tabel. -
<table-name>
: nilainame=
untuk tabel. -
<version-as-of>
: opsional. Versi tabel yang digunakan untuk memuat data. Hanya berfungsi jika penyedia data berbagi riwayat tabel.delta-sharing-spark
Membutuhkan 0.5.0 atau lebih tinggi. -
<timestamp-as-of>
: opsional. Muat data pada versi sebelum atau pada tanda waktu yang diberikan. Hanya berfungsi jika penyedia data berbagi riwayat tabel.delta-sharing-spark
Membutuhkan 0.6.0 atau lebih tinggi.
spark.read.format("deltaSharing")
.option("versionAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)
spark.read.format("deltaSharing")
.option("timestampAsOf", <version-as-of>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
.limit(10)
Mengakses umpan data perubahan bersama menggunakan Spark
Jika riwayat tabel telah dibagikan dengan Anda dan mengubah umpan data (CDF) diaktifkan pada tabel sumber, Anda dapat mengakses umpan data perubahan dengan menjalankan yang berikut ini, menggantikan variabel ini.
delta-sharing-spark
Membutuhkan 0.5.0 atau lebih tinggi.
Satu dan hanya satu parameter mulai yang harus disediakan.
-
<profile-path>
: lokasi file kredensial. -
<share-name>
: nilaishare=
untuk tabel. -
<schema-name>
: nilaischema=
untuk tabel. -
<table-name>
: nilainame=
untuk tabel. -
<starting-version>
: opsional. Versi awal kueri, inklusif. Tentukan sebagai Panjang. -
<ending-version>
: opsional. Versi akhir kueri, inklusif. Jika versi akhir tidak disediakan, API menggunakan versi tabel terbaru. -
<starting-timestamp>
: opsional. Tanda waktu awal kueri, ini dikonversi ke versi yang dibuat lebih besar atau sama dengan tanda waktu ini. Tentukan sebagai string dalam formatyyyy-mm-dd hh:mm:ss[.fffffffff]
. -
<ending-timestamp>
: opsional. Tanda waktu akhir kueri, ini dikonversi ke versi yang dibuat sebelumnya atau sama dengan tanda waktu ini. Tentukan sebagai string dalam formatyyyy-mm-dd hh:mm:ss[.fffffffff]
Python
delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
starting_version=<starting-version>,
ending_version=<ending-version>)
delta_sharing.load_table_changes_as_spark(f"<profile-path>#<share-name>.<schema-name>.<table-name>",
starting_timestamp=<starting-timestamp>,
ending_timestamp=<ending-timestamp>)
spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("statingVersion", <starting-version>)\
.option("endingVersion", <ending-version>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
spark.read.format("deltaSharing").option("readChangeFeed", "true")\
.option("startingTimestamp", <starting-timestamp>)\
.option("endingTimestamp", <ending-timestamp>)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
Scala
spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("statingVersion", <starting-version>)
.option("endingVersion", <ending-version>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
spark.read.format("deltaSharing").option("readChangeFeed", "true")
.option("startingTimestamp", <starting-timestamp>)
.option("endingTimestamp", <ending-timestamp>)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
Jika output kosong atau tidak berisi data yang Anda harapkan, hubungi penyedia data.
Mengakses tabel bersama menggunakan Spark Structured Streaming
Jika riwayat tabel dibagikan dengan Anda, Anda dapat membaca data yang dibagikan secara langsung.
delta-sharing-spark
Membutuhkan 0.6.0 atau lebih tinggi.
Opsi yang didukung:
-
ignoreDeletes
: Abaikan transaksi yang menghapus data. -
ignoreChanges
: Memproses ulang pembaruan jika file ditulis ulang dalam tabel sumber karena operasi perubahan data sepertiUPDATE
, ,MERGE INTO
DELETE
(dalam partisi), atauOVERWRITE
. Baris yang tidak berubah masih dapat dikeluarkan. Oleh karena itu konsumen hilir Anda harus dapat menangani duplikat. Penghapusan tidak diteruskan ke hilir.ignoreChanges
meliputiignoreDeletes
. Maka, jika Anda menggunakanignoreChanges
, aliran Anda tidak akan terganggu oleh penghapusan atau pembaruan ke tabel sumber. -
startingVersion
: Versi tabel gabungan untuk memulai. Semua perubahan tabel mulai dari versi ini (inklusif) akan dibaca oleh sumber streaming. -
startingTimestamp
: Stempel waktu untuk memulai. Semua perubahan tabel yang diterapkan pada atau setelah stempel waktu (inklusif) akan dibaca oleh sumber streaming. Contoh:"2023-01-01 00:00:00.0"
. -
maxFilesPerTrigger
: Jumlah file baru yang akan dipertimbangkan dalam setiap mikro-batch. -
maxBytesPerTrigger
: Jumlah data yang diproses di setiap mikro-batch. Opsi ini menetapkan "maks lunak", yang berarti batch memproses kira-kira sejumlah data seperti ini dan dapat memproses lebih dari batas tersebut agar kueri streaming bergerak maju, dalam situasi ketika unit input terkecil lebih besar dari batas ini. -
readChangeFeed
: Streaming membaca umpan data perubahan tabel bersama.
Opsi yang tidak didukung:
Trigger.availableNow
Sampel kueri streaming terstruktur
Scala
spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
Python
spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
Lihat juga Streaming di Azure Databricks.
Membaca tabel dengan vektor penghapusan atau pemetaan kolom yang diaktifkan
Penting
Fitur ini ada di Pratinjau Publik.
Vektor penghapusan adalah fitur pengoptimalan penyimpanan yang dapat diaktifkan penyedia Anda pada tabel Delta bersama. Lihat Apa itu vektor penghapusan?.
Azure Databricks juga mendukung pemetaan kolom untuk tabel Delta. Lihat mengganti nama dan menghapus kolom dengan menggunakan pemetaan kolom Delta Lake.
Jika penyedia Anda berbagi tabel dengan vektor penghapusan atau pemetaan kolom diaktifkan, Anda dapat membaca tabel menggunakan komputasi yang menjalankan delta-sharing-spark
3.1 atau lebih tinggi. Jika Anda menggunakan kluster Databricks, Anda dapat melakukan pembacaan batch menggunakan kluster yang menjalankan Databricks Runtime 14.1 atau lebih tinggi. Kueri CDF dan streaming memerlukan Databricks Runtime 14.2 atau lebih tinggi.
Anda dapat melakukan kueri batch apa adanya, karena kueri tersebut dapat diselesaikan responseFormat
secara otomatis berdasarkan fitur tabel bersama.
Untuk membaca umpan data perubahan (CDF) atau untuk melakukan kueri streaming pada tabel bersama dengan vektor penghapusan atau pemetaan kolom diaktifkan, Anda harus mengatur opsi tambahan responseFormat=delta
.
Contoh-contoh berikut menunjukkan kueri batch, CDF, dan streaming.
import org.apache.spark.sql.SparkSession
val spark = SparkSession
.builder()
.appName("...")
.master("...")
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
.getOrCreate()
val tablePath = "<profile-file-path>#<share-name>.<schema-name>.<table-name>"
// Batch query
spark.read.format("deltaSharing").load(tablePath)
// CDF query
spark.read.format("deltaSharing")
.option("readChangeFeed", "true")
.option("responseFormat", "delta")
.option("startingVersion", 1)
.load(tablePath)
// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").load(tablePath)
Pandas: Membaca data yang dibagikan
Ikuti langkah-langkah ini untuk mengakses data bersama di pandas 0.25.3 atau lebih tinggi.
Instruksi ini mengasumsikan bahwa Anda memiliki akses ke file kredensial yang dibagikan oleh penyedia data. Lihat Dapatkan akses dalam model berbagi terbuka.
Catatan
Jika Anda menggunakan pandas di ruang kerja Azure Databricks yang diaktifkan untuk Unity Catalog, dan Anda menggunakan UI penyedia impor untuk mengimpor penyedia dan berbagi, maka instruksi di bagian ini tidak berlaku untuk Anda. Anda dapat mengakses tabel bersama seperti tabel lain yang terdaftar di Unity Catalog. Anda tidak perlu menginstal konektor Python delta-sharing
atau menyediakan jalur ke file kredensial. Lihat Azure Databricks: Baca data bersama menggunakan konektor berbagi terbuka.
Menginstal konektor Delta Sharing untuk Python
Untuk mengakses metadata yang terkait dengan data bersama, seperti daftar tabel yang dibagikan dengan anda, Anda harus menginstal delta-sharing konektor Python.
pip install delta-sharing
Mencantumkan tabel bersama menggunakan panda
Untuk mencantumkan tabel dalam penyimpanan bersama, jalankan perintah berikut, ganti <profile-path>/config.share
dengan lokasi file kredensial.
import delta_sharing
client = delta_sharing.SharingClient(f"<profile-path>/config.share")
client.list_all_tables()
Jika keluaran kosong atau tidak berisi tabel yang Anda harapkan, hubungi penyedia data.
Mengakses data bersama menggunakan panda
Untuk mengakses data bersama di pandas dengan menggunakan Python, jalankan perintah berikut, lalu gantilah variabel-variabel berikut:
-
<profile-path>
: lokasi file kredensial. -
<share-name>
: nilaishare=
untuk tabel. -
<schema-name>
: nilaischema=
untuk tabel. -
<table-name>
: nilainame=
untuk tabel.
import delta_sharing
delta_sharing.load_as_pandas(f"<profile-path>#<share-name>.<schema-name>.<table-name>")
Mengakses umpan data perubahan bersama menggunakan panda
Untuk mengakses umpan data perubahan untuk tabel bersama di Pandas menggunakan Python, jalankan perintah berikut, mengganti variabel dengan nilai yang sesuai. Umpan data perubahan mungkin tidak tersedia, tergantung pada apakah penyedia data berbagi umpan data perubahan untuk tabel atau tidak.
-
<starting-version>
: opsional. Versi awal kueri, inklusif. -
<ending-version>
: opsional. Versi akhir kueri, inklusif. -
<starting-timestamp>
: pilihan. Tanda waktu awal kueri. Ini dikonversi ke versi yang dibuat lebih besar atau sama dengan tanda waktu ini. -
<ending-timestamp>
: opsional. Tanda waktu akhir kueri. Ini dikonversi ke versi yang dibuat sebelumnya atau sama dengan tanda waktu ini.
import delta_sharing
delta_sharing.load_table_changes_as_pandas(
f"<profile-path>#<share-name>.<schema-name>.<table-name>",
starting_version=<starting-version>,
ending_version=<starting-version>)
delta_sharing.load_table_changes_as_pandas(
f"<profile-path>#<share-name>.<schema-name>.<table-name>",
starting_timestamp=<starting-timestamp>,
ending_timestamp=<ending-timestamp>)
Jika output kosong atau tidak berisi data yang Anda harapkan, hubungi penyedia data.
Power BI: Membaca data bersama
Konektor Berbagi Delta Power BI memungkinkan Anda menemukan, menganalisis, dan memvisualisasikan himpunan data yang dibagikan dengan Anda melalui protokol terbuka Berbagi Delta.
Persyaratan
- Power BI Desktop 2.99.621.0 atau di atasnya
- Akses ke file kredensial yang dibagikan oleh penyedia data. Lihat Dapatkan akses dalam model berbagi terbuka.
Menghubungkan ke Databricks
Untuk menyambungkan ke Azure Databricks menggunakan konektor Berbagi Delta, lakukan hal berikut:
- Buka file kredensial yang dibagikan menggunakan editor teks untuk mengambil URL titik akhir dan token.
- Buka Power BI Desktop.
- Pada menu Dapatkan Data, cari Delta Sharing.
- Pilih konektor dan klik Sambungkan.
- Masukkan URL titik akhir yang Anda salin dari file kredensial ke bidang URL Delta Sharing Server.
- Secara opsional, di tab Opsi Lanjutan, tetapkan Batas Baris untuk jumlah baris maksimum yang dapat Anda unduh. Ini diatur ke 1 juta baris secara default.
- Klik OK.
- Untuk Autentikasi, salin token yang Anda ambil dari file kredensial ke Bearer Token.
- Klik Sambungkan.
Batasan konektor Berbagi Delta Power BI
Konektor Berbagi Delta Power BI memiliki batasan berikut:
- Data yang dimuat konektor harus sesuai dengan memori komputer Anda. Untuk mengelola persyaratan ini, konektor membatasi jumlah baris yang diimpor ke Batas Baris yang Anda tetapkan di bawah tab Opsi Tingkat Lanjut di Power BI Desktop.
Tableau: Membaca data yang dibagikan
Konektor Berbagi Tableau Delta memungkinkan Anda menemukan, menganalisis, dan memvisualisasikan himpunan data yang dibagikan dengan Anda melalui protokol terbuka Berbagi Delta.
Persyaratan
- Tableau Desktop dan Tableau Server 2024.1 atau lebih tinggi
- Akses ke file kredensial yang dibagikan oleh penyedia data. Lihat Dapatkan akses dalam model berbagi yang terbuka.
Menyambungkan ke Azure Databricks
Untuk menyambungkan ke Azure Databricks menggunakan konektor Berbagi Delta, lakukan hal berikut:
- Buka Tableau Exchange, ikuti instruksi untuk mengunduh Konektor Berbagi Delta, dan letakkan di folder desktop yang sesuai.
- Buka Tableau Desktop.
- Pada halaman Konektor, cari "Delta Sharing by Databricks".
- Pilih Berbagi Unggah file, dan pilih file kredensial yang dibagikan oleh penyedia.
- Klik Dapatkan Data.
- Di Data Explorer, pilih tabel .
- Secara opsional tambahkan filter SQL atau batas baris.
- Klik Dapatkan Data Tabel.
Batasan konektor Berbagi Delta Tableau
Konektor Berbagi Tableau Delta memiliki batasan berikut:
- Data yang dimuat konektor harus sesuai dengan memori komputer Anda. Untuk mengelola persyaratan ini, konektor membatasi jumlah baris yang diimpor ke batas baris yang Anda tetapkan di Tableau.
- Semua kolom dikembalikan sebagai jenis
String
. - Filter SQL hanya berfungsi jika server Berbagi Delta Anda mendukung predicateHint.
Meminta kredensial baru
Jika URL aktivasi kredensial atau kredensial yang diunduh hilang, rusak, atau disusupi, atau kredensial Anda kedaluwarsa tanpa penyedia mengirimi Anda info masuk baru, hubungi penyedia Anda untuk meminta kredensial baru.