Menyambungkan ke Syncsort

Artikel
03/10/2024

Penting

Syncsort membantu Anda memecah silo data dengan mengintegrasikan data lama, mainframe, dan IBM dengan Azure Databricks. Anda dapat dengan mudah menarik data dari sumber-sumber ini ke Delta Lake.

Berikut adalah langkah-langkah untuk menggunakan Syncsort dengan Azure Databricks.

Langkah 1: Hasilkan token akses pribadi Databricks

Syncsort mengautentikasi dengan Azure Databricks menggunakan token akses pribadi Azure Databricks.

Catatan

Sebagai praktik terbaik keamanan, saat Anda mengautentikasi dengan alat, sistem, skrip, dan aplikasi otomatis, Databricks merekomendasikan agar Anda menggunakan token akses pribadi milik perwakilan layanan, bukan pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.

Langkah 2: Siapkan kluster untuk mendukung kebutuhan integrasi

Syncsort akan menulis data ke jalur Azure Data Lake Storage dan kluster integrasi Azure Databricks akan membaca data dari lokasi tersebut. Oleh karena itu kluster integrasi memerlukan akses aman ke jalur Azure Data Lake Storage.

Akses aman ke jalur Azure Data Lake Storage

Untuk mengamankan akses ke data di Azure Data Lake Storage (ADLS), Anda dapat menggunakan kunci akses akun penyimpanan Azure (disarankan) atau perwakilan layanan ID Microsoft Entra.

Gunakan kunci akses akun penyimpanan Azure

Anda dapat mengonfigurasi kunci akses akun penyimpanan di kluster integrasi sebagai bagian dari konfigurasi Spark. Pastikan bahwa akun penyimpanan memiliki akses ke kontainer ADLS dan sistem file yang digunakan untuk pentahapan data dan kontainer ADLS dan sistem file tempat Anda ingin menulis tabel Delta Lake. Untuk mengonfigurasi kluster integrasi untuk menggunakan kunci, ikuti langkah-langkah dalam Menyambungkan ke Azure Data Lake Storage Gen2 dan Blob Storage.

Menggunakan perwakilan layanan ID Microsoft Entra

Anda dapat mengonfigurasi perwakilan layanan pada kluster integrasi Azure Databricks sebagai bagian dari konfigurasi Spark. Pastikan bahwa perwakilan layanan memiliki akses ke kontainer ADLS yang digunakan untuk pentahapan data dan kontainer ADLS tempat Anda ingin menulis tabel Delta. Untuk mengonfigurasi kluster integrasi agar menggunakan perwakilan layanan, ikuti langkah-langkah di Mengakses ADLS Gen2 dengan perwakilan layanan.

Tentukan konfigurasi kluster

Atur Mode Kluster ke Standar.
Atur Versi Runtime bahasa umum Databricks ke versi runtime bahasa umum Databricks.
Aktifkan penulisan yang dioptimalkan dan pemadatan otomatis dengan menambahkan properti berikut ke konfigurasi Spark Anda:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Konfigurasikan kluster Anda sesuai dengan kebutuhan integrasi dan penskalaan Anda.

Untuk detail konfigurasi kluster, lihat Referensi konfigurasi komputasi.

Lihat Mendapatkan detail koneksi untuk sumber daya komputasi Azure Databricks untuk langkah-langkah mendapatkan URL JDBC dan jalur HTTP.

Langkah 3: Dapatkan detail sambungan JDBC dan ODBC untuk menyambungkan ke kluster

Untuk menyambungkan kluster Azure Databricks ke Infoworks, Anda memerlukan properti sambungan JDBC/ODBC berikut:

URL JDBC
Jalur HTTP

Langkah 4: Konfigurasikan Syncsort dengan Azure Databricks

Buka halaman login Databricks dan Koneksi untuk Big Data dan ikuti petunjuknya.

Sumber Daya Tambahan:

Dukungan

Bagikan melalui

Menyambungkan ke Syncsort

Langkah 1: Hasilkan token akses pribadi Databricks

Langkah 2: Siapkan kluster untuk mendukung kebutuhan integrasi

Akses aman ke jalur Azure Data Lake Storage

Gunakan kunci akses akun penyimpanan Azure

Menggunakan perwakilan layanan ID Microsoft Entra

Tentukan konfigurasi kluster

Langkah 3: Dapatkan detail sambungan JDBC dan ODBC untuk menyambungkan ke kluster

Langkah 4: Konfigurasikan Syncsort dengan Azure Databricks

Sumber Daya Tambahan:

Saran dan Komentar

Sumber Daya Tambahan: