Gunakan utilitas UCX untuk meningkatkan ruang kerja Anda ke Katalog Unity
Artikel ini memperkenalkan UCX, proyek Databricks Labs yang menyediakan alat untuk membantu Anda meningkatkan ruang kerja yang tidakUnity-Catalog ke Unity Catalog.
Catatan
UCX, seperti semua proyek di akun GitHub databrickslabs, disediakan hanya untuk eksplorasi Anda, dan tidak didukung secara resmi oleh Databricks dengan perjanjian tingkat layanan (SLA). Ini disediakan apa adanya. Kami tidak membuat jaminan apapun. Jangan mengirimkan tiket dukungan Databricks yang berkaitan dengan masalah yang muncul dari penggunaan proyek ini. Sebagai gantinya, ajukan masalah GitHub. Masalah akan ditinjau sebagai izin waktu, tetapi tidak ada SLA formal untuk dukungan.
Proyek UCX menyediakan alat dan alur kerja migrasi berikut:
- Alur kerja penilaian untuk membantu Anda merencanakan migrasi.
- Alur kerja migrasi grup untuk membantu Anda meningkatkan keanggotaan grup dari ruang kerja Ke akun Databricks Anda dan memigrasikan izin ke grup tingkat akun baru.
- alur kerja migrasi tabel untuk membantu Anda memperbarui tabel yang terdaftar di metastore Hive ruang kerja Anda ke metastore Unity Catalog. Alur kerja ini juga membantu Anda memigrasikan lokasi penyimpanan dan kredensial yang diperlukan untuk mengaksesnya.
Diagram ini menunjukkan alur migrasi keseluruhan, mengidentifikasi alur kerja migrasi dan utilitas berdasarkan nama:
Catatan
Alur kerja migrasi kode yang digambarkan dalam diagram tetap dalam pengembangan dan belum tersedia.
Sebelum Anda mulai
Sebelum Anda dapat menginstal UCX dan menjalankan alur kerja UCX, lingkungan Anda harus memenuhi persyaratan berikut.
paket terinstal di komputer tempat Anda menjalankan UCX:
Databricks CLI v0.213 atau lebih tinggi. Lihat Menginstal atau memperbarui Databricks CLI.
Anda harus memiliki file konfigurasi Databricks dengan profil konfigurasi untuk ruang kerja dan akun Databricks.
Python 3.10 atau lebih tinggi.
Jika Anda ingin menjalankan alur kerja UCX yang mengidentifikasi lokasi penyimpanan yang digunakan oleh tabel Apache Hive di ruang kerja Anda (disarankan, tetapi tidak diperlukan), Anda harus menginstal CLI untuk penyedia penyimpanan cloud (Azure CLI atau AWS CLI) di komputer tempat Anda menjalankan alur kerja UCX.
Akses jaringan:
- Akses jaringan dari komputer yang menjalankan penginstalan UCX ke ruang kerja Azure Databricks yang Anda migrasikan.
- Akses jaringan ke internet dari komputer yang menjalankan penginstalan UCX. Ini diperlukan untuk akses ke pypi.org dan github.com.
- Akses jaringan dari ruang kerja Azure Databricks Anda ke pypi.org untuk mengunduh
databricks-sdk
paket danpyyaml
.
Peran dan izin Databricks:
- Admin akun Azure Databricks dan peran admin ruang kerja untuk pengguna yang menjalankan penginstalan UCX. Anda tidak dapat menjalankan penginstalan sebagai perwakilan layanan.
Prasyarat Databricks lainnya:
Metastore Unity Catalog dibuat untuk setiap wilayah yang memiliki ruang kerja yang ingin Anda tingkatkan, dengan masing-masing ruang kerja Azure Databricks terhubung ke metastore Unity Catalog.
Untuk mempelajari cara menentukan apakah Anda sudah memiliki metastore Unity Catalog di wilayah ruang kerja yang relevan, cara membuat metastore jika tidak, dan cara melampirkan metastore Unity Catalog ke ruang kerja, lihat Langkah 1: Konfirmasikan bahwa ruang kerja Anda diaktifkan untuk Unity Catalog di artikel penyiapan Katalog Unity. Sebagai alternatif, UCX menyediakan alat untuk menetapkan metastores Unity Catalog ke ruang kerja yang dapat Anda gunakan setelah UCX diinstal.
Melampirkan metastore Unity Catalog ke ruang kerja juga memungkinkan federasi identitas, di mana Anda memusatkan manajemen pengguna di tingkat akun Azure Databricks, yang juga merupakan prasyarat untuk menggunakan UCX. Lihat Mengaktifkan federasi identitas.
Jika ruang kerja Anda menggunakan metastore Apache Hive eksternal (seperti AWS Glue) alih-alih metastore Apache Hive lokal ruang kerja default, Anda harus melakukan beberapa penyiapan prasyarat. Lihat Integrasi Metastore Apache Hive Eksternal di repositori databrickslabs/ucx.
Gudang SQL Pro atau Tanpa Server yang berjalan di ruang kerja tempat Anda menjalankan alur kerja UCX, diperlukan untuk merender laporan yang dihasilkan oleh alur kerja penilaian.
Menginstal UCX
Untuk menginstal UCX, gunakan Databricks CLI:
databricks labs install ucx
Anda diminta untuk memilih hal berikut:
Profil konfigurasi Databricks untuk ruang kerja yang ingin Anda tingkatkan. File konfigurasi juga harus menyertakan profil konfigurasi untuk akun Databricks induk ruang kerja.
Nama untuk database inventori yang akan digunakan untuk menyimpan output alur kerja migrasi. Biasanya tidak masalah untuk memilih default, yaitu
ucx
.Gudang SQL untuk menjalankan proses penginstalan.
Daftar grup ruang kerja-lokal yang ingin Anda migrasikan ke grup tingkat akun. Jika Anda membiarkan ini sebagai default (
<ALL>
), grup tingkat akun yang sudah ada yang namanya cocok dengan grup ruang kerja-lokal akan diperlakukan sebagai pengganti untuk grup ruang kerja-lokal tersebut dan akan mewarisi semua izin ruang kerjanya saat Anda menjalankan alur kerja migrasi grup setelah penginstalan.Anda memiliki kesempatan untuk memodifikasi pemetaan grup-grup-ke-akun-ruang kerja setelah Anda menjalankan alat penginstal dan sebelum Anda menjalankan migrasi grup. Lihat Resolusi Konflik Nama Grup di repositori UCX.
Jika Anda memiliki metastore Apache Hive eksternal, seperti AWS Glue, Anda memiliki opsi untuk menyambungkannya atau tidak. Lihat Integrasi Metastore Apache Hive Eksternal di repositori databrickslabs/ucx.
Apakah akan membuka buku catatan README yang dihasilkan.
Setelah penginstalan selesai, ia menyebarkan buku catatan README, dasbor, database, pustaka, pekerjaan, dan aset lainnya di ruang kerja Anda.
Untuk informasi selengkapnya, lihat instruksi penginstalan dalam readme proyek. Anda juga dapat menginstal UCX di semua ruang kerja di akun Databricks Anda.
Buka buku catatan README
Setiap penginstalan membuat buku catatan README yang menyediakan deskripsi terperinci tentang semua alur kerja dan tugas, dengan tautan cepat ke alur kerja dan dasbor. Lihat Buku catatan Readme.
Langkah 1. Menjalankan alur kerja penilaian
Alur kerja penilaian menilai kompatibilitas Katalog Unity dari identitas grup, lokasi penyimpanan, kredensial penyimpanan, kontrol akses, dan tabel di ruang kerja saat ini dan menyediakan informasi yang diperlukan untuk merencanakan migrasi ke Katalog Unity. Tugas dalam alur kerja penilaian dapat dijalankan secara paralel atau berurutan, tergantung pada dependensi yang ditentukan. Setelah alur kerja penilaian selesai, dasbor penilaian diisi dengan temuan dan rekomendasi umum.
Output dari setiap tugas alur kerja disimpan dalam tabel Delta dalam skema $inventory_database
yang Anda tentukan selama penginstalan. Anda dapat menggunakan tabel ini untuk melakukan analisis dan pengambilan keputusan lebih lanjut menggunakan laporan penilaian . Anda dapat menjalankan alur kerja penilaian beberapa kali untuk memastikan bahwa semua entitas yang tidak kompatibel diidentifikasi dan diperhitungkan sebelum Anda memulai proses migrasi.
Anda dapat memicu alur kerja penilaian dari notebook README yang dihasilkan UCX dan UI Azure Databricks (Penilaian Pekerjaan > Alur > Kerja [UCX]), atau menjalankan perintah Databricks CLI berikut:
databricks labs ucx ensure-assessment-run
Untuk instruksi mendetail, lihat Alur kerja penilaian.
Langkah 2. Menjalankan alur kerja migrasi grup
Alur kerja migrasi grup meningkatkan grup lokal ruang kerja menjadi grup pada tingkat akun guna mendukung Unity Catalog. Ini memastikan bahwa grup tingkat akun yang sesuai tersedia di ruang kerja dan mereplikasi semua izin. Ini juga menghapus grup dan izin yang tidak perlu dari ruang kerja. Tugas dalam alur kerja migrasi grup bergantung pada output alur kerja penilaian.
Output dari setiap tugas alur kerja disimpan dalam tabel Delta dalam skema $inventory_database
yang Anda tentukan selama penginstalan. Anda dapat menggunakan tabel ini untuk melakukan analisis dan pengambilan keputusan lebih lanjut. Anda dapat menjalankan alur kerja migrasi grup beberapa kali untuk memastikan bahwa semua grup berhasil dimutakhirkan dan bahwa semua izin yang diperlukan ditetapkan.
Untuk informasi tentang menjalankan alur kerja migrasi grup, lihat buku catatan README yang dihasilkan UCX dan Alur kerja migrasi grup di readme UCX.
Langkah 3. Menjalankan alur kerja migrasi tabel
Alur kerja migrasi tabel memperbarui tabel dari metastore Apache Hive ke metastore Unity Catalog. Tabel eksternal dalam metastore Hive dapat ditingkatkan menjadi tabel eksternal di Katalog Unity, menggunakan SYNC. Tabel terkelola di metastore Apache Hive yang disimpan dalam penyimpanan ruang kerja (juga dikenal sebagai akar DBFS) ditingkatkan sebagai tabel terkelola di Katalog Unity, menggunakan DEEP CLONE.
Tabel terkelola Apache Hive harus dalam format Delta atau Parquet untuk dimutakhirkan. Tabel Hive eksternal harus dalam salah satu format data yang tercantum dalam Bekerja dengan tabel eksternal.
Jalankan perintah persiapan
Migrasi tabel mencakup sejumlah tugas persiapan yang Anda jalankan sebelum menjalankan alur kerja migrasi tabel. Anda melakukan tugas-tugas ini menggunakan perintah Databricks CLI berikut:
- Perintah
create-table-mapping
, yang membuat file CSV yang memetakan sebuah katalog, skema, dan tabel pada Unity Catalog target ke setiap tabel Apache Hive yang akan ditingkatkan. Anda harus meninjau dan memperbarui file pemetaan sebelum melanjutkan dengan alur kerja migrasi. - Perintah
create-uber-principal
adalah perintah yang membuat prinsipal layanan dengan akses baca-saja ke semua penyimpanan yang digunakan oleh tabel di ruang kerja ini. Sumber daya komputasi untuk pekerjaan alur kerja menggunakan prinsip ini untuk meningkatkan tabel di ruang kerja. Deprovisi perwakilan layanan ini ketika Anda selesai dengan peningkatan Anda. - (Opsional) Perintah
principal-prefix-access
, yang mengidentifikasi akun penyimpanan dan kredensial akses penyimpanan yang digunakan oleh tabel Apache Hive di ruang kerja. - (Opsional) Perintah
migrate-credentials
, yang membuat kredensial penyimpanan Katalog Unity dari kredensial akses penyimpanan yang diidentifikasi olehprincipal-prefix-access
. - (Opsional) Perintah
migration locations
, yang membuat lokasi eksternal Unity Catalog dari lokasi penyimpanan yang diidentifikasi oleh alur kerja penilaian, dengan menggunakan kredensial penyimpanan yang dibuat olehmigrate-credentials
. - (Opsional) Perintah
create-catalogs-schemas
, yang membuat katalog dan skema Katalog Unity untuk menyimpan tabel yang telah ditingkatkan.
Untuk detailnya, termasuk perintah dan opsi alur kerja migrasi tabel tambahan, lihat perintah migrasi tabel dalam readme UCX.
Menjalankan migrasi tabel
Setelah menjalankan tugas persiapan, Anda bisa menjalankan alur kerja migrasi tabel dari buku catatan README yang dihasilkan UCX atau dari Alur Kerja > Pekerjaan di UI ruang kerja.
Output dari setiap tugas alur kerja disimpan dalam tabel Delta dalam skema $inventory_database
yang Anda tentukan selama penginstalan. Anda dapat menggunakan tabel ini untuk melakukan analisis dan pengambilan keputusan lebih lanjut. Anda mungkin perlu menjalankan alur kerja migrasi tabel beberapa kali untuk memastikan bahwa semua tabel berhasil dimutakhirkan.
Untuk instruksi migrasi tabel lengkap, lihat buku catatan README yang dihasilkan UCX dan alur kerja migrasi tabel dalam readme UCX.
Alat tambahan
UCX juga mencakup:
Utilitas untuk mengaktifkanfederasi metastore Apache Hive
, alat integrasi Azure Databricks yang memungkinkan Unity Catalog untuk mengatur tabel yang terdaftar dalam metastore Apache Hive: enable-hms-federation
create-federated-catalog
Federasi metastore Apache Hive membantu dalam migrasi dengan memungkinkan Anda menjalankan beban kerja pada metastore Apache Hive lama Anda dan salinan cerminnya di Katalog Unity, yang mempermudah transisi ke Katalog Unity. Untuk informasi selengkapnya tentang menggunakan federasi metastore Apache Hive dalam skenario migrasi, lihat Bagaimana Anda menggunakan federasi metastore Apache Hive selama migrasi ke Unity Catalog?.
Alat debugging dan utilitas lainnya untuk membantu keberhasilan migrasi Anda.
Untuk informasi selengkapnya, lihat notebook README yang dihasilkan UCX dan readme proyek UCX Anda.
Tingkatkan penginstalan UCX Anda
Proyek UCX diperbarui secara berkala. Untuk meningkatkan penginstalan UCX Anda ke versi terbaru:
Verifikasi bahwa UCX telah diinstal.
databricks labs installed Name Description Version ucx Unity Catalog Migration Toolkit (UCX) 0.20.0
Jalankan peningkatan:
databricks labs upgrade ucx
Dapatkan bantuan
Untuk bantuan terkait UCX CLI, jalankan:
databricks labs ucx --help
Untuk bantuan terkait perintah UCX tertentu, jalankan:
databricks labs ucx <command> --help
Untuk memecahkan masalah:
- Jalankan
--debug
dengan perintah apa pun untuk mengaktifkan log debug. - Gunakan buku catatan debug yang dihasilkan secara otomatis oleh UCX.
Untuk mengajukan masalah atau permintaan fitur, ajukan masalah GitHub.