Cara menyerap data historis ke Azure Data Explorer
Skenario umum saat onboarding ke Azure Data Explorer adalah menyerap data historis, kadang-kadang disebut isi ulang. Proses ini melibatkan penyerapan data dari sistem penyimpanan yang ada ke dalam tabel, yang merupakan kumpulan jangkauan.
Sebaiknya serap data historis menggunakan properti penyerapan creationTime untuk mengatur waktu pembuatan sejauh waktu data dibuat. Menggunakan waktu pembuatan karena kriteria pemartisian penyerapan dapat menua data Anda sesuai dengan kebijakan cache dan retensi Anda, dan membuat filter waktu lebih efisien.
Secara default, waktu pembuatan untuk jangkauan diatur ke waktu ketika data diserap, yang mungkin tidak menghasilkan perilaku yang Anda harapkan. Misalnya, Anda memiliki tabel yang memiliki periode cache 30 hari dan periode retensi dua tahun. Dalam aliran normal, data yang diserap saat diproduksi di-cache selama 30 hari dan kemudian dipindahkan ke penyimpanan dingin. Setelah dua tahun, berdasarkan waktu pembuatannya, data yang lebih lama dihapus satu hari pada satu waktu. Namun, jika Anda menyerap dua tahun data historis di mana, secara default, data ditandai dengan waktu pembuatan sebagai waktu data diserap. Ini mungkin tidak menghasilkan hasil yang diinginkan karena:
- Semua data mendarat di cache dan tinggal di sana selama 30 hari, menggunakan lebih banyak cache daripada yang Anda perkirakan.
- Data yang lebih lama tidak dihapus satu hari pada satu waktu; oleh karena itu data disimpan dalam kluster lebih lama dari yang diperlukan dan, setelah dua tahun, semuanya dihapus sekaligus.
- Data, yang sebelumnya dikelompokkan menurut tanggal dalam sistem sumber, sekarang dapat dikelompokkan bersama-sama dalam tingkat yang sama yang mengarah ke kueri yang tidak efisien.
Dalam artikel ini, Anda mempelajari cara mempartisi data historis:
creationTime
Menggunakan properti penyerapan selama penyerapan (disarankan)Jika memungkinkan, serap data historis menggunakan
creationTime
properti penyerapan, yang memungkinkan Anda mengatur waktu pembuatan sejauh mana dengan mengekstraknya dari file atau jalur blob. Jika struktur folder Anda tidak menggunakan pola tanggal pembuatan, kami sarankan Anda merestrukturisasi file atau jalur blob Anda untuk mencerminkan waktu pembuatan. Dengan menggunakan metode ini, data diserap ke dalam tabel dengan waktu pembuatan yang benar, dan periode cache dan retensi diterapkan dengan benar.Catatan
Secara default, luas dipartisi oleh waktu pembuatan (penyerapan), dan dalam banyak kasus tidak perlu menetapkan kebijakan partisi data.
Menggunakan kebijakan partisi pasca penyerapan
Jika Anda tidak dapat menggunakan
creationTime
properti penyerapan, misalnya jika Anda menyerap data menggunakan konektor Azure Cosmos DB di mana Anda tidak dapat mengontrol waktu pembuatan atau jika Anda tidak dapat merestrukturisasi struktur folder, Anda dapat mempartisi ulang penyerapan pasca tabel untuk mencapai efek yang sama menggunakan kebijakan pemartisian. Namun, metode ini mungkin memerlukan beberapa percobaan dan kesalahan untuk mengoptimalkan properti kebijakan dan kurang efisien daripada menggunakancreationTime
properti penyerapan. Kami hanya merekomendasikan metode ini saat menggunakancreationTime
properti penyerapan tidak dimungkinkan.
Prasyarat
- Akun Microsoft atau identitas pengguna Microsoft Entra. Langganan Azure tidak diperlukan.
- Kluster dan database Azure Data Explorer. Membuat kluster dan database.
- Akun penyimpanan.
- Untuk metode yang direkomendasikan dalam menggunakan
creationTime
properti penyerapan selama penyerapan, instal LightIngest.
Menyerap data historis
Kami sangat menyarankan pemartisian data historis menggunakan creationTime
properti penyerapan selama penyerapan. Namun, jika Anda tidak dapat menggunakan metode ini, Anda dapat mempartisi ulang penyerapan posting tabel menggunakan kebijakan partisi.
LightIngest dapat berguna untuk memuat data historis dari sistem penyimpanan yang ada ke Azure Data Explorer. Meskipun Anda dapat membuat perintah Anda sendiri menggunakan daftar argumen Baris perintah, artikel ini memperlihatkan kepada Anda cara membuat perintah ini secara otomatis melalui wizard penyerapan. Selain membuat perintah, Anda dapat menggunakan proses ini untuk membuat tabel baru, dan membuat pemetaan skema. Alat ini menyimpulkan pemetaan skema dari himpunan data Anda.
Tujuan
Di antarmuka pengguna web Azure Data Explorer, dari menu sebelah kiri, pilih Kueri.
Klik kanan database tempat Anda ingin menyerap data, lalu pilih LightIngest.
Jendela Serap data terbuka dengan tab Tujuan dipilih. Bidang Kluster dan Database diisi secara otomatis.
Pilih tabel target. Jika Anda ingin menyerap data ke dalam tabel baru, pilih Tabel baru, lalu masukkan nama tabel.
Catatan
Nama tabel dapat mencapai 1024 karakter termasuk spasi, alfanumerik, tanda hubung, dan garis bawah. Karakter khusus tidak didukung.
Pilih Berikutnya: Sumber.
Sumber
Di bawah Pilih sumber, pilih Tambahkan URL atau Pilih kontainer.
Saat menambahkan URL, di bawah Tautkan ke sumber, tentukan kunci akun atau URL SAS ke kontainer. Anda dapat membuat URL SAS secara manual atau otomatis.
Saat memilih kontainer dari akun penyimpanan Anda, pilih langganan Penyimpanan, Akun penyimpanan, dan Kontainer Anda dari menu dropdown.
Catatan
Penyerapan mendukung ukuran file maksimum 6 GB. Rekomendasinya adalah menyerap file antara 100 MB dan 1 GB.
Pilih Pengaturan tingkat lanjut untuk menentukan pengaturan tambahan untuk proses penyerapan menggunakan LightIngest.
Di panel Konfigurasi tingkat lanjut, tentukan pengaturan LightIngest sesuai dengan tabel berikut ini.
Properti Deskripsi Pola waktu pembuatan Tentukan untuk mengambil alih properti waktu penyerapan dari tingkat yang dibuat dengan pola, misalnya, untuk menerapkan tanggal berdasarkan struktur folder kontainer. Lihat juga Pola waktu pembuatan. Pola nama blob Tentukan pola yang digunakan untuk mengidentifikasi file yang akan diserap. Serap semua file yang cocok dengan pola nama blob dalam kontainer yang diberikan. Mendukung kartubebas. Kami merekomendasikan untuk mengapit tanda kutip ganda. Menandai Tag yang ditetapkan ke data yang diserap. Tag dapat berupa string apa pun. Batasi jumlah file Tentukan jumlah file yang dapat diserap. Menyerap file pertama n
yang cocok dengan pola nama blob, hingga angka yang ditentukan.Jangan menunggu penyerapan selesai Jika diatur, mengantrekan blob untuk penyerapan tanpa memantau proses penyerapan. Jika tidak diatur, LightIngest terus melakukan polling status penyerapan hingga penyerapan selesai. Tampilkan hanya item terpilih Cantumkan file dalam kontainer, tetapi tidak menyerapnya. Pilih Selesai untuk kembali ke tab Sumber .
Secara opsional, pilih Filter File untuk memfilter data untuk menyerap hanya file di jalur folder tertentu atau dengan ekstensi file tertentu.
Secara default, salah satu file dalam kontainer dipilih secara acak dan digunakan untuk menghasilkan skema untuk tabel.
Secara opsional, di bawah Skema yang menentukan file, Anda dapat menentukan file yang akan digunakan.
Pilih Berikutnya: Skema untuk melihat dan mengedit konfigurasi kolom tabel Anda.
Skema
Tab skema menyediakan pratinjau data.
Untuk menghasilkan perintah LightIngest, pilih Berikutnya: Mulai Penyerapan.
Opsional:
- Ubah format Data yang disimpulkan secara otomatis dengan memilih format yang diinginkan dari menu dropdown.
- Ubah nama Pemetaan yang disimpulkan secara otomatis. Anda dapat menggunakan karakter alfanumerik dan garis bawah. Spasi, karakter khusus, dan tanda hubung tidak didukung.
- Saat menggunakan tabel yang sudah ada, Anda dapat Menyimpan skema tabel saat ini jika skema tabel cocok dengan format yang dipilih.
- Pilih Penampil perintah untuk melihat dan menyalin perintah otomatis yang dihasilkan dari input Anda.
- Edit kolom. Di bawah Pratinjau data parsial, pilih menu dropdown kolom untuk mengubah berbagai aspek tabel.
Perubahan yang dapat Anda lakukan dalam tabel tergantung pada parameter berikut:
- Jenis tabel baru atau sudah ada
- Jenis pemetaan baru atau sudah ada
Jenis tabel | Jenis Pemetaan | Penyesuaian yang tersedia |
---|---|---|
Tabel Baru | Tambahkan Pemetaan Baru | Mengubah tipe data, Mengganti nama kolom, Kolom baru, Hapus kolom, Perbarui kolom, Urutkan naik, Urutkan turun |
Tabel yang sudah ada | Tambahkan Pemetaan Baru | Kolom baru (di mana Anda kemudian dapat mengubah jenis data, mengganti nama, dan memperbarui), Perbarui kolom, Urutkan naik, Urutkan turun |
Pemetaan yang ada | Urutkan naik, Urutkan turun |
Catatan
Saat menambahkan kolom baru atau memperbarui kolom, Anda dapat mengubah transformasi pemetaan. Untuk informasi selengkapnya, lihat alur pemetaan data.
Menyerap
Setelah perintah tabel, pemetaan, dan LightIngest ditandai dengan tanda centang hijau, pilih ikon salin di kanan atas kotak perintah Yang Dihasilkan untuk menyalin perintah LightIngest yang dihasilkan.
Catatan
Jika diperlukan, Anda dapat mengunduh alat LightIngest dengan memilih Unduh LightIngest.
Untuk menyelesaikan proses penyerapan, Anda harus menjalankan LightIngest menggunakan perintah yang disalin.