Memindahkan data ke penyimpanan Azure Blob
Jika alur kerja Anda menyertakan pemindahan data ke penyimpanan Azure Blob, pastikan Anda menggunakan strategi yang efisien. Anda harus membuat cache, menambahkan kontainer blob sebagai target penyimpanan, lalu menyalin data Anda menggunakan Azure HPC Cache.
Artikel ini menjelaskan cara terbaik untuk memindahkan data ke penyimpanan blob untuk digunakan dengan Azure HPC Cache.
Tip
Artikel ini tidak berlaku untuk penyimpanan blob yang dipasang di NFS (target penyimpanan ADLS-NFS). Anda dapat menggunakan metode berbasis NFS apa pun untuk mengisi kontainer blob ADLS-NFS sebelum atau sesudah menambahkannya ke HPC Cache. Baca Pra-muat data dengan protokol NFS untuk mempelajari lebih lanjut.
Perhatikan fakta-fakta ini:
Azure HPC Cache menggunakan format penyimpanan khusus untuk menata data dalam penyimpanan blob. Inilah sebabnya mengapa target penyimpanan blob harus berupa kontainer baru yang kosong, atau kontainer blob yang sebelumnya digunakan untuk data Azure HPC Cache.
Menyalin data melalui Azure HPC Cache ke target penyimpanan ujung belakang lebih efisien saat Anda menggunakan beberapa klien dan operasi paralel. Perintah salinan sederhana dari satu klien akan memindahkan data secara perlahan.
Strategi yang diuraikan dalam artikel ini berfungsi untuk mengisi kontainer blob kosong atau untuk menambahkan file ke target penyimpanan yang digunakan sebelumnya.
Azure HPC Cache dirancang untuk melayani beberapa klien secara bersamaan, jadi untuk menyalin data melalui cache, Anda harus menggunakan penulisan paralel dari beberapa klien.
Perintah cp
atau copy
yang biasanya Anda gunakan untuk mentransfer data dari satu sistem penyimpanan ke sistem penyimpanan lainnya adalah proses beralur tunggal yang hanya menyalin satu file sekaligus. Ini berarti bahwa server file hanya menyerap satu file pada satu waktu - yang membuang-buang sumber daya cache.
Bagian ini menjelaskan strategi untuk membuat sistem penyalinan file multi-klien dan multi-rangkaian untuk memindahkan data ke penyimpanan blob dengan Azure HPC Cache. Hal ini menjelaskan konsep transfer file dan poin keputusan yang dapat digunakan untuk penyalinan data yang efisien menggunakan beberapa klien dan perintah salinan sederhana.
Hal ini juga menjelaskan beberapa utilitas yang dapat membantu. Utilitas msrsync
dapat digunakan untuk mengotomatiskan sebagian proses membagi himpunan data ke dalam wadah dan menggunakan perintah rsync. Skrip parallelcp
adalah utilitas lain yang membaca direktori sumber dan mengeluarkan perintah salin secara otomatis.
Saat membangun strategi untuk menyalin data secara paralel, Anda harus memahami pertukaran dalam ukuran file, jumlah file, dan kedalaman direktori.
- Jika ukuran file kecil, metrik yang dimaksud adalah file per detik.
- Jika ukuran file besar (10MiBi atau lebih besar), metrik yang dimaksud adalah byte per detik.
Setiap proses salin memiliki laju throughput dan laju yang ditransfer file, yang dapat diukur dengan mengatur waktu panjang perintah salin dan memperhitungkan ukuran file dan jumlah file. Menjelaskan cara mengukur tarif berada di luar cakupan dokumen ini, tetapi sangat penting untuk memahami apakah Anda akan berurusan dengan file kecil atau besar.
Strategi untuk peresapan data paralel dengan Azure HPC Cache meliputi:
Penyalinan manual - Anda dapat membuat salinan multi-rangkaian secara manual pada klien dengan menjalankan lebih dari satu perintah salinan sekaligus di latar belakang terhadap kumpulan file atau jalur yang telah ditentukan sebelumnya. Baca Penyerapan Azure HPC Cache data - metode salin manual untuk lebih detailnya.
Penyalinan otomatis sebagian dengan
msrsync
-msrsync
adalah utilitas pembungkus yang mengeksekusi beberapa proses paralelrsync
. Untuk detailnya, baca Penyerapan data Azure HPC Cache - metode msrsync.Penyalinan dengan skrip
parallelcp
- Pelajari cara membuat dan menjalankan skrip salinan paralel di penyerapan data Azure HPC Cache - metode skrip salin paralel.
Setelah Anda menyiapkan penyimpanan, pelajari bagaimana klien dapat memasang cache.