Baca dalam bahasa Inggris

Bagikan melalui


Memindahkan data ke penyimpanan Azure Blob

Jika alur kerja Anda menyertakan pemindahan data ke penyimpanan Azure Blob, pastikan Anda menggunakan strategi yang efisien. Anda harus membuat cache, menambahkan kontainer blob sebagai target penyimpanan, lalu menyalin data Anda menggunakan Azure HPC Cache.

Artikel ini menjelaskan cara terbaik untuk memindahkan data ke penyimpanan blob untuk digunakan dengan Azure HPC Cache.

Tip

Artikel ini tidak berlaku untuk penyimpanan blob yang dipasang di NFS (target penyimpanan ADLS-NFS). Anda dapat menggunakan metode berbasis NFS apa pun untuk mengisi kontainer blob ADLS-NFS sebelum atau sesudah menambahkannya ke HPC Cache. Baca Pra-muat data dengan protokol NFS untuk mempelajari lebih lanjut.

Perhatikan fakta-fakta ini:

  • Azure HPC Cache menggunakan format penyimpanan khusus untuk menata data dalam penyimpanan blob. Inilah sebabnya mengapa target penyimpanan blob harus berupa kontainer baru yang kosong, atau kontainer blob yang sebelumnya digunakan untuk data Azure HPC Cache.

  • Menyalin data melalui Azure HPC Cache ke target penyimpanan ujung belakang lebih efisien saat Anda menggunakan beberapa klien dan operasi paralel. Perintah salinan sederhana dari satu klien akan memindahkan data secara perlahan.

Strategi yang diuraikan dalam artikel ini berfungsi untuk mengisi kontainer blob kosong atau untuk menambahkan file ke target penyimpanan yang digunakan sebelumnya.

Menyalin data melalui Azure HPC Cache

Azure HPC Cache dirancang untuk melayani beberapa klien secara bersamaan, jadi untuk menyalin data melalui cache, Anda harus menggunakan penulisan paralel dari beberapa klien.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

Perintah cp atau copy yang biasanya Anda gunakan untuk mentransfer data dari satu sistem penyimpanan ke sistem penyimpanan lainnya adalah proses beralur tunggal yang hanya menyalin satu file sekaligus. Ini berarti bahwa server file hanya menyerap satu file pada satu waktu - yang membuang-buang sumber daya cache.

Bagian ini menjelaskan strategi untuk membuat sistem penyalinan file multi-klien dan multi-rangkaian untuk memindahkan data ke penyimpanan blob dengan Azure HPC Cache. Hal ini menjelaskan konsep transfer file dan poin keputusan yang dapat digunakan untuk penyalinan data yang efisien menggunakan beberapa klien dan perintah salinan sederhana.

Hal ini juga menjelaskan beberapa utilitas yang dapat membantu. Utilitas msrsync dapat digunakan untuk mengotomatiskan sebagian proses membagi himpunan data ke dalam wadah dan menggunakan perintah rsync. Skrip parallelcp adalah utilitas lain yang membaca direktori sumber dan mengeluarkan perintah salin secara otomatis.

Perencanaan strategis

Saat membangun strategi untuk menyalin data secara paralel, Anda harus memahami pertukaran dalam ukuran file, jumlah file, dan kedalaman direktori.

  • Jika ukuran file kecil, metrik yang dimaksud adalah file per detik.
  • Jika ukuran file besar (10MiBi atau lebih besar), metrik yang dimaksud adalah byte per detik.

Setiap proses salin memiliki laju throughput dan laju yang ditransfer file, yang dapat diukur dengan mengatur waktu panjang perintah salin dan memperhitungkan ukuran file dan jumlah file. Menjelaskan cara mengukur tarif berada di luar cakupan dokumen ini, tetapi sangat penting untuk memahami apakah Anda akan berurusan dengan file kecil atau besar.

Strategi untuk peresapan data paralel dengan Azure HPC Cache meliputi:

Langkah berikutnya

Setelah Anda menyiapkan penyimpanan, pelajari bagaimana klien dapat memasang cache.