Bagikan melalui


Menyesuaikan write-back file di Azure HPC Cache

Pengguna HPC Cache dapat meminta agar cache menulis file individual tertentu ke penyimpanan back-end sesuai permintaan dengan menggunakan utilitas flush_file.py. Utilitas ini adalah paket perangkat lunak yang diunduh secara terpisah yang Anda instal dan gunakan pada komputer klien Linux.

Fitur ini dirancang untuk situasi di mana Anda ingin perubahan pada file yang di-cache tersedia sesegera mungkin untuk sistem yang tidak memasang cache.

Misalnya, Anda dapat menggunakan Azure HPC Cache untuk menskalakan pekerjaan komputasi Anda di cloud, tetapi menyimpan himpunan data Anda secara permanen di pusat data lokal. Jika tugas komputasi terjadi di pusat data yang bergantung pada perubahan yang dibuat dengan Azure HPC Cache, Anda dapat menggunakan utilitas ini untuk "mendorong" output atau perubahan yang dihasilkan oleh tugas cloud kembali ke penyimpanan NAS lokal. Ini memungkinkan file baru digunakan segera oleh sumber daya komputasi lokal.

Pilih antara write-back kustom dan flush

Anda dapat memaksa data ditulis kembali dengan opsi "flush target penyimpanan" bawaan Azure HPC Cache - tetapi pendekatan ini mungkin tidak tepat untuk semua situasi.

  • Menulis semua file yang dimodifikasi kembali ke sistem penyimpanan dapat memakan waktu beberapa menit atau bahkan berjam-jam, tergantung pada jumlah data dan kecepatan tautan jaringan kembali ke sistem lokal. Selain itu, Anda tidak dapat memilih hanya file yang telah Anda selesaikan untuk ditulis; file yang masih aktif dimodifikasi akan disertakan dalam perhitungan ini.

  • Cache mungkin memblokir penyajian beberapa permintaan dari target penyimpanan tersebut selama proses flush. Ini dapat menunda pemrosesan jika ada klien komputasi lain yang menggunakan file yang berada di target penyimpanan yang sama.

  • Memicu tindakan ini memerlukan akses kontributor ke Azure Resource Manager, yang mungkin tidak dimiliki pengguna akhir.

Misalnya, Anda dapat memiliki beberapa pekerjaan komputasi paralel (tetapi tidak tumpang tindih) yang menggunakan data yang berada di target penyimpanan HPC Cache yang sama. Ketika satu pekerjaan selesai, Anda ingin segera menulis output pekerjaan tersebut dari cache ke penyimpanan jangka panjang Anda di ujung belakang.

Anda memiliki tiga opsi:

  • Tunggu hingga file yang di-cache ditulis kembali secara otomatis dari cache - tetapi file mungkin berada di cache selama lebih dari satu jam sebelum benar-benar ditulis kembali. Waktu tergantung pada penundaan write-back model penggunaan cache Anda, bersama dengan faktor lain seperti performa tautan jaringan dan ukuran file. (Baca Pahami model penggunaan cache untuk mempelajari selengkapnya tentang penundaan write-back.)

  • Segera hapus file cache untuk seluruh target penyimpanan - tetapi itu akan mengganggu pekerjaan komputasi lain yang juga menggunakan data target penyimpanan ini.

  • Gunakan utilitas write-back yang disesuaikan ini untuk mengirim permintaan NFS khusus ke cache untuk menulis kembali hanya file tertentu yang Anda inginkan. Skenario ini tidak mengganggu akses untuk klien lain dan dapat dipicu pada titik mana pun dalam tugas komputasi.

Tentang utilitas write-back

Utilitas write-back memiliki skrip yang dapat Anda gunakan untuk menentukan file individual yang akan ditulis dari cache ke sistem penyimpanan jangka panjang.

Skrip mengambil aliran input file untuk ditulis, ditambah jalur namespace cache ke ekspor target penyimpanan Anda, dan alamat IP pemasangan HPC Cache.

Skrip menggunakan panggilan "penerapan" NFSv3 dengan argumen khusus diaktifkan. Klien Linux nfs-common tidak dapat meneruskan argumen ini dengan tepat, sehingga utilitas flush_file.py menggunakan emulator klien NFS di pustaka Python untuk berkomunikasi dengan layanan HPC Cache NFS. Pustaka mencakup semua yang diperlukan, yang melewati batasan apa pun yang mungkin ada di klien NFS berbasis Linux-kernel klien komputasi Anda.

Untuk menggunakan fitur ini, Anda perlu melakukan hal berikut:

  • hpc-cache-nfsv3-client Instal pustaka dari repositori gitHub Microsoft HPC-Cache-NFSv3-client di https://github.com/microsoft/hpc-cache-nfsv3-client. pada satu atau beberapa klien komputasi. Informasi dan instruksi prasyarat disertakan pada file README repositori.

  • Gunakan skrip 'flush_file.py' yang disertakan untuk memberi tahu cache untuk menulis file yang tepat yang Anda butuhkan kembali ke sistem penyimpanan jangka panjang.

Pelajari selengkapnya tentang menginstal dan menggunakan skrip flush_file.py di repositori GitHub.