Meningkatkan Azure Blob Storage dengan kemampuan Azure Data Lake Storage
Artikel ini membantu Anda mengaktifkan namespace hierarkis dan membuka kunci kemampuan seperti keamanan tingkat file dan direktori dan operasi yang lebih cepat. Kemampuan ini banyak digunakan oleh beban kerja analitik big data dan disebut secara kolektif sebagai Azure Data Lake Storage. Kemampuan yang paling populer meliputi:
Throughput yang lebih tinggi, operasi masukan/keluaran per detik (IOPS), dan batas kapasitas penyimpanan.
Operasi yang lebih cepat (seperti mengganti nama operasi) karena Anda dapat beroperasi pada URI node individual.
Mesin kueri yang efisien yang hanya mentransfer data yang diperlukan untuk melakukan operasi tertentu.
Keamanan di tingkat kontainer, direktori, dan file.
Untuk mempelajari selengkapnya tentang hal tersebut, lihat Pengenalan Azure Data Lake Storage.
Artikel ini membantu Anda mengevaluasi dampak pada beban kerja, aplikasi, biaya, integrasi layanan, alat, fitur, dan dokumentasi. Pastikan untuk meninjau dampak ini dengan hati-hati. Saat Anda siap untuk meningkatkan akun, lihat panduan langkah demi langkah ini: Meningkatkan Azure Blob Storage dengan kemampuan Azure Data Lake Storage.
Penting
Peningkatan merupakan proses satu arah. Tidak ada cara untuk mengembalikan akun Anda setelah melakukan peningkatan. Kami menyarankan Anda memvalidasi peningkatan Anda di lingkungan nonproduksi.
Dampak terhadap ketersediaan
Pastikan untuk merencanakan beberapa waktu henti di akun Anda saat proses peningkatan selesai. Operasi tulis dinonaktifkan saat akun Anda sedang ditingkatkan. Operasi baca tidak dinonaktifkan, tetapi kami sangat menyarankan agar Anda menangguhkan operasi baca, karena operasi tersebut mungkin merusak proses peningkatan.
Dampak pada beban kerja dan aplikasi
API Blob bekerja dengan akun yang memiliki ruang nama hierarkis, sehingga sebagian besar aplikasi yang berinteraksi dengan akun Anda dengan menggunakan API ini terus bekerja tanpa modifikasi.
Untuk daftar lengkap masalah dan solusi, lihat Masalah yang diketahui dengan API Blob Storage.
Setiap beban kerja Hadoop yang menggunakan driver Windows Azure Storage Blob driver (WASB), harus dimodifikasi untuk menggunakan driver Azure Blob File System (ABFS ). Tidak seperti driver WASB yang membuat permintaan ke titik akhir Blob service, driver ABFS akan membuat permintaan ke titik akhir Data Lake Storage akun Anda.
Titik akhir Data Lake Storage
Akun Anda yang ditingkatkan akan memiliki titik akhir penyimpanan Data Lake. Anda dapat menemukan ID sumber daya di portal Microsoft Azure dengan membuka halaman Properti di akun penyimpanan Anda.
Anda tidak perlu memodifikasi aplikasi dan beban kerja yang ada untuk menggunakan titik akhir tersebut. Akses multiprotocol di Data Lake Storage memungkinkan Anda untuk menggunakan titik akhir Blob service atau titik akhir penyimpanan Data Lake untuk berinteraksi dengan data Anda.
Layanan dan alat Azure (seperti AzCopy) mungkin menggunakan titik akhir penyimpanan Data Lake untuk berinteraksi dengan data di akun penyimpanan Anda. Selain itu, Anda harus menggunakan titik akhir baru ini untuk operasi apa pun yang Anda lakukan dengan menggunakan SDK Data Lake Storage, perintah PowerShell, atau perintah Azure CLI.
Direktori
Akun penyimpanan Blob yang tidak memiliki ruang nama hierarkis mengatur file dalam paradigma datar, bukan paradigma hierarkis. Blob diatur ke direktori virtual untuk meniru struktur folder. Direktori virtual merupakan bagian dari nama blob dan ditunjukkan oleh karakter pemisah. Karena direktori virtual adalah bagian dari nama blob, itu tidak benar-benar ada sebagai objek independen.
Akun baru Anda memiliki ruang nama hierarkis. Itu berarti bahwa direktori tidak virtual. Mereka adalah objek konkret dan independen yang dapat Anda operasikan secara langsung. Direktori dapat ada tanpa berisi file apa pun. Ketika Anda menghapus direktori, semua file di direktori itu terhapus. Anda tidak lagi harus menghapus setiap blob individu sebelum direktori menghilang.
Metadata blob
Sebelum migrasi, metadata blob dikaitkan dengan nama blob bersama dengan seluruh jalur virtualnya. Setelah migrasi, metadata hanya terkait dengan blob. Jalur virtual ke blob menjadi kumpulan direktori. Metadata blob tidak diterapkan pada salah satu direktori tersebut.
Operasi put
Saat Anda mengunggah blob, dan jalur yang Anda tentukan menyertakan direktori yang tidak ada, operasi membuat direktori tersebut, lalu menambahkan blob ke dalamnya. Perilaku ini logis dalam konteks struktur folder hierarkis. Di akun penyimpanan Blob yang tidak memiliki ruang nama hierarkis, operasi tidak membuat direktori. Sebagai gantinya, nama direktori ditambahkan ke nama blob.
Operasi daftar
Operasi Daftar Blobs menampilkan direktori dan file. Masing-masing terdaftar secara terpisah. Direktori muncul dalam daftar sebagai blob panjang nol. Dalam akun penyimpanan Blob yang tidak memiliki ruang nama hierarkis, operasi Daftar Blobs hanya menampilkan blob dan bukan direktori. Jika Anda menggunakan operasi Jalur Penyimpanan Data Lake - Daftar , direktori akan muncul sebagai entri direktori dan bukan sebagai blob panjang nol.
Urutan daftar juga berbeda. Direktori dan file muncul dalam urutan pencarian mendalam pertama. Akun penyimpanan Blob yang tidak memiliki ruang nama hierarkis mencantumkan blob dalam urutan leksikografis.
Operasi untuk mengganti nama blob
Mengganti nama blob jauh lebih efisien karena aplikasi klien dapat mengganti nama blob dalam satu operasi. Dalam akun yang tidak memiliki ruang nama hierarkis, alat dan aplikasi harus menyalin blob dan kemudian menghapus blob sumber.
Catatan
Ketika Anda mengganti nama blob, waktu terakhir yang dimodifikasi dari blob tidak diperbarui. Itu karena isi blob tidak berubah.
Dampak terhadap biaya
Tidak ada biaya untuk melakukan peningkatan. Setelah Anda meningkatkan, biaya untuk menyimpan data Anda tidak berubah, tetapi biaya transaksi dapat berubah tergantung pada klien titik akhir akun Penyimpanan, aplikasi, dan beban kerja yang Anda gunakan untuk membaca dan menulis data. Lihat Permintaan ke titik akhir layanan blob dan Permintaan ke titik akhir Data Lake Storage.
Selain perubahan harga, pertimbangkan penghematan biaya yang terkait dengan kemampuan Data Lake Storage. Total keseluruhan biaya kepemilikan biasanya menurun karena throughput yang lebih tinggi dan operasi yang dioptimalkan. Throughput yang lebih tinggi memungkinkan Anda untuk mentransfer lebih banyak data dalam waktu yang lebih singkat. Ruang nama hierarkis meningkatkan efisiensi operasi.
Dampak pada integrasi layanan
Meskipun sebagian besar integrasi layanan Azure akan terus berfungsi setelah Anda mengaktifkan kemampuan ini, beberapa di antaranya tetap dalam pratinjau atau belum didukung. Lihat Layanan Azure yang mendukung Azure Data Lake Storage untuk memahami dukungan saat ini untuk integrasi layanan Azure dengan Data Lake Storage.
Dampak pada alat, fitur, dan dokumentasi
Setelah Anda meningkatkan, cara Anda berinteraksi dengan beberapa fitur akan berubah. Bagian ini menjelaskan perubahan tersebut.
Dukungan fitur Blob Storage
Meskipun sebagian besar fitur penyimpanan Blob akan terus berfungsi setelah Anda mengaktifkan kemampuan ini, beberapa di antaranya tetap dalam pratinjau atau belum didukung.
Lihat Fitur Blob Storage yang tersedia di Azure Data Lake Storage untuk memahami dukungan saat ini untuk fitur penyimpanan Blob dengan Data Lake Storage.
Log Diagnostik
Jika Anda mengaktifkan Pencatatan analitik penyimpanan, Anda sekarang memiliki opsi untuk menggunakan format log versi 2.0.
Anda tidak perlu menggunakan versi baru ini. Namun, setiap operasi yang diterapkan ke titik akhir penyimpanan Data Lake hanya dicatat dalam log versi 2.0. Beberapa layanan dan alat yang Anda gunakan (seperti AzCopy) akan menggunakan titik akhir tersebut untuk melakukan operasi di akun Anda. Untuk memastikan bahwa Anda menangkap informasi log dari semua aktivitas, pertimbangkan untuk menggunakan format log versi 2.0.
Manajemen Siklus Hidup Azure
Ini secara efektif menjelaskan bahwa kebijakan untuk memindahkan atau menghapus semua blob dalam direktori tidak akan menghapus direktori itu sendiri sampai semua blob di dalamnya dihapus, dan direktori akan dihapus pada hari berikutnya.
Event Grid
Akun baru Anda memiliki dua titik akhir: titik akhir penyimpanan Data Lake, dan titik akhir Blob service. Layanan, alat, dan aplikasi dapat menggunakan titik akhir mana saja untuk beroperasi pada data Anda. Akibatnya, respons aktivitas yang ditampilkan oleh Event Grid dapat menunjukkan salah satu dari dua titik akhir ini di bidang url yang menggambarkan blob yang terpengaruh.
JSON berikut menunjukkan url blob yang muncul dalam respons aktivitas saat blob dibuat menggunakan titik akhir Blob service.
{
"topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
"subject": "/blobServices/default/containers/test-container/blobs/new-file.txt",
"eventType": "Microsoft.Storage.BlobCreated",
"eventTime": "2017-06-26T18:41:00.9584103Z",
"id": "831e1650-001e-001b-66ab-eeb76e069631",
"data": {
"api": "PutBlockList",
"clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
"requestId": "831e1650-001e-001b-66ab-eeb76e000000",
"eTag": "\"0x8D4BCC2E4835CD0\"",
"contentType": "text/plain",
"contentLength": 524288,
"blobType": "BlockBlob",
"url": "https://my-storage-account.blob.core.windows.net/testcontainer/new-file.txt",
"sequencer": "00000000000004420000000000028963",
"storageDiagnostics": {
"batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
}
},
"dataVersion": "",
"metadataVersion": "1"
}
JSON berikut menunjukkan url blob yang muncul dalam respons aktivitas saat blob dibuat menggunakan titik akhir penyimpanan Data Lake.
{
"topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
"subject": "/blobServices/default/containers/my-file-system/blobs/new-file.txt",
"eventType": "Microsoft.Storage.BlobCreated",
"eventTime": "2017-06-26T18:41:00.9584103Z",
"id": "831e1650-001e-001b-66ab-eeb76e069631",
"data": {
"api": "CreateFile",
"clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
"requestId": "831e1650-001e-001b-66ab-eeb76e000000",
"eTag": "\"0x8D4BCC2E4835CD0\"",
"contentType": "text/plain",
"contentLength": 0,
"contentOffset": 0,
"blobType": "BlockBlob",
"url": "https://my-storage-account.dfs.core.windows.net/my-file-system/new-file.txt",
"sequencer": "00000000000004420000000000028963",
"storageDiagnostics": {
"batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
}
},
"dataVersion": "2",
"metadataVersion": "1"
}
Jika aplikasi Anda menggunakan Event Grid, Anda mungkin harus memodifikasi aplikasi tersebut untuk mempertimbangkan hal ini.
Penjelajah Penyimpanan
Tombol berikut ini belum muncul di Pita Azure Storage Explorer:
Tombol | Alasan |
---|---|
URL Salin | Belum diterapkan |
Mengelola rekam jepret | Belum diterapkan |
Tombol berikut berperilaku berbeda di akun baru Anda.
Tombol | Perilaku penyimpanan blob | Perilaku Data Lake Storage |
---|---|---|
Folder | Folder bersifat virtual dan menghilang jika Anda tidak menambahkan file ke dalamnya. | Folder ada bahkan tanpa file yang ditambahkan ke dalamnya. |
Ubah nama | Menghasilkan salinan dan kemudian menghapus blob sumber | Mengganti nama blob yang sama. Jauh lebih efisien. |
Dokumentasi
Anda dapat menemukan panduan untuk menggunakan kemampuan Data Lake Storage di sini: Pengantar Azure Data Lake Storage.
Tidak ada yang berubah sehubungan dengan tempat Anda menemukan panduan untuk semua fitur penyimpanan Blob yang ada. Panduan tersebut ada di sini: Pengantar penyimpanan Azure Blob.
Saat Anda berpindah di antara set konten, Anda akan melihat beberapa perbedaan terminologi kecil. Misalnya, konten yang ditampilkan dalam konten Data Lake Storage mungkin menggunakan file istilah dan sistem file alih-alih blob dan kontainer. Istilah file dan sistem file telah mengakar di dunia analisis data besar di mana penyimpanan Data Lake memiliki sejarah panjang. Konten berisi istilah-istilah tersebut agar dapat dimengerti oleh audiens ini. Istilah-istilah tersebut tidak menggambarkan hal-hal yang terpisah.
Langkah berikutnya
Saat Anda siap untuk meningkatkan akun penyimpanan Anda untuk menyertakan kemampuan Data Lake Storage, lihat panduan langkah demi langkah ini.