Dalam artikel ini, Anda mempelajari cara mengimpor data ke platform Azure Pembelajaran Mesin dari sumber eksternal. Impor data yang berhasil secara otomatis membuat dan mendaftarkan aset data Azure Pembelajaran Mesin dengan nama yang disediakan selama impor tersebut. Aset data Azure Pembelajaran Mesin menyerupan bookmark browser web (favorit). Anda tidak perlu mengingat jalur penyimpanan panjang (URI) yang menunjuk ke data yang paling sering digunakan. Sebagai gantinya, Anda dapat membuat aset data, lalu mengakses aset tersebut dengan nama yang mudah diingat.
Impor data membuat cache data sumber, bersama dengan metadata, untuk akses data yang lebih cepat dan andal dalam pekerjaan pelatihan Azure Pembelajaran Mesin. Cache data menghindari batasan jaringan dan koneksi. Data yang di-cache di-versi untuk mendukung reproduksi. Ini menyediakan kemampuan penerapan versi untuk data yang diimpor dari sumber SQL Server. Selain itu, data yang di-cache menyediakan silsilah data untuk tugas audit. Impor data menggunakan ADF (alur Azure Data Factory) di belakang layar, yang berarti bahwa pengguna dapat menghindari interaksi kompleks dengan ADF. Di balik layar, Azure Pembelajaran Mesin juga menangani manajemen ukuran kumpulan sumber daya komputasi ADF, penyediaan sumber daya komputasi, dan pengoperasian, untuk mengoptimalkan transfer data dengan menentukan paralelisasi yang tepat.
Data yang ditransfer dipartisi dan disimpan dengan aman sebagai file parket di penyimpanan Azure. Ini memungkinkan pemrosesan yang lebih cepat selama pelatihan. Biaya komputasi ADF hanya melibatkan waktu yang digunakan untuk transfer data. Biaya penyimpanan hanya melibatkan waktu yang diperlukan untuk menyimpan data, karena data yang di-cache adalah salinan data yang diimpor dari sumber eksternal. Penyimpanan Azure menghosting sumber eksternal tersebut.
Fitur penembolokan melibatkan biaya komputasi dan penyimpanan di muka. Namun, ia membayar sendiri, dan dapat menghemat uang, karena mengurangi biaya komputasi pelatihan berulang, dibandingkan dengan koneksi langsung ke data sumber eksternal selama pelatihan. Ini menyimpan data sebagai file parket, yang membuat pelatihan pekerjaan lebih cepat dan lebih andal terhadap batas waktu koneksi untuk himpunan data yang lebih besar. Ini menyebabkan lebih sedikit eksekusi ulang, dan lebih sedikit kegagalan pelatihan.
Anda dapat mengimpor data dari Amazon S3, Azure SQL, dan Snowflake.
Penting
Fitur ini masih dalam pratinjau umum. Versi pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas.
Untuk impor data yang berhasil, pastikan Anda menginstal paket azure-ai-ml terbaru (versi 1.15.0 atau yang lebih baru) untuk SDK, dan ekstensi ml (versi 2.15.1 atau yang lebih baru).
Jika Anda memiliki paket SDK atau ekstensi CLI yang lebih lama, silakan hapus yang lama dan instal yang baru dengan kode yang ditunjukkan di bagian tab. Ikuti instruksi untuk SDK dan CLI seperti yang ditunjukkan di sini:
az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)
pip install azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)
Tidak tersedia.
Mengimpor dari database eksternal sebagai aset data yang dapat diubah
Catatan
Database eksternal dapat memiliki format Snowflake, Azure SQL, dll.
Sampel kode berikut dapat mengimpor data dari database eksternal. connection yang menangani tindakan impor menentukan metadata sumber data database eksternal. Dalam sampel ini, kode mengimpor data dari sumber daya Snowflake. Koneksi menunjuk ke sumber Snowflake. Dengan sedikit modifikasi, koneksi dapat menunjuk ke sumber database Azure SQL dan sumber database Azure SQL. Aset type yang diimpor dari sumber database eksternal adalah mltable.
Contoh yang terlihat di sini menjelaskan proses untuk database Snowflake. Namun, proses ini mencakup format database eksternal lainnya, seperti Azure SQL, dll.
Di bawah Aset di navigasi kiri, pilih Data. Selanjutnya, pilih tab Impor Data. Lalu pilih Buat, seperti yang ditunjukkan pada cuplikan layar ini:
Di layar Sumber Data, pilih Snowflake, lalu pilih Berikutnya, seperti yang diperlihatkan dalam cuplikan layar ini:
Di layar Jenis Data, isi nilai. Nilai Jenis default ke Tabel (mltable). Lalu pilih Berikutnya, seperti yang ditunjukkan pada cuplikan layar ini:
Di layar Buat impor data, isi nilai, dan pilih Berikutnya, seperti yang diperlihatkan dalam cuplikan layar ini:
Isi nilai di layar Pilih datastore untuk output, dan pilih Berikutnya, seperti yang ditunjukkan pada cuplikan layar ini. Penyimpanan data terkelola ruang kerja dipilih secara default; jalur secara otomatis ditetapkan oleh sistem saat Anda memilih datastore yang di-manged. Jika Anda memilih Penyimpanan data terkelola Ruang Kerja, dropdown Pengaturan penghapusan otomatis akan muncul. Ini menawarkan jendela waktu penghapusan data 30 hari secara default, dan cara mengelola aset data yang diimpor menjelaskan cara mengubah nilai ini.
Catatan
Untuk memilih datastore Anda sendiri, pilih Penyimpanan data lainnya. Dalam hal ini, Anda harus memilih jalur untuk lokasi cache data.
Anda dapat menambahkan jadwal. Pilih Tambahkan jadwal seperti yang ditunjukkan pada cuplikan layar ini:
Panel baru terbuka, di mana Anda dapat menentukan jadwal Pengulangan , atau jadwal Cron . Cuplikan layar ini memperlihatkan panel untuk jadwal Pengulangan :
Nama: pengidentifikasi unik jadwal dalam ruang kerja.
Deskripsi: deskripsi jadwal.
Pemicu: pola pengulangan jadwal, yang mencakup properti berikut.
Zona waktu: perhitungan waktu pemicu didasarkan pada zona waktu ini; (UTC) Waktu Universal Terkoordinasi secara default.
Pengulangan atau ekspresi Cron: pilih pengulangan untuk menentukan pola berulang. Di bawah Pengulangan, Anda dapat menentukan frekuensi pengulangan - menurut menit, jam, hari, minggu, atau bulan.
Mulai: jadwal pertama kali menjadi aktif pada tanggal ini. Secara default, tanggal pembuatan jadwal ini.
Akhir: jadwal akan menjadi tidak aktif setelah tanggal ini. Secara default, ini adalah NONE, yang berarti bahwa jadwal akan selalu aktif sampai Anda menonaktifkannya secara manual.
Tag: tag jadwal yang dipilih.
Catatan
Mulai menentukan tanggal dan waktu mulai dengan zona waktu jadwal. Jika mulai dihilangkan, waktu mulai sama dengan waktu pembuatan jadwal. Untuk waktu mulai di masa lalu, pekerjaan pertama berjalan pada waktu proses terhitung berikutnya.
Cuplikan layar berikutnya memperlihatkan layar terakhir dari proses ini. Tinjau pilihan Anda, dan pilih Buat. Pada layar ini, dan layar lain dalam proses ini, pilih Kembali untuk berpindah ke layar sebelumnya untuk mengubah pilihan nilai Anda.
Cuplikan layar ini memperlihatkan panel untuk jadwal Cron :
Nama: pengidentifikasi unik jadwal dalam ruang kerja.
Deskripsi: deskripsi jadwal.
Pemicu: pola pengulangan jadwal, yang mencakup properti berikut.
Zona waktu: perhitungan waktu pemicu didasarkan pada zona waktu ini; (UTC) Waktu Universal Terkoordinasi secara default.
Pengulangan atau ekspresi Cron: pilih ekspresi cron untuk menentukan detail cron.
(Diperlukan)expression menggunakan ekspresi crontab standar untuk mengekspresikan jadwal berulang. Ekspresi tunggal terdiri dari lima bidang yang dibatasi spasi:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Wildcard tunggal (*), yang mencakup semua nilai untuk bidang tersebut. A *, dalam hari, berarti semua hari dalam sebulan (yang bervariasi menurut bulan dan tahun).
expression: "15 16 * * 1" dalam sampel di atas artinya pukul 16:15 setiap hari Senin.
Tabel berikutnya mencantumkan nilai yang valid untuk setiap bidang:
Bidang
Rentang
Komentar
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Tidak didukung. Nilai diabaikan dan diperlakukan sebagai *.
MONTHS
-
Tidak didukung. Nilai diabaikan dan diperlakukan sebagai *.
DAYS dan MONTH tidak didukung. Jika Anda meneruskan salah satu nilai ini, nilai tersebut akan diabaikan dan diperlakukan sebagai *.
Mulai: jadwal pertama kali menjadi aktif pada tanggal ini. Secara default, tanggal pembuatan jadwal ini.
Akhir: jadwal akan menjadi tidak aktif setelah tanggal ini. Secara default, ini adalah NONE, yang berarti bahwa jadwal akan selalu aktif sampai Anda menonaktifkannya secara manual.
Tag: tag jadwal yang dipilih.
Catatan
Mulai menentukan tanggal dan waktu mulai dengan zona waktu jadwal. Jika mulai dihilangkan, waktu mulai sama dengan waktu pembuatan jadwal. Untuk waktu mulai di masa lalu, pekerjaan pertama berjalan pada waktu proses terhitung berikutnya.
Cuplikan layar berikutnya memperlihatkan layar terakhir dari proses ini. Tinjau pilihan Anda, dan pilih Buat. Pada layar ini, dan layar lain dalam proses ini, pilih Kembali untuk berpindah ke layar sebelumnya untuk mengubah pilihan nilai Anda.
Mengimpor data dari sistem file eksternal sebagai aset data folder
Catatan
Sumber daya data Amazon S3 dapat berfungsi sebagai sumber daya sistem file eksternal.
connection yang menangani tindakan impor data menentukan aspek sumber data eksternal. Koneksi mendefinisikan wadah Amazon S3 sebagai target. Koneksi mengharapkan nilai yang valid path . Nilai aset yang diimpor dari sumber sistem file eksternal memiliki type .uri_folder
Sampel kode berikutnya mengimpor data dari sumber daya Amazon S3.
Di bawah Aset di navigasi kiri, pilih Data. Selanjutnya, pilih tab Impor Data. Lalu pilih Buat seperti yang ditunjukkan pada cuplikan layar ini:
Di layar Sumber Data, pilih S3, lalu pilih Berikutnya, seperti yang diperlihatkan dalam cuplikan layar ini:
Di layar Jenis Data, isi nilai. Nilai Jenis default ke Folder (uri_folder). Lalu pilih Berikutnya, seperti yang ditunjukkan pada cuplikan layar ini:
Di layar Buat impor data, isi nilai, dan pilih Berikutnya, seperti yang diperlihatkan dalam cuplikan layar ini:
Isi nilai di layar Pilih datastore untuk output, dan pilih Berikutnya, seperti yang ditunjukkan pada cuplikan layar ini. Penyimpanan data terkelola ruang kerja dipilih secara default; jalur secara otomatis ditetapkan oleh sistem saat Anda memilih datastore terkelola. Jika Anda memilih Penyimpanan data terkelola Ruang Kerja, dropdown Pengaturan penghapusan otomatis akan muncul. Ini menawarkan jendela waktu penghapusan data 30 hari secara default, dan cara mengelola aset data yang diimpor menjelaskan cara mengubah nilai ini.
Anda dapat menambahkan jadwal. Pilih Tambahkan jadwal seperti yang ditunjukkan pada cuplikan layar ini:
Panel baru terbuka, tempat Anda dapat menentukan jadwal Pengulangan , atau jadwal Cron . Cuplikan layar ini memperlihatkan panel untuk jadwal Pengulangan :
Nama: pengidentifikasi unik jadwal dalam ruang kerja.
Deskripsi: deskripsi jadwal.
Pemicu: pola pengulangan jadwal, yang mencakup properti berikut.
Zona waktu: perhitungan waktu pemicu didasarkan pada zona waktu ini; (UTC) Waktu Universal Terkoordinasi secara default.
Pengulangan atau ekspresi Cron: pilih pengulangan untuk menentukan pola berulang. Di bawah Pengulangan, Anda dapat menentukan frekuensi pengulangan - menurut menit, jam, hari, minggu, atau bulan.
Mulai: jadwal pertama kali menjadi aktif pada tanggal ini. Secara default, tanggal pembuatan jadwal ini.
Akhir: jadwal akan menjadi tidak aktif setelah tanggal ini. Secara default, ini adalah NONE, yang berarti bahwa jadwal akan selalu aktif sampai Anda menonaktifkannya secara manual.
Tag: tag jadwal yang dipilih.
Catatan
Mulai menentukan tanggal dan waktu mulai dengan zona waktu jadwal. Jika mulai dihilangkan, waktu mulai sama dengan waktu pembuatan jadwal. Untuk waktu mulai di masa lalu, pekerjaan pertama berjalan pada waktu proses terhitung berikutnya.
Seperti yang ditunjukkan pada cuplikan layar berikutnya, tinjau pilihan Anda di layar terakhir proses ini, dan pilih Buat. Pada layar ini, dan layar lain dalam proses ini, pilih Kembali untuk berpindah ke layar sebelumnya jika Anda ingin mengubah pilihan nilai Anda.
Cuplikan layar berikutnya memperlihatkan layar terakhir dari proses ini. Tinjau pilihan Anda, dan pilih Buat. Pada layar ini, dan layar lain dalam proses ini, pilih Kembali untuk berpindah ke layar sebelumnya untuk mengubah pilihan nilai Anda.
Cuplikan layar ini memperlihatkan panel untuk jadwal Cron :
Nama: pengidentifikasi unik jadwal dalam ruang kerja.
Deskripsi: deskripsi jadwal.
Pemicu: pola pengulangan jadwal, yang mencakup properti berikut.
Zona waktu: perhitungan waktu pemicu didasarkan pada zona waktu ini; (UTC) Waktu Universal Terkoordinasi secara default.
Pengulangan atau ekspresi Cron: pilih ekspresi cron untuk menentukan detail cron.
(Diperlukan)expression menggunakan ekspresi crontab standar untuk mengekspresikan jadwal berulang. Ekspresi tunggal terdiri dari lima bidang yang dibatasi spasi:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Wildcard tunggal (*), yang mencakup semua nilai untuk bidang tersebut. A *, dalam hari, berarti semua hari dalam sebulan (yang bervariasi menurut bulan dan tahun).
expression: "15 16 * * 1" dalam sampel di atas artinya pukul 16:15 setiap hari Senin.
Tabel berikutnya mencantumkan nilai yang valid untuk setiap bidang:
Bidang
Rentang
Komentar
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Tidak didukung. Nilai diabaikan dan diperlakukan sebagai *.
MONTHS
-
Tidak didukung. Nilai diabaikan dan diperlakukan sebagai *.
DAYS dan MONTH tidak didukung. Jika Anda meneruskan salah satu nilai ini, nilai tersebut akan diabaikan dan diperlakukan sebagai *.
Mulai: jadwal pertama kali menjadi aktif pada tanggal ini. Secara default, tanggal pembuatan jadwal ini.
Akhir: jadwal akan menjadi tidak aktif setelah tanggal ini. Secara default, ini adalah NONE, yang berarti bahwa jadwal akan selalu aktif sampai Anda menonaktifkannya secara manual.
Tag: tag jadwal yang dipilih.
Catatan
Mulai menentukan tanggal dan waktu mulai dengan zona waktu jadwal. Jika mulai dihilangkan, waktu mulai sama dengan waktu pembuatan jadwal. Untuk waktu mulai di masa lalu, pekerjaan pertama berjalan pada waktu proses terhitung berikutnya.
Cuplikan layar berikutnya memperlihatkan layar terakhir dari proses ini. Tinjau pilihan Anda, dan pilih Buat. Pada layar ini, dan layar lain dalam proses ini, pilih Kembali untuk berpindah ke layar sebelumnya untuk mengubah pilihan nilai Anda.
Periksa status impor sumber data eksternal
Tindakan impor data adalah tindakan asinkron. Ini bisa memakan waktu lama. Setelah pengiriman tindakan impor data melalui CLI atau SDK, layanan Azure Pembelajaran Mesin mungkin memerlukan beberapa menit untuk menyambungkan ke sumber data eksternal. Kemudian, layanan akan memulai impor data, dan menangani penembolokan dan pendaftaran data. Waktu yang diperlukan untuk impor data juga bergantung pada ukuran himpunan data sumber.
Contoh berikutnya mengembalikan status aktivitas impor data yang dikirimkan. Perintah atau metode menggunakan nama "aset data" sebagai input untuk menentukan status materialisasi data.