Melacak eksperimen dan model dengan MLflow

Artikel
11/09/2024

Pelacakan adalah proses menyimpan informasi yang relevan tentang eksperimen. Dalam artikel ini, Anda mempelajari cara menggunakan MLflow untuk melacak eksperimen dan menjalankan di ruang kerja Azure Pembelajaran Mesin.

Beberapa metode yang tersedia di API MLflow mungkin tidak tersedia saat tersambung ke Azure Pembelajaran Mesin. Untuk detail tentang operasi yang didukung dan tidak didukung, lihat Matriks dukungan untuk mengkueri eksekusi dan eksperimen. Anda juga dapat mempelajari tentang fungsionalitas MLflow yang didukung di Azure Pembelajaran Mesin dari artikel MLflow dan Azure Pembelajaran Mesin.

Catatan

Untuk melacak eksperimen yang berjalan di Azure Databricks, lihat Melacak eksperimen Azure Databricks ML dengan MLflow dan Azure Pembelajaran Mesin.
Untuk melacak eksperimen yang berjalan di Azure Synapse Analytics, lihat Melacak eksperimen ML Azure Synapse Analytics dengan MLflow dan Azure Pembelajaran Mesin.

Prasyarat

Memiliki langganan Azure dengan versi gratis atau berbayar Azure Pembelajaran Mesin.
Untuk menjalankan perintah Azure CLI dan Python, instal Azure CLI v2 dan Azure Pembelajaran Mesin SDK v2 untuk Python. ml Ekstensi untuk Azure CLI diinstal secara otomatis saat pertama kali Anda menjalankan perintah Azure Pembelajaran Mesin CLI.

Instal paket MLflow SDK mlflow dan plugin Azure Pembelajaran Mesin azureml-mlflow untuk MLflow sebagai berikut:
```
pip install mlflow azureml-mlflow
```
Tip

Anda dapat menggunakan mlflow-skinny paket, yang merupakan paket MLflow ringan tanpa penyimpanan SQL, server, UI, atau dependensi ilmu data. Paket ini direkomendasikan untuk pengguna yang terutama membutuhkan kemampuan pelacakan dan pengelogan MLflow tanpa mengimpor rangkaian fitur lengkap, termasuk penyebaran.
Buat ruang kerja Azure Machine Learning. Untuk membuat ruang kerja, lihat Membuat sumber daya yang Anda butuhkan untuk memulai. Tinjau izin akses yang Anda butuhkan untuk melakukan operasi MLflow di ruang kerja Anda.
Untuk melakukan pelacakan jarak jauh, atau melacak eksperimen yang berjalan di luar Azure Pembelajaran Mesin, konfigurasikan MLflow untuk mengarahkan ke URI pelacakan ruang kerja Azure Pembelajaran Mesin Anda. Untuk informasi selengkapnya tentang cara menyambungkan MLflow ke ruang kerja Anda, lihat Mengonfigurasi MLflow untuk Azure Pembelajaran Mesin.

Konfigurasikan eksperimen

MLflow mengatur informasi dalam eksperimen dan berjalan. Eksekusi disebut pekerjaan di Azure Pembelajaran Mesin. Secara default, menjalankan log ke eksperimen yang dibuat secara otomatis bernama Default, tetapi Anda dapat mengonfigurasi eksperimen mana yang akan dilacak.

Notebooks
Pekerjaan

Untuk pelatihan interaktif, seperti di notebook Jupyter, gunakan perintah mlflow.set_experiment()MLflow . Misalnya, cuplikan kode berikut mengonfigurasi eksperimen:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Untuk mengirimkan pekerjaan dengan menggunakan Azure Pembelajaran Mesin CLI atau SDK, atur nama eksperimen dengan menggunakan experiment_name properti pekerjaan. Anda tidak perlu mengonfigurasi nama eksperimen dalam skrip pelatihan Anda.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Mengonfigurasi eksekusi

Azure Pembelajaran Mesin melacak pekerjaan pelatihan dalam panggilan MLflow apa yang dijalankan. Gunakan eksekusi untuk menangkap semua pemrosesan yang dilakukan pekerjaan Anda.

Notebooks
Pekerjaan

Saat Anda bekerja secara interaktif, MLflow mulai melacak rutinitas pelatihan Anda segera setelah Anda mencatat informasi yang memerlukan eksekusi aktif. Misalnya, jika fungsionalitas autologging Mlflow diaktifkan, pelacakan MLflow dimulai saat Anda mencatat metrik atau parameter, atau memulai siklus pelatihan.

Namun, biasanya membantu untuk memulai eksekusi secara eksplisit, terutama jika Anda ingin mengambil total waktu untuk eksperimen Anda di bidang Durasi . Untuk memulai eksekusi secara eksplisit, gunakan mlflow.start_run().

Apakah Anda memulai eksekusi secara manual atau tidak, Anda akhirnya perlu menghentikan eksekusi, sehingga MLflow tahu bahwa eksekusi eksperimen Anda selesai dan dapat menandai status eksekusi sebagai Selesai. Untuk menghentikan eksekusi, gunakan mlflow.end_run().

Kode berikut memulai eksekusi secara manual dan mengakhirinya di akhir buku catatan:

mlflow.start_run()

# Your code

mlflow.end_run()

Yang terbaik adalah mulai berjalan secara manual sehingga Anda tidak lupa untuk mengakhirinya. Anda dapat menggunakan paradigma manajer konteks untuk membantu Anda mengingat untuk mengakhiri eksekusi.

with mlflow.start_run() as run:
    # Your code

Saat Anda memulai eksekusi baru dengan mlflow.start_run(), akan berguna untuk menentukan run_name parameter, yang nantinya diterjemahkan ke nama eksekusi di antarmuka pengguna Azure Pembelajaran Mesin. Praktik ini membantu Anda mengidentifikasi eksekusi dengan lebih cepat.

with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code

Pekerjaan Azure Pembelajaran Mesin memungkinkan Anda mengirimkan rutinitas pelatihan atau inferensi yang berjalan lama sebagai eksekusi yang terisolasi dan dapat direproduksi.

Membuat rutinitas pelatihan yang memiliki pelacakan

Saat bekerja dengan pekerjaan, Anda biasanya menempatkan semua logika pelatihan Anda sebagai file di dalam folder, seperti src. Salah satu file adalah file Python dengan titik masuk kode pelatihan Anda.

Dalam rutinitas pelatihan, Anda dapat menggunakan MLflow SDK untuk melacak metrik, parameter, artefak, atau model apa pun. Misalnya, lihat Metrik log, parameter, dan file dengan MLflow.

Contoh berikut menunjukkan rutinitas pelatihan hello_world.py yang menambahkan pengelogan:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

Contoh kode sebelumnya tidak menggunakan mlflow.start_run() tetapi jika digunakan, MLflow menggunakan kembali eksekusi aktif saat ini. Oleh karena itu, Anda tidak perlu menghapus baris jika Anda memigrasikan mlflow.start_run() kode ke Azure Pembelajaran Mesin.

Pastikan lingkungan pekerjaan Anda telah menginstal MLflow

Semua lingkungan yang dikumpulkan Azure Pembelajaran Mesin sudah menginstal MLflow. Namun, jika Anda menggunakan lingkungan kustom, buat file conda.yaml yang memiliki dependensi yang Anda butuhkan, dan referensikan lingkungan dalam pekerjaan Anda.

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Mengonfigurasi nama pekerjaan

Gunakan parameter display_name pekerjaan Azure Pembelajaran Mesin untuk mengonfigurasi nama eksekusi.

display_name Gunakan properti untuk mengonfigurasi pekerjaan.

Azure CLI
Python SDK

Untuk mengonfigurasi pekerjaan, buat file YAML dengan definisi pekerjaan Anda dalam file job.yml di luar direktori src .

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Pastikan untuk tidak menggunakan mlflow.start_run(run_name="") di dalam rutinitas pelatihan Anda.

Mengirimkan pekerjaan

Ruang kerja adalah sumber daya tingkat atas untuk Azure Pembelajaran Mesin, menyediakan tempat terpusat untuk bekerja dengan semua artefak Azure Pembelajaran Mesin yang Anda buat. Sambungkan ke ruang kerja Azure Pembelajaran Mesin.

Azure CLI
Python SDK

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Impor pustaka yang diperlukan:

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

Konfigurasikan detail ruang kerja dan dapatkan handel ke ruang kerja:

subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

Buka terminal Anda dan gunakan kode berikut untuk mengirimkan pekerjaan. Pekerjaan yang menggunakan MLflow dan berjalan di Azure Pembelajaran Mesin secara otomatis mencatat informasi pelacakan apa pun ke ruang kerja.
- Azure CLI
- Python SDK
Gunakan Azure Pembelajaran Mesin CLI untuk mengirimkan pekerjaan Anda.
```
az ml job create -f job.yml --web
```
Gunakan Python SDK untuk mengirimkan pekerjaan Anda.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Pantau kemajuan pekerjaan di studio Azure Pembelajaran Mesin.

Mengaktifkan autologging MLflow

Anda dapat mencatat metrik, parameter, dan file dengan MLflow secara manual, dan Anda juga dapat mengandalkan kemampuan pengelogan otomatis MLflow. Setiap kerangka kerja pembelajaran mesin yang didukung oleh MLflow menentukan apa yang harus dilacak secara otomatis untuk Anda.

Untuk mengaktifkan pengelogan otomatis, sisipkan kode berikut sebelum kode pelatihan Anda:

mlflow.autolog()

Melihat metrik dan artefak di ruang kerja Anda

Metrik dan artefak dari pengelogan MLflow dilacak di ruang kerja Anda. Anda dapat melihat dan mengaksesnya di studio Azure Pembelajaran Mesin atau mengaksesnya secara terprogram melalui MLflow SDK.

Untuk melihat metrik dan artefak di studio:

Pada halaman Pekerjaan di ruang kerja Anda, pilih nama eksperimen.
Pada halaman detail eksperimen, pilih tab Metrik .
Pilih metrik yang dicatat untuk merender bagan di sisi kanan. Anda dapat menyesuaikan bagan dengan menerapkan penghalusan, mengubah warna, atau memplot beberapa metrik pada satu grafik. Anda juga dapat mengubah ukuran dan menyusun ulang tata letak.
Setelah Anda membuat tampilan yang diinginkan, simpan untuk digunakan di masa mendatang dan bagikan dengan rekan satu tim Anda dengan menggunakan tautan langsung.

Untuk mengakses atau mengkueri metrik, parameter, dan artefak secara terprogram melalui MLflow SDK, gunakan mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Tip

Contoh sebelumnya hanya mengembalikan nilai terakhir dari metrik tertentu. Untuk mengambil semua nilai metrik tertentu, gunakan metode .mlflow.get_metric_history Untuk informasi selengkapnya tentang mengambil nilai metrik, lihat Mendapatkan param dan metrik dari eksekusi.

Untuk mengunduh artefak yang Anda catat, seperti file dan model, gunakan mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Untuk informasi selengkapnya tentang cara mengambil atau membandingkan informasi dari eksperimen dan eksekusi di Azure Pembelajaran Mesin dengan menggunakan MLflow, lihat Kueri & bandingkan eksperimen dan eksekusi dengan MLflow.

Bagikan melalui

Melacak eksperimen dan model dengan MLflow

Prasyarat

Konfigurasikan eksperimen

Mengonfigurasi eksekusi

Membuat rutinitas pelatihan yang memiliki pelacakan

Pastikan lingkungan pekerjaan Anda telah menginstal MLflow

Mengonfigurasi nama pekerjaan

Mengirimkan pekerjaan

Mengaktifkan autologging MLflow

Melihat metrik dan artefak di ruang kerja Anda

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Melacak eksperimen dan model dengan MLflow

Prasyarat

Konfigurasikan eksperimen

Mengonfigurasi eksekusi

Mengaktifkan autologging MLflow

Melihat metrik dan artefak di ruang kerja Anda

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: