Bagikan melalui


Mengelola AI – Proses untuk mengelola AI

Artikel ini menguraikan proses organisasi untuk mengelola beban kerja AI. Ini memberikan rekomendasi untuk mengelola beban kerja AI dari pengembangan, penyebaran, dan operasi. Manajemen AI yang efektif memerlukan pendekatan terstruktur dari pengembangan melalui penyebaran dan operasi yang sedang berlangsung. Bisnis memerlukan praktik standar dan pemantauan rutin untuk mencegah masalah seperti penyimpangan data dan model, memastikan AI tetap akurat dan dapat diandalkan dari waktu ke waktu.

Diagram memperlihatkan proses adopsi AI: AI Strategy, AI Plan, AI Ready, Govern AI, Manage AI, dan Secure AI.

Mengelola operasi AI

Mengelola operasi AI memastikan visibilitas dan konsistensi sepanjang siklus hidup AI. Dengan mengadopsi kerangka kerja operasional seperti MLOps, membuat lingkungan kotak pasir, dan membuat alur CI/CD, Anda dapat mengawasi pengembangan, pengujian, dan penyebaran.

  • Mengadopsi kerangka kerja operasional AI. Menerapkan kerangka kerja MLOps (Operasi pembelajaran mesin) untuk alur kerja pembelajaran mesin tradisional dan GenAIOps untuk beban kerja AI generatif. Kerangka kerja operasional ini mengatur siklus end-to-end untuk pengembangan AI. Setiap kerangka kerja memengaruhi pendekatan dan peralatan yang digunakan tim beban kerja. Untuk informasi selengkapnya, lihat MLOps dan GenAIOps.

  • Menstandarkan alat pengembangan AI. Tentukan dan standarkan penggunaan SDK dan API untuk konsistensi di seluruh tim pengembangan. Alat seperti Azure SDK untuk beban kerja AI menyediakan pustaka dan API yang dioptimalkan untuk menskalakan model AI dan mengintegrasikannya ke dalam aplikasi. Untuk AI generatif, standarkan platform dan orkestrator AI Anda, seperti Semantic Kernel, LangChain, dan Prompt Flow.

  • Gunakan lingkungan kotak pasir untuk eksperimen AI. Gunakan lingkungan kotak pasir untuk eksperimen model AI. Anda ingin konsistensi di seluruh lingkungan dev, test, dan prod. Jadi, lingkungan kotak pasir harus berbeda dari lingkungan pengembangan, pengujian, dan produksi dalam siklus hidup pengembangan AI. Jika Anda mengubah model penyebaran dan tata kelola antara lingkungan dev, test, dan prod, itu dapat menyembunyikan dan memperkenalkan perubahan yang melanggar.

  • Membangun integrasi berkelanjutan dan alur pengiriman berkelanjutan untuk penyebaran. Pastikan bahwa alur data Anda mencakup pemeriksaan kualitas kode, termasuk linting dan analisis statis. Alur data juga harus mencakup pengujian unit dan integrasi, serta alur eksperimen dan evaluasi. Terakhir, masukkan langkah-langkah penyebaran produksi, seperti mempromosikan rilis untuk lingkungan pengujian dan produksi setelah persetujuan manual. Pertahankan pemisahan antara model, alur perintah, dan antarmuka pengguna klien untuk memastikan pembaruan pada satu komponen tidak memengaruhi yang lain. Setiap alur harus memiliki siklus hidupnya sendiri untuk promosi independen.

Mengelola penyebaran AI

Manajemen penyebaran AI adalah tentang menentukan siapa yang dapat menyebarkan sumber daya AI dan yang mengatur titik akhir ini. Pendekatan terstruktur, yang dipimpin oleh pusat keunggulan AI, membantu bisnis memutuskan apakah tim beban kerja atau tim pusat harus mengelola sumber daya, menyeimbangkan kecepatan pengembangan dengan persyaratan tata kelola. AI CoE harus memimpin upaya untuk menentukan pendekatan terbaik.

  • Gunakan manajemen tim beban kerja sumber daya AI untuk pengembangan yang lebih cepat. Saat tim beban kerja mengelola sumber daya AI, mereka memiliki otonomi untuk menyebarkan dan mengelola sumber daya AI dalam batasan kebijakan tata kelola Anda. Gunakan Azure Policy untuk menerapkan tata kelola secara konsisten di semua lingkungan beban kerja. Buat dan komunikasikan kebijakan AI yang harus diikuti tim beban kerja untuk mengatasi kesenjangan tata kelola apa pun. Misalnya, buat kebijakan AI generatif untuk menerapkan pengaturan filter konten dan mencegah penggunaan model yang tidak diizinkan. Buat kebijakan ini diketahui dengan jelas oleh tim beban kerja dan audit secara teratur.

    Diagram memperlihatkan manajemen beban kerja tim beban kerja beban kerja AI. Gambar 1. Manajemen tim beban kerja sumber daya AI.

  • Gunakan manajemen bersama sumber daya AI yang meningkatkan tata kelola AI. Dalam pendekatan manajemen AI bersama, tim pusat mengelola sumber daya AI untuk semua beban kerja AI. Tim ini menyebarkan sumber daya AI inti dan mengonfigurasi keamanan dan tata kelola yang digunakan semua tim beban kerja. Gunakan pendekatan ini jika Anda ingin satu tim mengontrol penyebaran dan tata kelola AI di seluruh beban kerja Anda.

    Diagram memperlihatkan manajemen bersama beban kerja AI. Gambar 2. Manajemen tim AI pusat sumber daya AI.

Mengelola berbagi titik akhir AI

Berbagi titik akhir AI di seluruh beban kerja dapat menyederhanakan manajemen, tetapi memerlukan pertimbangan yang cermat tentang persyaratan tata kelola dan model. Bisnis hanya boleh berbagi titik akhir dalam satu beban kerja dengan kebutuhan yang konsisten, karena penggunaan bersama di seluruh kebutuhan yang berbeda dapat mempersulit tata kelola dan meningkatkan biaya.

  • Hindari berbagi titik akhir AI saat tata kelola dan kebutuhan model bervariasi. Beban kerja yang memerlukan pengaturan filter konten yang berbeda, seperti tata kelola pada input dan output, tidak boleh berbagi titik akhir. Selain itu, jangan berbagi satu titik akhir AI jika model AI yang berbeda akan memberikan cara yang lebih hemat biaya untuk memenuhi persyaratan beban kerja.

  • Bagikan titik akhir AI hanya dalam satu beban kerja. Berbagi titik akhir AI berfungsi paling baik ketika tim beban kerja memiliki beberapa aplikasi sebagai bagian dari beban kerja yang sama. Berbagi titik akhir AI menyediakan jumlah overhead manajemen paling sedikit dan menyederhanakan penyebaran. Aplikasi ini harus berbagi kebutuhan tata kelola yang sama dan kebutuhan model AI. Berbagi titik akhir dapat menyebabkan Anda mencapai batas tarif dan batasan kuota. Sebagian besar layanan Azure memiliki batas per langganan. Dalam langganan, setiap wilayah memiliki batas kuota.

Mengelola model AI

Manajemen model AI melibatkan pengaturan struktur tata kelola, pemantauan berkelanjutan, dan pelatihan ulang untuk mempertahankan performa dari waktu ke waktu. Proses ini membantu bisnis menyelaraskan model dengan standar etika, melacak performa model, dan memastikan bahwa sistem AI tetap efektif dan selaras dengan tujuan bisnis.

  • Menetapkan struktur tata kelola untuk pengawasan AI. Buat pusat keunggulan AI (AI CoE) atau tunjuk prospek AI. Mereka harus memastikan kepatuhan terhadap standar AI yang bertanggung jawab. Mereka harus membuat keputusan tentang apakah sistem perlu disesuaikan berdasarkan laporan ini. Gunakan dasbor AI Yang Bertanggung Jawab untuk menghasilkan laporan sekeliling output model.

  • Tentukan garis besar pengukuran AI. Tetapkan garis besar pengukuran untuk memastikan bahwa model AI selaras dengan tujuan bisnis dan standar etika. Gunakan KPI yang terkait dengan prinsip AI yang bertanggung jawab seperti kewajaran, transparansi, dan akurasi. Petakan KPI ini ke beban kerja AI. Misalnya, dalam chatbot layanan pelanggan, ukur kewajaran dengan mengevaluasi seberapa baik performa model di berbagai grup demografis. Untuk melakukan pengukuran ini, mulailah dengan alat yang digunakan di dasbor AI bertanggung jawab.

  • Menerapkan pemantauan berkelanjutan. Beban kerja AI dapat berubah dari waktu ke waktu karena data yang berkembang, pembaruan model, atau pergeseran perilaku pengguna. Pantau model AI, sumber daya AI, data AI untuk memastikan bahwa beban kerja ini tetap selaras dengan KPI. Lakukan audit untuk menilai sistem AI terhadap prinsip dan metrik AI yang bertanggung jawab yang ditentukan.

  • Identifikasi akar penyebab masalah performa. Tentukan sumber masalah saat penurunan performa atau akurasi terdeteksi dengan memantau AI. Pastikan Anda memiliki visibilitas ke setiap tahap interaksi untuk mengisolasi masalah dan menerapkan tindakan korektif dengan lebih cepat. Misalnya, jika chatbot layanan pelanggan menghasilkan respons yang tidak akurat, pemantauan akan membantu Anda menentukan apakah kesalahan berada dalam pembuatan permintaan atau pemahaman konteks model. Gunakan alat bawaan seperti Azure Monitor dan Application Insights untuk mengidentifikasi hambatan dan anomali performa secara proaktif.

  • Lacak penghentian model. Lacak penghentian untuk model yang telah dilatih sebelumnya untuk mencegah masalah performa saat dukungan vendor berakhir. Misalnya, model AI generatif mungkin tidak digunakan lagi, jadi Anda perlu memperbaruinya untuk mempertahankan fungsionalitas. Portal Azure AI Foundry menunjukkan tanggal penghentian model untuk semua penyebaran.

  • Pelatihan ulang model AI sesuai kebutuhan. Memperhitungkan penurunan model dari waktu ke waktu karena perubahan data. Jadwalkan pelatihan ulang reguler berdasarkan performa model atau bisnis perlu memastikan bahwa sistem AI tetap relevan. Pelatihan ulang bisa mahal, jadi nilai biaya pelatihan awal dan gunakan biaya tersebut untuk mengevaluasi seberapa sering Anda harus melatih kembali model AI. Pertahankan kontrol versi untuk model dan pastikan mekanisme putar kembali untuk versi yang kurang baik.

  • Menetapkan proses promosi model. Gunakan gerbang berkualitas untuk mempromosikan model terlatih, disempurnakan, dan dilatih kembali ke lingkungan yang lebih tinggi berdasarkan kriteria performa. Kriteria performa unik untuk setiap aplikasi.

Mengelola biaya AI

Mengelola biaya AI memerlukan pemahaman yang jelas tentang pengeluaran yang terkait dengan sumber daya seperti komputasi, penyimpanan, dan pemrosesan token. Anda harus menerapkan praktik terbaik manajemen biaya, memantau penggunaan, dan menyiapkan pemberitahuan otomatis untuk menghindari pengeluaran tak terduga dan mengoptimalkan efisiensi sumber daya.

  • Ikuti praktik terbaik manajemen biaya untuk setiap layanan. Setiap layanan Azure memiliki fitur dan praktik terbaik khusus yang memaksimalkan pengoptimalan biaya. Biasakan diri Anda dengan panduan berikut untuk merencanakan dan mengelola biaya di Azure AI Foundry, Azure OpenAI Service, dan Azure Machine Learning.

  • Memantau dan memaksimalkan efisiensi penagihan. Pahami titik henti biaya untuk menghindari biaya yang tidak perlu. Contohnya termasuk memanfaatkan sepenuhnya ambang harga tetap untuk pembuatan gambar atau penyempurnaan per jam. Lacak pola penggunaan Anda, termasuk token per menit (TPM) dan permintaan per menit (RPM), dan sesuaikan model dan arsitektur. Pertimbangkan model penagihan berbasis komitmen untuk pola penggunaan yang konsisten.

  • Siapkan pemberitahuan biaya otomatis. Gunakan pemberitahuan anggaran memberi tahu Anda tentang biaya tak terduga dan menetapkan strategi penganggaran untuk mengontrol dan memprediksi pengeluaran AI Anda.

Untuk aplikasi AI generatif menggunakan Azure OpenAI, lihat rekomendasi pengoptimalan biaya ini.

Mengelola data AI

Manajemen data AI yang efektif berfokus pada menjaga akurasi data, integritas, dan sensitivitas sepanjang siklus hidup AI. Saat Anda mengumpulkan himpunan data berkualitas tinggi dan mengamankan alur data, organisasi Anda dapat memastikan bahwa data tetap andal dan sesuai dengan perubahan persyaratan peraturan.

  • Pertahankan akurasi data dan kurasi himpunan data emas. Kembangkan sekumpulan data otoritatif yang digunakan untuk pengujian dan validasi rutin di kedua jenis AI. Terus kurasi himpunan data ini untuk memastikannya mencerminkan informasi terbaru dan akurat.

  • Pastikan integritas alur data. Mengembangkan dan memelihara alur data kustom untuk memastikan integritas data dari pengumpulan data ke pra-pemrosesan dan penyimpanan. Setiap langkah alur harus aman untuk menjaga performa dan keandalan di kedua jenis aplikasi AI.

  • Mengelola perubahan sensitivitas data. Pahami bahwa klasifikasi sensitivitas data dapat berubah dari waktu ke waktu. Anda mungkin ingin mengklasifikasi ulang data sensitivitas rendah sebagai sangat sensitif karena perubahan bisnis atau peraturan. Mengembangkan proses untuk menghapus atau mengganti data sensitif dalam sistem hilir. Microsoft Defender untuk Cloud dan Microsoft Purview dapat membantu Anda memberi label dan mengelola data sensitif. Proses ini dimulai dengan katalog data yang baik sebelum penyerapan AI. Saat perubahan terjadi, identifikasi semua model atau sistem yang menggunakan data sensitif. Jika memungkinkan, latih kembali model AI dengan menggunakan himpunan data yang mengecualikan data sensitif yang diklasifikasikan ulang.

Mengelola kelangsungan bisnis AI

Kelangsungan bisnis dan pemulihan bencana untuk AI melibatkan pembuatan penyebaran multi-wilayah dan menguji rencana pemulihan secara teratur. Strategi ini membantu memastikan sistem AI tetap beroperasi selama gangguan dan meminimalkan risiko pemadaman atau kehilangan data yang berkepanjangan.

  • Gunakan penyebaran multiregion untuk AI. Terapkan penyebaran multiregion untuk memastikan ketersediaan dan ketahanan tinggi untuk sistem AI generatif dan nongeneratif. Strategi ini meminimalkan waktu henti dan memastikan bahwa aplikasi AI penting tetap beroperasi selama pemadaman regional atau kegagalan infrastruktur. Pastikan untuk menerapkan redundansi yang diperlukan untuk model terlatih dan disempurnakan untuk menghindari kebutuhan pelatihan ulang selama pemadaman.

  • Menguji dan memvalidasi rencana pemulihan bencana secara teratur. Lakukan pengujian rutin rencana pemulihan bencana untuk memverifikasi bahwa Anda dapat memulihkan sistem AI generatif dan nongeneratif secara efektif. Sertakan pengujian proses pemulihan data dan prosedur validasi untuk memastikan bahwa semua komponen AI berfungsi dengan baik setelah pemulihan. Memvalidasi secara teratur memastikan bahwa organisasi siap untuk insiden dunia nyata dan meminimalkan risiko kegagalan selama pemulihan.

  • Mengelola dan melacak perubahan pada sistem AI. Pastikan bahwa semua perubahan pada model, data, dan konfigurasi dikelola melalui sistem kontrol versi seperti Git. Melakukannya sangat penting untuk melacak modifikasi dan memastikan kemampuan untuk memulihkan versi sebelumnya selama pemulihan. Untuk AI generatif dan nongeneratif, audit otomatis perubahan model dan sistem harus diberlakukan sehingga Anda dapat dengan cepat mengidentifikasi dan mengembalikan perubahan yang tidak diencana.

Langkah selanjutnya