Betanítási adatok tervezése migrálási számítási feladatokhoz az Azure-ban

Cikk
11/19/2024

Az alkalmazások AI-funkcióinak tervezésekor vegye figyelembe a nem funkcionális követelményeket, például az működőképességet, a költségeket és a biztonságot, valamint az adatbetöltéssel, az előkészítéssel és az ellenőrzéssel kapcsolatos funkcionális követelményeket.

Az adattervezés és az alkalmazástervezés nem leválasztható. Az alkalmazástervezéshez ismernie kell a használati eseteket, a lekérdezési mintákat és a frissességi követelményeket. Az AI használatának szükségességét hajtó üzleti követelmények kezeléséhez az alkalmazásnak diszkriminatív modellekből, generatív modellekből vagy modelltípusok kombinációjából származó kimenetre lehet szüksége.

Ahhoz, hogy értelmes eredményeket lehessen elérni, be kell tanítani az AI-modelleket. A modellbetanítás magában foglalja egy modell betanítását az új vagy nem látott helyzetek osztályozására vagy előrejelzésére. A betanítási adatokat az adott probléma- és számítási feladatkörnyezethez kell igazítani.

A felügyelt betanítás magában foglalja a modell címkézett mintáinak biztosítását. Ez a betanítási típus akkor hasznos, ha a kívánt eredmény egyértelmű. Ezzel szemben a nem felügyelt tanulás lehetővé teszi, hogy a modell a várt kimenet útmutatása nélkül azonosítsa az adatokon belüli mintákat és kapcsolatokat. A betanítás során az algoritmus típusa és paraméterei úgy vannak beállítva, hogy szabályozni tudja a modell tanulását. A megközelítés a modell típusától függően változik, amely magában foglalhatja a neurális hálózatokat, a döntési fákat és másokat.

A képészlelési modelleket például általában olyan feladatokra tanítják be, mint az objektumészlelés, az arcfelismerés vagy a jelenetfelismerés. Jegyzetekkel ellátott képekből tanulnak bizonyos objektumok vagy szolgáltatások azonosításához. További gyakori példák a csalásészlelési algoritmusok és az árpont-előrejelzési modellek. Ezek a modellek a korábbi pénzügyi adatokból tanulnak megalapozott döntéseket hozni.

Ez a cikk elsősorban az előző használati esetre összpontosít, ahol a modellek betanítása előtt hasznos információkat adhatnak az alkalmazásnak. A cikk útmutatást tartalmaz az adatgyűjtéshez, feldolgozáshoz, tároláshoz, teszteléshez és karbantartáshoz. A mesterséges intelligencián keresztüli feltáró adatelemzés vagy üzleti intelligencia adattervezése nem terjed ki. A cél a betanítási igények támogatása olyan stratégiákon keresztül, amelyek igazodnak a számítási feladatokra vonatkozó követelményekhez azáltal, hogy javaslatokat nyújtanak az AI-számítási feladatok betanítási adatfolyamára vonatkozóan.

A következtetés során kontextust igénylő AI-modellek adattervezésével kapcsolatos információkért lásd: Grounding data design.

Fontos

Elvárja, hogy az adattervezés egy statisztikai kísérletezésen alapuló iteratív folyamat legyen. Az elfogadható minőségi szint eléréséhez módosítsa a betanítási adatokat, azok feldolgozását, a modellfunkció-fejlesztést és a modell hiperparamétereit (ha lehetséges). Ez a kísérletezési ciklus általában a kezdeti modell betanítása során és a folyamatban lévő finomítási erőfeszítések során is előfordul, hogy az adatok és a modellek eltolódása a számítási feladat funkciójának életciklusa során történik.

Ajánlások

Íme a cikkben szereplő javaslatok összegzése.

Ajánlás	Leírás
Válassza ki az adatforrásokat a számítási feladatokra vonatkozó követelmények alapján.	Vegye figyelembe az elérhető erőforrásokat, és hogy az adatforrás segíthet-e elérni a modellbetanítás elfogadható adatminőségét. A pozitív és a negatív példákat is bemutatja. A különböző adattípusok kombinálásával megfelelő teljességet érhet el az elemzéshez és modellezéshez. Fontolja meg az olyan technikákat, mint a szintetikus kisebbségi túlbélyegezési technika (SMOTE) az adathiány vagy az egyensúlyhiány szempontjából. ▪ Adatbetöltés és -elemzés
Végezzen adatelemzést az összegyűjtött adatokról.	Végezzen elemzési folyamatokat, például feltáró adatelemzést (EDA) offline. Vegye figyelembe a költségeket és a biztonsági következményeket. Erőforrás-korlátozások nélküli kis adathalmazok esetén érdemes lehet elemzést végezni a forrásnál. ▪ Adatgyűjtési tároló
Az adatszegmentálás fenntartása, ha az üzleti és műszaki követelmények ezt kérik.	Ha eltérő biztonsági követelményekkel rendelkező adatforrásokat használ, hozzon létre külön folyamatokat az egyes modellekhez. Hozzáférési vezérlők létrehozása adott adathalmazokkal való interakció korlátozásához. ▪ Adatszegmentálás
Az adatok előfeldolgozása a betanítási célokhoz való érthetővé tétele érdekében.	A zajszűrés, az adatok újramásolása, az ismétlődések kezelése és a különböző formátumok szabványosítása révén finomíthatja az betöltött adatok minőségét. ▪ Adatok előfeldolgozása
Kerülje az elavult adatok betanítását.	Figyelje az adateltolódást és a koncepcióeltérést a belső és külső működési ciklusok részeként, hogy a modellek pontossága és megbízhatósága folyamatosan megmaradjon. A betanítási adatok rendszeres frissítése új megfigyelésekkel. Határozza meg a modell újratanítását kiváltó feltételeket, és határozza meg a frissítés gyakoriságát. ▪ Adatkarbantartás

Adattípusok

Ahhoz, hogy prediktív teljesítményt alakítson ki a modellekben, adatokat kell gyűjtenie, feldolgoznia és be kell táplálnia a modellbe. Ezt a folyamatot általában fázisokra bontott folyamatként fogjuk fel. A folyamat minden szakasza ugyanazzal az adatkészlettel foglalkozhat, de különböző célokat szolgálhat. Általában az alábbi típusú adatokat kezeli:

A forrásadatok időponthoz kötött megfigyelési adatok. Olyan adatok is lehetnek, amelyek címkézhetők az adatfolyam potenciális bemeneteként.

Ezeket az adatokat általában éles környezetből vagy külső forrásból szerzik be. Ezek az adatforrások lehetnek tárfiókokban, adatbázisokban, API-kban vagy más forrásokban. Az adatok különböző adatformátumokban lehetnek, például OLTP-adatbázisokban, strukturálatlan dokumentumokban vagy naplófájlokban. Ezek az adatok potenciális bemenetként szolgálnak az adatfolyamhoz.
A betanítási adatok a modell mintáinak biztosításához használt forrásadatok részhalmazai. A minták leíró, előre kiszámított adatok, amelyek segítenek a modellnek a minták és kapcsolatok megismerésében. Ezen adatok nélkül a modell nem tud releváns kimenetet létrehozni.
A kiértékelési adatok azon forrásadatok részhalmazai, amelyek egy gépi tanulási modell teljesítményének figyelésére és ellenőrzésére szolgálnak a betanítás során. Ez eltér a betanítási és tesztelési adatoktól, és a modell teljesítményének rendszeres kiértékelésére szolgál a betanítási fázisban, és vezérolja a hiperparaméterek finomhangolását. További információ: Modellértékelés.
A tesztelési adatok egy betanított modell prediktív hatalmának ellenőrzésére szolgálnak. Ezek az adatok a betanításhoz nem használt forrásadatokból származnak. Az éles környezetből származó megfigyeléseket tartalmaz, hogy a tesztelési folyamat meggyőző legyen. Az adattervezés szempontjából ezeket az adatokat kell tárolnia. A tesztelési modellekről a Tesztelés tervezési terület nyújt tájékoztatást.

Bizonyos esetekben a felhasználók által az alkalmazással folytatott interakciók során megadott információk idővel forrásadatokká válhatnak. Általában azt javasoljuk, hogy az ilyen módon használt felhasználói bemenet kiváló minőségű legyen. Ellenkező esetben a minőségi problémák folyamatos kezelésének szükségessége problémássá válhat. A felhasználói adatok kezelésével kapcsolatos útmutatást ez a cikk nem ismerteti.

Adatbetöltés és -elemzés

A betanítási adatok egy előre meghatározott ablakban lesznek összegyűjtve, amely elegendő reprezentációval rendelkezik a kiválasztott modell típusának betanításához. Ha például bináris besorolási modellt tanít be, a betanítási adatoknak tartalmazniuk kell az eset ábrázolását (pozitív példákat) és a nem esetet (negatív példákat). Ahhoz, hogy a betanítási adatok jelentőségteljesek legyenek, a funkciótervezés során korán végezze el az EDA-t.

Az EDA segít elemezni a forrásadatokat a jellemzők, kapcsolatok, minták és minőségi problémák azonosításához. Az EDA-t közvetlenül a forrásadattárban végezheti el, vagy adatokat replikálhat központosított tárolókba, például adattóba vagy adattárházba. A folyamat eredménye az adatgyűjtés és -feldolgozás tájékoztatása a modell hatékony betanítása érdekében.

Feljegyzés

Bár az EDA egy éles üzem előtti folyamat, az éles környezetből származó adatokat használja. Alkalmazza ugyanazt a vezérlési szintet erre a folyamatra, mint az éles környezetben.

Az alábbiakban néhány szempontot figyelembe kell venni a modellbetanítás előkészítése során történő adatgyűjtéshez.

Adatforrások

Az adatok az alábbi forrásokból gyűjthetők:

A védett adatokat a szervezet hozza létre vagy birtokolja. Nem nyilvános fogyasztásra szánták. Belső célokra szolgál.
A nyilvános források bárki számára elérhetők. Ezek a források közé tartoznak a webhelyek, a kutatási dokumentumok és a nyilvánosan megosztott adatbázisok. Lehet, hogy egy résterületre jellemző. A Wikipédiából és a PubMedből származó tartalmak például nyilvánosan hozzáférhetőnek minősülnek.

Az adatforrások kiválasztása a számítási feladatokra vonatkozó követelményektől, a rendelkezésre álló erőforrásoktól és a modell betanításához elfogadható adatok minőségétől függ. A kiegyensúlyozatlan adathalmazok torzított modellekhez vezethetnek, ezért az adatgyűjtést úgy kell megterveznie, hogy elegendő reprezentatív adatmintát kapjon. Előfordulhat, hogy a kisebbségi adatok túlbélyegzésére vagy a többségi adatok kismamázására van szükség. Ha az adatok szűkösek vagy kiegyensúlyozatlanok, fontolja meg az olyan technikákat, mint az SMOTE és a szintetikus adatlétrehozás.

Adatgyűjtési tároló

A forrásadatok gyűjtésének két fő lehetősége van:

Adatok lekérdezése az adatforrásban
Adatok másolása egy honosított adattárba, majd az adott tároló lekérdezése

A választás a számítási feladatokra vonatkozó követelményektől és az adatok mennyiségétől függ. Ha viszonylag kis mennyiségű adatot használ, a forrásrendszer közvetlenül kezelheti a nyers lekérdezéseket. Az általános eljárás azonban a honosított tárolóból való lekérdezés és elemzés.

Üzlet. Bár a honosított adattárak megkönnyíthetik az elemzést és a betanítási folyamatot, a költségek, a biztonság és a modellkövetelmények egyensúlyát is ki kell egyensúlyoznia.

Az adatok duplikálása tárolási és számítási költségeket von maga után. A különálló példányok fenntartása további erőforrásokat igényel. A helyi másolatok bizalmas információkat tartalmazhatnak. Ha igen, rendszeres biztonsági intézkedésekkel kell védenie az adatokat.

Ha éles adatokat használ betanítási adatokhoz, azokat az adatok eredeti adatbesorolási korlátozásainak kell alávetni.

Az adatok szolgáltathatók a betanítási folyamatnak (leküldéses mód), vagy maga a folyamat lekérdezheti az adatforrást (lekéréses mód). A választás a tulajdonjogtól, a hatékonyságtól és az erőforrás-korlátozásoktól függ.

Amikor az adatok le lesznek küldve a számítási feladatba, az adatforrás tulajdonosának feladata a friss adatok biztosítása. A számítási feladat tulajdonosa megfelelő helyet biztosít a honosított adattárban az adatok tárolásához. Ez a megközelítés a szervezet tulajdonában lévő védett adatokra vonatkozik, nem pedig a nyilvános forrásokra.

Az adatok lekéréséhez két módszer használható. Egy megközelítésben a számítási feladat lekérdezi az adattárat, lekéri a szükséges adatokat, és elhelyezi azokat a honosított tárolóban. Egy másik módszer a valós idejű lekérdezések végrehajtása a memóriában. A döntés az adatmennyiségtől és a rendelkezésre álló számítási erőforrásoktól függ. Kisebb adathalmazok esetén a memóriabeli beolvasás elegendő lehet a modell betanításához.

Függetlenül attól, hogy leküldéses vagy lekéréses módot használ, kerülje az elavult adatok betanítási modelljeit. Az adatfrissítések gyakoriságának igazodnia kell a számítási feladatokra vonatkozó követelményekhez.

Adatszegmentálás

A számítási feladatokra vonatkozó követelmények adatszegmentálást igényelhetnek. Íme néhány lehetséges használati eset:

A biztonsági követelmények gyakran szegmentálási döntéseket hoznak. A szabályozási korlátozások például megakadályozhatják az adatok geopolitikai régiók közötti exportálását. Ha az alkalmazás kialakítása lehetővé teszi a különálló modellek használatát, az adattervezés minden modellhez külön adatfolyamokat tartalmaz.

Ha azonban egyetlen modellt használ, a szegmentált adatforrások ebbe a modellbe kerülnek. Be kell tanítania a modellt mindkét földrajzi régióból származó adatokra, ami összetettebbé teszi a modellt.

Függetlenül attól, hogy az alkalmazás egyetlen vagy több modellt használ-e, őrizze meg az egyes adatszegmensek biztonsági intézkedéseit, hogy ugyanolyan szigorúsággal védve legyen, mint a forrásadatok.
Az adatok frissességi aránya az adatok elválasztásának egyik tényezője lehet. A különböző forrásokból származó adatok eltérő időközönként frissülhetnek. Ha az adatok megváltoznak, újratanításra lesz szükség. A szegmentálás lehetővé teszi az adatéletciklus részletes szabályozását. Érdemes lehet külön táblákat vagy folyamatokat használni a különböző adatszegmensekhez.

A használati esettől függetlenül, ha az adatok szegmentáltak, a hozzáférés-vezérlés kulcsfontosságú. Az adatszakértők, például az adatmérnökök és az adattudósok a minták és kapcsolatok megértéséhez tárják fel a rendelkezésre álló forrásadatokat. Az elemzések hozzájárulnak az eredmények előrejelzését lehetővé tevő betanítási modellekhez. Hozzáférési vezérlők létrehozása annak biztosítása érdekében, hogy csak a jogosult felhasználók használhatják az adott adathalmazokat. A minimális jogosultság alkalmazása a relevánsnak ítélt adatokra. Együttműködhet az adattulajdonosokkal a megfelelő engedélyek beállításához.

Adatok előfeldolgozása

Valós forgatókönyvekben a forrásadatok nem egyszerűen AI-forgatókönyvekhez lesznek tárolva. Van egy köztes folyamat, amely előkészíti az adatokat a betanításhoz. Ebben a szakaszban az adatok zajtól lesznek eltávolítva, ami hasznossá teszi a felhasználást. A forrásadatok kezelésekor az adattudósok feltárási, kísérletezési és döntéshozatali folyamatba kerülnek. Elsődleges céljuk a prediktív teljesítményt tartalmazó forrásadatok részeinek azonosítása és kinyerése.

Az előfeldolgozási logika a problémától, az adattípustól és a kívánt eredményektől függ. Az alábbiakban bemutatunk néhány gyakori előfeldolgozási technikát. Ez a lista nem teljes. A számítási feladat tényleges feltételeit az üzleti követelmények határozzák meg.

Minőség. Az előfeldolgozással biztosítható, hogy a betanítási adatok zajtól legyenek eltávolítva. A cél annak biztosítása, hogy a betanítási adatok minden sora egyértelmű megfigyelést vagy jó példát jelöljön, amely releváns a használati eset szempontjából, és hogy kiküszöbölje a minőséggel vagy prediktív teljesítménnyel nem rendelkező megfigyeléseket. Ha például összeválogatja a termékértékeléseket, előfordulhat, hogy megszünteti a túl rövid adatokat. Meg kell tudnia, hogy milyen adatminőség hoz létre értelmes prediktív eredményeket.
Újramásolás. A túl specifikus forrásadatmezők korlátozhatják a prediktív képességeket. Vegyük például egy címmezőt. A hatókör kibővítése a teljes címről (házszám és utcanév) egy magasabb szintre( például város, állam vagy ország/régió) relevánsabb lehet.
Deduplikáció. A redundancia megszüntetésével biztosítható, hogy a betanítási adatok pontosak és reprezentatívak legyenek. Bizonyos esetekben a megfigyelés gyakorisága nem releváns. Például a naplók vizsgálatakor, ha egy naplóbejegyzés 1000-szer jelenik meg, az a gyakoriságát jelzi. Ez nem feltétlenül jelenti azt, hogy ez egy súlyosabb hiba, mint egy napló, amely csak egyszer történt. Az ilyen típusú redundancia zajt okozhat.
Bizalmas adatkezelés. A személyes adatok kiküszöbölése, kivéve, ha elengedhetetlen a modell prediktív teljesítménye szempontjából olyan módon, amely anonimizálással nem érhető el. A betanítási adatoknak hatékonynak kell lenniük az adatvédelem veszélyeztetése nélkül. Ha az adatok értéket adnak, tisztában kell lennie a bizalmas adatok kezelésének etikai szempontjaival. További információ: Felelős AI.
Szabványosított átalakítás. A tartományi szakértők az előző technikákat a funkciófejlesztés alapvető részének tekintik. A széles körű hatókörnek és a különböző forrásadatoknak végül olyan funkciótárolókba kell egyesülnie, ahol a funkciók rendszerezése (például funkciótáblákba) a betanítási modellek explicit célja. Miután kiválasztotta a prediktív adatokat a betanításhoz, alakítsa át az adatokat szabványosított formátumra. A szabványosítás a betanítási modellel való kompatibilitást is biztosítja.

A képek szövegábrázolássá alakítása az átalakítás egyik formája. A beolvasott dokumentumokat vagy képeket például géppel olvasható szöveggé alakíthatja.

A modellekkel való kompatibilitás érdekében előfordulhat, hogy a modell elvárásainak megfelelően módosítania kell a tájolásokat vagy a képarányokat.

Feljegyzés

A nagy mennyiségű strukturált és strukturálatlan adat keverése növelheti a feldolgozási időt. A számítási feladatokat végző csapatoknak meg kell mérnie a különböző formátumok feldolgozásának hatását. Ahogy az újratanítási erőfeszítések közötti időszak rövidebb lesz, az előfeldolgozással töltött idő kritikusabbá válik.

Adatmegőrzés

A modell betanítása után értékelje ki, hogy törli-e a betanításhoz használt adatokat, és újraépíti-e a modellt a következő betanítási ablakban.

Ha az adatok viszonylag változatlanok maradnak, előfordulhat, hogy nincs szükség újratanításra, kivéve, ha a modell eltérése történik. Ha az előrejelzés pontossága csökken, újra kell tanítania a modellt. Dönthet úgy, hogy újra betölti az adatokat, előfeldolgozást készít, és létrehozza a modellt. Ez a művelet akkor a legjobb, ha az utolsó betanítási időszak óta jelentős változás történt az adatokban. Ha nagy mennyiségű adat van, és nem sokat változott, előfordulhat, hogy nem kell előre feldolgoznia és újraépítenie a modellt. Ebben az esetben őrizze meg az adatokat, végezze el a helyszíni frissítéseket, és tanítsa be újra a modellt. Döntse el, hogy mennyi ideig szeretné megőrizni a betanítási adatokat.

Általában törölje az adatokat a szolgáltatástárolókból a gyenge teljesítménnyel rendelkező és a jelenlegi vagy jövőbeli modellek szempontjából már nem releváns funkciók zsúfoltságának és tárolási költségeinek csökkentése érdekében. Ha megtartja az adatokat, várhatóan kezelnie kell a költségeket, és meg kell oldania a biztonsági problémákat, amelyek az adatok duplikálásával kapcsolatos tipikus problémák.

Az életút nyomon követése

Az adatkiképzés az adatok forrásától a modellbetanításban való használatig tartó nyomon követését jelenti. Az adatsorok nyomon követése elengedhetetlen a magyarázhatósághoz. Bár előfordulhat, hogy a felhasználóknak nincs szükségük részletes információra az adatok eredetéről, ezek az információk kulcsfontosságúak a belső adatszabályozási csapatok számára. A leállási metaadatok biztosítják az átláthatóságot és az elszámoltathatóságot, még akkor is, ha a modell nem használja közvetlenül. Ez hibakeresési célokra hasznos. Segít annak meghatározásában is, hogy az adatok előfeldolgozása során elfogultságok jelennek-e meg.

Amikor csak lehet, használja a platformfunkciók használatát az életút nyomon követéséhez. Az Azure Machine Learning például integrálva van a Microsoft Purview-ba. Ez az integráció hozzáférést biztosít az MLOps életciklusának részeként az adatfelderítés, a vonalkövetés és a szabályozás funkcióihoz.

Adatkarbantartás

Az idő múlásával minden modell elavulttá válhat, ami a modell prediktív erejét vagy a romlás szempontjából való relevanciáját okozza. Számos külső változás okozhat romlást, beleértve a felhasználói viselkedés, a piaci dinamika vagy más tényezők eltolódását. A korábban betanított modellek a változó körülmények miatt kevésbé relevánsak lehetnek. Az előrejelzések jobb hűséggel való létrehozásához friss adatokra van szükség.

Újabb modellek bevezetése. A relevancia biztosításához olyan működési ciklusra van szükség, amely folyamatosan értékeli a modell teljesítményét, és figyelembe veszi az újabb modelleket, amelyek minimálisan zavarják az adatfolyamot. Másik lehetőségként felkészülhet egy nagyobb változásra, amely magában foglalja az adatéletciklus és a folyamat újratervezését.

Új modell kiválasztásakor nem feltétlenül kell új adatkészlettel kezdenie. A betanításhoz használt meglévő megfigyelések még a modellváltás során is értékesek maradhatnak. Bár az új modellek szűkebb forgatókönyveket fedhetnek fel, az alapvető folyamat továbbra is hasonló marad. Az olyan adatkezelési megközelítések, mint a funkciótárolók és az adathálók egyszerűsíthetik az új gépi tanulási modellek bevezetését.
Triggeralapú és rutinműveletek. Fontolja meg, hogy a modell újratanítását bizonyos események vagy feltételek aktiválják-e. Az új, relevánsabb adatok rendelkezésre állása vagy a meglévő alapkonfiguráció alatti relevancia csökkenése például újratanítást válthat ki. Ennek a megközelítésnek az előnyei a válaszkészség és az időben történő frissítések.

A karbantartás rendszeres, rögzített időközönként is ütemezhető, például naponta vagy hetente. A feladat-ellenőrző műveletek esetében mindkét módszert figyelembe kell venni.
Adateltávolítás. Távolítsa el a betanításhoz már nem használt adatokat az erőforrás-használat optimalizálásához, és minimalizálja az elavult vagy irreleváns adatok modellbetanításhoz való használatának kockázatát.

Az elfeledtetéshez való jog arra utal, hogy az egyénnek joga van arra, hogy személyes adatait eltávolítsa az online platformokról vagy adatbázisokból. Ügyeljen arra, hogy szabályzatok legyenek érvényben a betanításhoz használt személyes adatok eltávolításához.
Adatmegőrzés. Bizonyos esetekben újra kell építenie egy meglévő modellt. Vészhelyreállítás esetén például a modellt pontosan úgy kell létrehozni, mint a katasztrofális esemény előtt. Javasoljuk, hogy rendelkezzen egy másodlagos adatfolyammal, amely követi az elsődleges folyamat számítási feladatainak követelményeit, például a modell romlásának kezelését, a rendszeres frissítéseket triggeralapú vagy rutinműveletekkel, valamint egyéb karbantartási feladatokat.

Üzlet. Az adatkarbantartás költséges. Ez magában foglalja az adatok másolását, a redundáns folyamatok kiépítését és a rutinfolyamatok futtatását. Ne feledje, hogy előfordulhat, hogy a rendszeres betanítás nem javítja a válaszminőséget. Csak az elavultság ellen nyújt garanciát. Értékelje ki az adatváltozások jelként való fontosságát a frissítések gyakoriságának meghatározásához.

Győződjön meg arról, hogy az adatkarbantartás a modellműveletek részeként történik. Olyan folyamatokat kell létrehoznia, amelyek a lehető legnagyobb mértékben automatizálják a módosításokat, és a megfelelő eszközkészletet használják. További információ: MLOps és GenAIOps az Azure-beli AI-számítási feladatokhoz.

Következő lépések

Tervezési terület: Földelési adatok tervezése

Megosztás a következőn keresztül: