Megosztás a következőn keresztül:


Felelős Generatív AI-alkalmazások és -szolgáltatások fejlesztése Windows rendszeren

Ez a dokumentum áttekintést nyújt a generatív mesterséges intelligenciával rendelkező alkalmazások és szolgáltatások Windowson történő létrehozásakor javasolt felelős fejlesztési eljárásokról.

Útmutató a generatív AI-alkalmazások és -funkciók felelős fejlesztéséhez Windows rendszeren

A Microsoft minden csapata alapvető alapelveket és gyakorlatokat követ, a mesterséges intelligencia felelősségteljes kiépítéséhez és szállításához, beleértve a Windowst is. A Microsoft felelős fejlesztéssel kapcsolatos megközelítéséről bővebben olvashat a Microsoft Felelős AI Átláthatósági Jelentésében . A Windows a Nemzeti Szabványügyi és Technológiai Intézet (NIST) AI kockázatkezelési keretrendszeréhez igazodva követi az RAI-fejlesztés alappilléreit – szabályozását, leképezését, mérését és kezelését.

Szabályozás – Szabályzatok, eljárások és folyamatok

A szabványok az irányítási és megfelelőségi folyamatok alapjai. A Microsoft saját Felelős AI Standardot fejlesztett ki, beleértve hat alapelvet, amelyeket kiindulópontként használhat a felelős AI-ra vonatkozó irányelvek kidolgozásához. Javasoljuk, hogy AI-alapelveket alakítson ki a fejlesztési életciklus végéig, valamint az adatvédelmi, biztonsági és felelős AI-jogszabályoknak való megfelelést szolgáló folyamatokba és munkafolyamatokba. Ez kiterjed az egyes mesterséges intelligencia funkciók korai értékelésére, például az mesterséges intelligencia igazságossági ellenőrzőlistájának és a irányelvek Human-AI interakcióra vonatkozó Microsoft Research használatára, az AI teljesítménymutatók monitorozására és felülvizsgálatára, tesztelésre és folyamatokra olyan eszközök használatával, mint a Felelős Mesterséges Intelligencia scorecard, valamint nyilvános dokumentációnyújtásra a mesterséges intelligencia funkciók képességeiről és korlátairól, valamint a felhasználói tájékoztatásról és irányításról – beleértve az értesítést, hozzájárulást, adatgyűjtést és adatfeldolgozást –, összhangban a vonatkozó adatvédelmi törvényekkel, jogszabályi követelményekkel és szabályzatokkal.

Térkép – Kockázat azonosítása

A kockázatok azonosítására ajánlott eljárások a következők:

Teljes körű tesztelés

A teljes körű tesztelés az elejétől a végéig kiértékeli a teljes AI-rendszert annak biztosítása érdekében, hogy a rendszer a kívánt módon működjön, és megfeleljen a megállapított szabványoknak. Ez az átfogó megközelítés a következőket tartalmazhatja:

Piros összevonás

A red teaming kifejezés történelmileg az ellenfél szisztematikus támadásait írta le a biztonsági rések tesztelése céljából. A közelmúltban a kifejezés túlnyúlt a hagyományos kiberbiztonságon, és a gyakori használatban fejlődött az AI-rendszerek kipróbálásának, tesztelésének és támadásának számos típusának leírására.

A nagy nyelvi modellek (LLM-ek) és a kis nyelvi modellek (SLM-ek) esetén mind a jóindulatú, mind a támadó használat potenciálisan káros kimeneteket eredményezhet, amelyek számos formában jelentkezhetnek, beleértve a gyűlöletbeszédet, az erőszak felbujtását vagy dicsőítését vagy a szexuális tartalmakat. Az alapos piros csapat tevékenység lehetővé teszi, hogy stressztesztelje a rendszerét, és finomítsa a tartalomstratégiát annak érdekében, hogy csökkentse a rendszer által okozott károk lehetőségét.

Minden AI-rendszert piros csapattesztnek kell alávetni a funkciótól és a rendeltetéstől függően mind a generatív AI-t alkalmazó, mind a nem generatív AI-t használó alacsonyabb kockázatú rendszerek esetében:

  • Formális vörös összevonási: A nagy nyelvi modelleket (LLM-eket) használó, generatív AI-t alkalmazó, magas kockázatú rendszerek esetében a független vörös összevonást el kell végezni. A formális vörös csapatozás magában foglalja a szervezeten kívüli szakemberek felkérését, hogy részt vehessenek a vörös csapattevékenységekben.

  • Belső red teaming: Legalább tervezzen belső red teaminget az összes alacsonyabb kockázatú, nemgeneratív AI-rendszerre. Ezt a szervezeten belüli személyek is megtehetik.

Tudjon meg többet a red teamingről és arról, hogyan értékelheti a rendszere red teaming igényeit: Microsoft AI Red Team

Modell kiértékelése

A végpontok közötti tesztelés részeként fontos magát a modellt kiértékelni.

  • modellkártya: A nyilvánosan elérhető modellek, például a HuggingFace-en lévő modellek esetében hasznos hivatkozásként ellenőrizheti az egyes modellek modellkártyáját, hogy a használati esethez megfelelő modell-e. Tudjon meg többet a Model Cards.

  • manuális tesztelés: A szkriptek nélküli, lépésről-lépésre végzett teszteket emberek hajtják végre, akik a modellértékelés fontos összetevői, amely támogatja a...

    • A folyamat előrehaladásának mérése néhány prioritási probléma esetén. Adott károk mérséklésekor gyakran a leghatékonyabb, ha manuálisan ellenőrzi a haladást egy kis adatkészleten, amíg a kár már nem észlelhető az automatizált mérésre való áttérés előtt.

    • A metrikák meghatározása és jelentése mindaddig szükséges, amíg az automatizált mérés nem elég megbízható ahhoz, hogy önmagában használható legyen.

    • Rendszeres helyszíni ellenőrzés az automatikus mérés minőségének mérésére.

  • Automatizált tesztelési: Az automatikusan végrehajtott tesztelés a modellértékelés fontos összetevője, amely támogatja a...

    • Nagy léptékű mérés nagyobb lefedettséggel, hogy átfogóbb eredményeket nyújtson.

    • Folyamatos mérés a rendszer, a használat és a kockázatcsökkentések fejlődésével kapcsolatos regresszió monitorozásához.

  • Modell kiválasztása: Válasszon ki egy olyan modellt, amely megfelel az Ön céljának, és tanítsa magát a képességeinek, korlátainak és potenciális biztonsági kihívásainak megismerésére. A modell tesztelése során győződjön meg arról, hogy a modell az Ön számára megfelelő eredményeket hoz létre. Első lépésként a Microsoft (és nem Microsoft/nyílt forráskódú) modellforrásainak célhelyei a következők:

Mérték – Kockázatok és kockázatcsökkentés értékelése

Ajánlott eljárások:

  • Tartalommoderátor kijelölése: A tartalommoderátor feladata a szöveges, képi és video tartalmak ellenőrzése, hogy az esetlegesen sértő, kockázatos vagy más módon nem kívánatos tartalmakat kiszűrje a tartalomból. További információ: Bevezetés a Tartalom moderátorba (Microsoft Learn Training).

    • Tartalombiztonsági szűrők használata: Ez a többosztályos besorolási modellek együttese a káros tartalmak négy kategóriáját (erőszak, gyűlölet, szexuális és önkárosítás) észleli különböző súlyossági szinteken (alacsony, közepes és magas). További információ: Tartalomszűrők konfigurálása az Azure OpenAI Servicehasználatával.

    • Meta-parancssor alkalmazása: A metaadat-parancssor egy rendszerüzenet, amely a parancssor elején található, és arra szolgál, hogy a modellt a használati eset szempontjából releváns kontextussal, utasításokkal vagy egyéb információkkal prímozza. Ezek az utasítások a modell viselkedésének irányítására szolgálnak. További információ: Hatékony biztonsági védőkorlátok létrehozása metaprompt- és rendszerüzenet-tervezéssel.

    • Blokklisták használata: Ez letiltja bizonyos kifejezések vagy minták használatát a parancssorban. További információ: Blokklista használata az Azure OpenAI.

    • Ismerkedjen meg a modell eredetével: Az eredet a modell tulajdonjogának története, vagy a ki-hol-mikor, és nagyon fontos megérteni. Ki gyűjtötte össze az adatokat egy modellben? Kikre vonatkoznak az adatok? Milyen típusú adatokat használ? Hol gyűjtötték az adatokat? Mikor gyűjtötték az adatokat? A modelladatok forrásának ismerete segíthet felmérni annak minőségét, megbízhatóságát, és elkerülni az etikátlan, tisztességtelen, elfogult vagy pontatlan adatfelhasználást.

    • Szabványos folyamat használata: Használjon egy egységes tartalommoderálási folyamatot ahelyett, hogy különböző részekből tevődne össze. További információ: A gépi tanulási folyamatokismertetése.

  • felhasználói felületmegoldásainak alkalmazása: Ezek fontosak abban, hogy egyértelművé tegyék a felhasználó számára az AI-alapú funkciók képességeit és korlátait. A felhasználók segítése és a funkció átláthatóságának biztosítása érdekében a következőket teheti:

    • A felhasználók ösztönzése a kimenetek szerkesztésére, mielőtt elfogadná őket

    • Az AI-kimenetek lehetséges pontatlanságainak kiemelése

    • AI szerepének felfedése az interakció során

    • Idézethivatkozások és források

    • A bemenet és a kimenet hosszának korlátozása, ha szükséges

    • Strukturált bemenet vagy kimenet megadása – a kéréseknek szabványos formátumot kell követnie

    • Előre meghatározott válaszok előkészítése ellentmondásos kérdésekre.

  • Felhasználói visszajelzési ciklusok implementálása: A felhasználókat arra ösztönözzük, hogy aktívan vegyenek részt a visszajelzési ciklusokban:

    • Kérjen visszajelzést közvetlenül az alkalmazásában/ termékében egy egyszerű visszajelzési mechanizmus használatával, amely a felhasználói élmény részeként elérhető a kontextusban.

    • Alkalmazza a közösségi figyelési technikákat azokra a csatornákra, amelyeket az ügyfelek a funkcióval kapcsolatos problémákról, aggodalmakról és esetleges károkról szóló korai beszélgetésekhez használnak.

Kezelés – AI-kockázatok csökkentése

Az AI-kockázatok csökkentésére vonatkozó javaslatok a következők:

  • visszaélések monitorozása: Ez a módszer észleli és enyhíti az ismétlődő tartalmakat és/vagy viselkedéseket, amelyek arra utalnak, hogy a szolgáltatást olyan módon használták, amely megsértheti a magatartási kódexet vagy más vonatkozó termékfeltételeket. További információ: visszaélések monitorozása.

  • Fázisos bevezetés: Az AI-megoldás lassú bevezetése segít a bejövő jelentések és aggodalmak kezelésében.

  • incidenskezelési terv: Minden magas prioritású kockázat esetén értékelje ki, hogy mi fog történni, és mennyi ideig tart az incidensre való reagálás, és hogy hogyan fog kinézni a válaszfolyamat.

  • Funkció vagy rendszer kikapcsolásának lehetősége: Olyan funkció biztosítása, amely kikapcsolja a funkciót, ha olyan incidens történt, amely miatt a funkció szüneteltetése szükséges a további károk elkerülése érdekében.

  • Felhasználói hozzáférés-vezérlők/letiltó: A rendszer helytelenül használó felhasználóinak letiltásának módja.

  • Felhasználói visszajelzés: Használjon mechanizmusokat a felhasználói oldalon felmerülő problémák észlelésére.

    • Kérjen visszajelzést közvetlenül a termékben egy egyszerű visszajelzési mechanizmussal, amely egy tipikus munkafolyamat kontextusában érhető el.

    • Alkalmazza a közösségi figyelési technikákat azokra a csatornákra, amelyeket az ügyfelek a funkcióval kapcsolatos problémákról, aggodalmakról és esetleges károkról szóló korai beszélgetésekhez használnak.

  • Telemetriai adatok felelős üzembe helyezése: Azonosítsa, gyűjtse össze és figyelje a felhasználói elégedettséget vagy a rendszer rendeltetés szerinti használatára vonatkozó képességet jelző jeleket, biztosítva, hogy betartsa a vonatkozó adatvédelmi törvényeket, szabályzatokat és kötelezettségvállalásokat. Telemetriaadatokkal azonosíthatja a hiányosságokat, és javíthatja a rendszert.

Eszközök és erőforrások

További erőforrások