Mesterségesintelligencia-/gépi tanulási rendszerek és függőségek fenyegetésmodellezése

Cikk
03/12/2025

Szerzők: Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar

Külön köszönet Raul Rojasnak és az AETHER Security Engineering Workstreamnek.

2019. november

Ez a dokumentum az AETHER Engineering Practices for AI (AETHER MI-tervezési eljárások) munkacsoportjának terméke, és kiegészíti a meglévő SDL-fenyegetésmodellezési eljárásokat azáltal, hogy új útmutatást nyújt a veszélyek számbavételére és elhárítására az MI és gépi tanulási területre vonatkozóan. Ez a dokumentum azért készült, hogy referenciaként szolgáljon az alábbi biztonsági terváttekintések során:

Mesterséges intelligencián/gépi tanuláson alapuló szolgáltatásokat használó vagy azoktól függő termékek/szolgáltatások
Mesterséges intelligencián/gépi tanuláson alapuló termékek/szolgáltatások

A hagyományos biztonsági fenyegetések elhárítása fontosabb, mint valaha. A Biztonságfejlesztési életciklusban meghatározott követelmények elengedhetetlenek egy olyan termék biztonsági alapjainak megalapozásához, amelyre ez az útmutató épít. A hagyományos biztonsági fenyegetések elhárításának elmulasztása lehetővé teszi a jelen dokumentumban tárgyalt mesterséges intelligenciával/gépi tanulással kapcsolatos támadásokat a szoftveres és a fizikai tartományokban egyaránt, valamint a szoftverkészlet alsóbb rétegei biztonságának veszélyeztetését. A terület új biztonsági fenyegetéseinek bemutatásához lásd a mesterséges intelligencia és a gépi tanulás jövőjének biztonságossá tételét a Microsoftnál.

A biztonsági mérnökök és az adatszakértők készségei általában nincsenek átfedésben egymással. Ez az útmutató lehetővé teszi, hogy a két szakterület megbeszéléseket folytathasson az új fenyegetésekről és azok elhárításáról anélkül, hogy a biztonsági mérnököknek adatszakértőkké kellene válniuk, vagy fordítva.

A dokumentum két szakaszra osztható:

„A fenyegetésmodellezés legfontosabb új szempontjai” szakasz a mesterséges intelligencia/gépi tanulás fenyegetésmodellezésének új szemléleteit és kérdéseit tárgyalja. Az adatszakértőknek és a biztonsági mérnököknek egyaránt érdemes áttekinteniük, mivel ezt használják majd útmutatóként a fenyegetésmodellezéssel kapcsolatos megbeszélésekhez és az elhárítási lépések priorizálásához.
„A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja” című szakasz részletesen ismerteti az egyes támadásokat, valamint a jelenleg a Microsoft-termékeket és -szolgáltatásokat érintő fenyegetések elleni védelemhez használatos elhárítási lépéseket. Ez a szakasz elsősorban azoknak az adatszakértőknek szól, akiknek a fenyegetések modellezése/biztonsági felülvizsgálati folyamata során bizonyos veszélyforrások elhárítását kell megvalósítaniuk.

Ez az útmutató a Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover által létrehozott Adversarial Machine Tanulás Threat Taxonomy köré szerveződik,"Failure Modes in Machine Tanulás" címmel. A jelen dokumentumban részletezett biztonsági fenyegetések osztályozásával kapcsolatos incidenskezelési útmutatásért tekintse meg az AI/ML-fenyegetések SDL-hibasávját. Ezek mind élő dokumentumok, amelyek idővel fejlődni fognak a fenyegetési környezettel.

A fenyegetésmodellezés legfontosabb új szempontjai: A megbízhatósági határok megtekintésének módosítása

Tegyük fel, hogy veszélyeztetik/beszennyezik az adatokat, amelyekből Ön, valamint az adatszolgáltató a betanítást végzi. Ismerje meg, hogyan észlelheti a rendellenes és rosszindulatú adatbejegyzéseket, valamint hogyan tudja megkülönböztetni azokat egymástól, és elvégezni helyreállítást.

Összesítés

A betanítási adattárak és az azokat üzemeltető rendszerek a fenyegetésmodellezési hatókör részét képezik. A gépi tanulásban rejlő legnagyobb biztonsági fenyegetés napjainkban az adatszennyezés, mert a nem megbízható/ellenőrizetlen nyilvános adathalmazok tanulási adatként való használata mellett ezen a területen nincsenek szabványos eljárások ennek észlelésére és elhárítására. Az adatok eredetének ismerete és nyomon követése elengedhetetlen a megbízhatóságuk garantálásához és a „válogatatlan bemenet válogatatlan kimenetet eredményez” betanítási ciklus elkerüléséhez.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

Hogyan ismerné fel, hogy adatait beszennyezték vagy illetéktelenül módosították?

– Milyen telemetriával rendelkezik a betanítási adatai minőségi hibáinak észlelésére?
Felhasználói bemenetekről végzi a betanítást?

– Milyen típusú ellenőrzést/tisztítást végez a bemeneti tartalmon?

– A dokumentált adatok hasonlítanak az adathalmazok adatlapjaira?
Ha online adattárakkal végez betanítást, milyen lépéseket tesz a modell és az adatok közötti kapcsolat biztonsága érdekében?

– Van mód arra, hogy jelentsék a végfelhasználók forrásait ért illetéktelen hozzáférést?

– Egyáltalán képesek erre?
Mennyire bizalmas adatokkal végzi a betanítást?

– Katalogizálja vagy szabályozza az adatbejegyzések hozzáadását/frissítését/törlését?
Tartalmazhat a modell kimenete bizalmas adatokat?

– Az adatokat a forrás engedélyével szerezte be?
A modell csak a cél eléréséhez szükséges kimenetet eredményezi?
A modell visszaad nyers megbízhatósági pontszámokat vagy bármilyen más közvetlen kimenetet, amely rögzíthető és duplikálható?
Milyen hatása van, ha a betanítási adatait a modell támadásával/megfordításával kinyerik?
Ha a modell kimenetének megbízhatósági szintjei hirtelen csökkennének, meg tudná állapítani, hogy ez hogyan/miért történt, és hogy mely adatok okozták?
Jól formázott bemenetet határozott meg a modellhez? Mit tesz annak érdekében, hogy a bemenetek megfeleljenek ennek a formátumnak, és mit tesz, ha nem felelnek meg?
Honnan értesül arról, ha a kimenetek helytelenek, de nem okoznak jelentésekben szereplő hibákat?
Tudja-e, hogy a betanítási algoritmusok matematikai szinten ellenállnak-e a kártékony bemeneteknek?
Hogyan állítja helyre a betanítási adatok kártékony beszennyezését?

– El tudja különíteni/karanténba tudja helyezni a kártékony tartalmat, és újra tudja tanítani az érintett modelleket?

– Vissza tud állítani egy korábbi modellverziót az ismételt betanításhoz?
Ellenőrizetlen nyilvános tartalmon használ megerősítő tanulást?
Az adatok követésekor, ha problémát talál, nyomon tudja követni egészen az adathalmazba való bevezetéséig? Ha nem, akkor problémát jelent mindez?
Az anomáliák felismeréséhez ismernie kell a betanítási adatok eredetét, és azonosítania kell a statisztikai normákat

– A betanítási adatok mely elemei vannak kitéve a külső befolyásolásnak?

– Ki járulhat hozzá a betanításhoz használt adathalmazokhoz?

– Ön hogyan támadná meg a saját betanítási adatforrásait, ha károkat szeretne okozni a versenytársaknak?

Megzavarás kártékony céllal (az összes változat)
Adatszennyezés (az összes változat)

Példatámadások

A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné
A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben
A támadó véletlenszerű zajt injektál a besorolás alatt álló forrásadatokba a helyes besorolás valószínűségének jövőbeni csökkentése érdekében lebutítva a modellt
A betanítási adatpontok szennyezése, ami a kiválasztott adatpontok hibás besorolását okozza, és bizonyos műveletek elvégzését/kihagyását eredményezi

A modell(ek) vagy termék/szolgáltatás által elvégezhető azon műveletek azonosítása, amelyek az ügyfélnek kárt okozhatnak az online vagy a fizikai tartományban

Összesítés

A mesterséges intelligencián/gépi tanuláson alapuló rendszerek elleni elhárítatlan támadások hatással lehetnek a fizikai világra is. Minden olyan esemény, amely pszichológiailag vagy fizikailag ártalmas lehet a felhasználókra, végzetes kockázatot jelent a termékére vagy szolgáltatására nézve. Ez kiterjed minden olyan, az ügyfelekkel kapcsolatos bizalmas adatra, amelyet betanításra használnak és a bizalmas adatok esetleges kiszivárgását okozó tervezési döntésekre.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

Kártékony célú példákkal végzi a betanítást? Milyen hatással vannak a modell kimenetére a fizikai tartományban?
Milyen hatással van a trollkodás a termékre/szolgáltatásra nézve? Hogyan tudja észlelni és elhárítani?
Mi kell ahhoz, hogy a modell olyan eredményt adjon vissza, amely félrevezeti a rendszert, és elutasítja a jogosult felhasználók hozzáférését?
Mit eredményez a modell lemásolása/ellopása?
Felhasználható a modell arra, hogy egy adott csoporthoz tartozó vagy a betanítási adatokban szereplő személy tagságára lehessen következtetni?
Okozhatják a támadók a termék hírnevének vagy a megbízhatóságának károsodását, ha arra kényszerítik, hogy bizonyos műveleteket hajtson végre?
Hogyan kezeli a megfelelő formátumú, de elfogult, például trolloktól származó adatokat?
A modell ki van téve a használatkor és az abból való lekérdezés során. Felfedheti ez a betanítási adatokat vagy a modell működését?

Tagsági következtetés
Modellinverzió
Modell-lopás

Példatámadások

A betanítási adatok rekonstrukciója és kinyerése a modell ismételt lekérdezésével a maximális megbízhatóságú eredmények érdekében
A modell duplikálása teljes körű lekérdezés–válasz párosítással
A modell lekérdezése oly módon, hogy felfedje a betanítási adathalmazban lévő személyes adatok egy részét
Önvezető autó félrevezetése, hogy figyelmen kívül hagyja a stoptáblákat/közlekedési lámpákat
Beszélgetőrobotok manipulálása, hogy azok jóindulatú felhasználókkal trollkodjanak

A mesterséges intelligencia/gépi tanulás függőségforrásainak, valamint az adatok/modell ellátási láncában található előtér-megjelenítési rétegek beazonosítása

Összesítés

A mesterséges intelligenciát és a gépi tanulást érő számos támadás az olyan API-khoz való jogosult hozzáféréssel kezdődik, amelyek a modell lekérdezési hozzáférésének biztosítása érdekében érhetők el. Az itt szereplő gazdag adatforrások és gazdag felhasználói élmény miatt a harmadik felek hitelesített, de „nem megfelelő” (szürke zónás) hozzáférése a modellekhez kockázatos, mert a Microsoft által biztosított szolgáltatáson felüli megjelenítési rétegként is funkcionálhat.

Megválaszolandó kérdések a biztonsági felülvizsgálat során

Mely ügyfelek/partnerek rendelkeznek hitelesítéssel a modell vagy szolgáltatás API-jainak eléréséhez?

– Működhetnek a szolgáltatáson felüli megjelenítési rétegként?

– Azonnal vissza tudja vonni a hozzáférésüket a biztonság veszélyeztetése esetén?

– Mi a helyreállítási stratégia a szolgáltatás vagy a függőségek rosszindulatú használata esetén?
Építhet harmadik fél előtérrendszert a modell köré olyan módon, hogy más célokra használja, és kárt okozzon a Microsoftnak vagy ügyfeleinek?
Az ügyfelek közvetlenül Önnek adják át a betanítási adatokat?

– Hogyan gondoskodik az adatok biztonságáról?

– Mi történik, ha az kártékony, és a szolgáltatását célozza?
Hogy néz ki egy vakriasztás? Mit eredményez egy vakriasztás?
Nyomon tudja követni és mérhetővé tudja tenni a valódi és vakriasztások aránya közötti eltéréseket több modell között?
Milyen típusú telemetriára van szükség, hogy a modell a felhasználóknak szánt kimenetének megbízhatóságát igazolja?
Azonosítsa a külső felekhez kapcsolódó függőségeket a gépi tanulási/betanítási adatok ellátási láncában – ne csak a nyílt forráskódú szoftvereket, hanem az adatszolgáltatókat is.

– Miért használja őket, és hogyan ellenőrzi a megbízhatóságukat?
Külső féltől származó, előre elkészített modelleket használ, vagy elküldi a betanítási adatokat külső MLaaS-szolgáltatónak?
Gyűjtse össze a hasonló termékekre/szolgáltatásokra irányuló támadásokról szóló híreket. Annak ismeretében, hogy a mesterséges intelligenciát/gépi tanulást fenyegető számos veszély több modelltípust is érinthet, milyen hatással lennének ezek a támadások a saját termékeire?

Neurális háló újraprogramozása
Kártékony célú példák a fizikai tartományban
Rosszindulatú gépitanulás-szolgáltatók betanítási adatokat szereznek meg
A gépi tanulás ellátási láncának megtámadása
A kiskapus modell
Sérült biztonságú, gépitanulás-specifikus függőségek

Példatámadások

Egy rosszindulatú MLaaS-szolgáltató egy adott megkerülést alkalmazó trójai programmal fertőzi meg a modellt
Egy ellenséges ügyfél biztonsági rést talál az Ön által használt általános OSS-függőségben, és mesterségesen összeállított betanítási adatokat tölt fel a szolgáltatás hatékonyságának rontása céljából
Egy gátlástalan partner arcfelismerési API-kat használ, és egy megjelenítési réteget hoz létre a szolgáltatás felett élethű hamisítványok (deep fake-ek) létrehozásához.

A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja

#1: Adversarial Perturbation

Leírás

A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja az éles környezetben üzembe helyezett modelltől[1]. Ez a modellbemenet integritásának megsértése, ami fuzz tesztelés jellegű támadásokhoz vezet, amelyek következtében a végeredmény nem feltétlenül egy hozzáférés-megsértés vagy EOP, hanem inkább a modell besorolási teljesítményének befolyásolása. Mindez abban is megnyilvánulhat, hogy a trollok úgy használnak bizonyos célszavakat, hogy a mesterséges intelligencia letiltsa azokat, amivel lényegében megtagadják a szolgáltatást a „letiltott” szóval egyező nevű, jogszerű felhasználók tekintetében.

Diagram that shows increasing attack difficulty when complexity is increasing and capability is decreasing. [24]

Variant #1a: Célzott helytelen besorolás

Ebben az esetben a támadók olyan mintát hoznak létre, amely nem található meg a célosztályozó bemeneti osztályában, de a modell az adott bemeneti osztályként sorolja be. A kártékony célú minta véletlenszerű zajként jelenhet meg az emberi szem számára, a támadók azonban ismeretekkel rendelkeznek a célszámítógép tanulási rendszeréről, így olyan fehér zajt hozhatnak létre, amely nem véletlenszerű, hanem a megcélzott modell bizonyos aspektusait használja ki. A támadó olyan bemeneti mintát biztosít, amely nem szabályos minta, de a célrendszer szabályos osztályként sorolja be.

Példák

A diagram showing that a photo of targeted noise is incorrectly classified by an image classifier resulting in a photo of a bus. [6]

Mitigations

Az Adversarial Robustness megerősítése az Adversarial Training által kiváltott modell megbízhatóságával [19]: A szerzők a megbízhatósági információkat és a legközelebbi szomszédkeresést kombináló keretrendszert javasolják a megbízhatósági információk és a legközelebbi szomszédkeresés kombinálására, hogy megerősítsék az alapmodellek megbízhatóságát. A keretrendszer segítséget nyújt a helyes és helytelen modell-előrejelzések megkülönböztetésében az alapul szolgáló betanítási eloszlásból mintaként vett pont szomszédságában.
Attribútumalapú ok-okozati elemzés [20]: A szerzők az adversarial perturbációkkal szembeni rugalmasság és a gépi tanulási modellek által generált egyedi döntések attribútumalapú magyarázata közötti kapcsolatot tanulmányozzák. A beszámolójuk szerint a kártékony célú bemenetek nem hatékonyak az attribúciós térben, vagyis néhány, magas attribúciójú jellemző maszkolása a gépi tanulási modell változással kapcsolatos döntésképtelenségéhez vezet a kártékony célú mintákkal összefüggésben. Ezzel szemben a természetes bemenetek hatékonyak az attribúciós térben.

[20]

Ezek a megközelítések rugalmasabbá tehetik a gépi tanulási modelleket a kártékony célú támadásokkal szemben, mert a kétrétegű észlelési rendszer megtévesztéséhez nem csak az eredeti modellt kell támadni, hanem arról is gondoskodni kell, hogy a kártékony célú minta számára létrehozott attribúció hasonlítson az eredeti példákra. A sikeres kártékony célú támadáshoz mindkét rendszert egyszerre kell feltörni.

Hagyományos párhuzamok

Jogosultságok szintjének távoli emelése, mivel a támadó már ellenőrzéssel rendelkezik a modell felett

Severity

Critical

Variant #1b: Forrás/Cél helytelen besorolása

Ez a támadás úgy jellemezhető, mint a támadó kísérlete arra, hogy a modell a kívánt címkét adja vissza egy adott bemenethez kapcsolódóan. Ez általában arra kényszeríti a modellt, hogy téves pozitív vagy téves negatív eredményt adjon vissza. A végeredmény a modell besorolási pontossága feletti ellenőrzés észrevétlen átvétele, így a támadó tetszése szerint előidézhet adott megkerüléseket.

Bár ez a támadás jelentősen hátrányos hatással van a besorolás pontosságára, a végrehajtása több idővel járhat, mivel a támadónak nem csak a forrásadatokat kell manipulálnia úgy, hogy már ne legyenek helyesen megcímkézve, hanem kifejezetten a kívánt megtévesztő címkével kell ellátnia őket. Ezek a támadások gyakran több lépéssel/kísérlettel járnak a téves besorolás kikényszerítéséhez [3]. Ha a modell hajlamos továbbítani azokat a tanulási támadásokat, amelyek kikényszerítik a célzott téves besorolást, akkor lehet, hogy a támadó forgalmi lábnyoma nem lesz észlelhető, mivel a mintavételezési támadások offline is végrehajthatók.

Példák

A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek.

Mitigations

Reaktív/védelmi célú észlelési intézkedések

Implementáljon egy minimális időküszöbértéket a besorolási eredményeket biztosító API meghívásai között. Ez a sikeres megzavarás megtalálásához szükséges idő teljes mennyiségének növelésével lelassítja a többlépéses támadás tesztelését.

Proaktív/védelmi intézkedések

Funkció-denoising for Improving Adversarial Robustness [22]: A szerzők egy új hálózati architektúrát fejlesztenek ki, amely a funkciók denoizálásával növeli a támadók robusztusságát. A hálózatok olyan blokkokat tartalmaznak, amelyek nem helyi eszközökkel vagy más szűrőkkel végzik a jellemzők zajszűrését. A hálózatok teljes körűen be vannak tanítva. A támadások elleni betanítással ötvözve a jellemzők zajszűrését végző hálózatok jelentősen javítják a támadással szembeni hatékonyságot a célzott és tapogatózó jellegű támadások esetén egyaránt.
Adversarial Training and Regularization:Train with known adversarial samples to build rugalmasság és robusztusság a rosszindulatú bemenetek ellen. Ez a szabályozás egy formájának is tekinthető, amely a bemeneti gradiensek normáját bünteti, és gördülékenyebbé teszi az osztályozó előrejelzési funkcióját (a bemeneti ráhagyást növelve). Ez magában foglalja az alacsonyabb megbízhatósági aránnyal rendelkező helyes besorolásokat is.

A graph showing the change in the slope of the prediction function with adversarial training.

Szánjon időt és energiát a több válogatott monoton jellemzővel rendelkező monoton besorolás fejlesztésébe. Ezzel biztosíthatja, hogy a támadó ne tudja elkerülni az osztályozót a negatív osztályból származó jellemzők egyszerű elfedésével [13].

A DNN-modellek megerősítésére jellemzőtömörítés [18] használható, amellyel észlelhetők a kártékony célú példák. Ez csökkenti a támadó számára elérhető keresési teret az eredeti térben található számos különböző jellemzővektornak megfelelő minták egyetlen mintában történő egyesítésével. A DNN-modellnek az eredeti bemenetre vonatkozó előrejelzését a tömörített bemenetre vonatkozó előrejelzésével összehasonlítva a jellemzőtömörítés segíthet a kártékony példák észlelésében. Ha az eredeti és a tömörített példák jelentősen különböző kimeneteket adnak vissza a modellből, a bemenet valószínűleg kártékony. Az előrejelzések közötti eltérések mérésével és egy küszöbérték kiválasztásával a rendszer megfelelő előrejelzést adhat a szabályos példákra vonatkozóan, és elutasíthatja a kártékony bemeneteket.

[18]
Certified Defenses against Adversarial Examples [22]: A szerzők egy félig határozott relaxáción alapuló módszert javasolnak, amely egy tanúsítványt ad ki, amely egy adott hálózati és tesztelési bemenet esetén nem kényszerítheti a hibát egy bizonyos érték túllépésére. Másodszor, mivel ez a tanúsítvány differenciálható, a szerzők közösen optimalizálják a hálózati paraméterekkel, egy olyan adaptív szabályozót biztosítva, amely minden támadással szemben fokozza a hatékonyságot.

Válaszintézkedések

Riasztás kiadása az osztályozók között nagy eltérést mutató besorolási eredményekre, különösen, ha egyetlen felhasználótól vagy felhasználók kis csoportjától származnak.

Hagyományos párhuzamok

Jogosultságok szintjének távoli emelése

Severity

Critical

Variant #1c: Véletlenszerű helytelen besorolás

Ez egy különleges változat, amelyben a támadó célbesorolása a szabályos forrásbesoroláson kívül bármi lehet. A támadás általában zaj a besorolás alatt álló forrásadatokba való véletlenszerű bejuttatásával jár a helyes besorolás valószínűségének jövőbeni csökkentése érdekében [3].

Példák

Two photos of a cat. One photo is classified as a tabby cat. After adversarial perturbation, the other photo is classified as guacamole.

Mitigations

Ugyanaz, mint az 1a változat.

Hagyományos párhuzamok

Ideiglenes szolgáltatásmegtagadás

Severity

Fontos

Variant #1d: Megbízhatóság csökkentése

A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal [3].

Példák

Two photos of a stop sign. The photo on the left shows a confidence level of 96 percent. After adversarial perturbation, the photo on the right shows a confidence level of 13 percent.

Mitigations

A Variant #1a által érintett műveletek mellett az események szabályozása is alkalmazható az egyetlen forrásból származó riasztások mennyiségének csökkentésére.

Hagyományos párhuzamok

Ideiglenes szolgáltatásmegtagadás

Severity

Fontos

#2a célzott adatmérgezés

Leírás

A támadó célja a betanítási fázisban létrehozott gépi modell beszennyezése, hogy az új adatokra vonatkozó előrejelzések módosuljanak a tesztelési fázisban[1]. A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását.

Példák

Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken.

Mitigations

Eltérésérzékelők meghatározása az adateloszlás napi figyeléséhez, és riasztás küldése eltérések esetén

– A betanítási adatok eltérésének napi rendszerességű mérése, telemetria küldése eltolódás/eltérés esetén
Bemenet ellenőrzése: tisztítás és integritás-ellenőrzés
A szennyezés során külső betanítási mintákat juttatnak a rendszerbe. A fenyegetés elhárításához két fő stratégia áll rendelkezésre:

– Adatok tisztítása/ellenőrzése: szennyező minták eltávolítása a betanítási adatokból – Rendszerindítási összesítés (poggyász) a szennyezéses támadások elleni küzdelem érdekében [14]

– Negatív hatás elutasításán (Reject-on-Negative-Impact, RONI) alapuló védelem [15]

-Robusztus Tanulás: Olyan tanulási algoritmusokat válasszon, amelyek mérgezési minták jelenlétében robusztusak.

-Az egyik ilyen megközelítést a [21] ismerteti, ahol a szerzők két lépésben foglalkoznak az adatmérgezés problémájával: 1) bevezetnek egy új, robusztus mátrix-faktorizációs módszert a valódi altér helyreállításához, és 2) egy új, robusztus elvi összetevő regresszióját az adversarial-példányok eltávolításához az (1) lépésben helyreállított alap alapján. Szükséges és elégséges feltételeket mutatnak be a valódi altér sikeres helyreállításához, valamint a várt előrejelzés-veszteség korlátozásához az alapvetéshez viszonyítva.

Hagyományos párhuzamok

Trójai programmal fertőzött gazdagép, amelynek révén a támadó jelen lehet a hálózaton. A betanítási vagy konfigurációs adatok biztonsága sérült, és a rendszer betölti/megbízhatónak tartja őket a modell létrehozásához.

Severity

Critical

#2b Válogatás nélküli adatmérgezés

Leírás

A cél a megtámadott adathalmaz minőségének/integritásának rontása. Számos adathalmaz nyilvános, nem megbízható vagy moderálatlan, ez pedig további problémákat jelent az adatintegritás megsértésének felismerésére való képesség terén. A nem ismerten sérült biztonságú adatok felhasználása a betanítás során egy ún. „garbage-in/garbage-out” helyzetet eredményez. Ez a kifejezés arra utal, hogy rossz adatokból csak rossz eredményeket lehet kapni. Az észlelést követően az osztályozásnak meg kell határoznia az adatbiztonság sérülésének mértékét, és karanténba kell helyeznie a sérült adatokat/meg kell ismételnie a betanítást.

Példák

Egy vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős olajügyleti adatokat. Az adatszolgáltató webhelyét ezt követően SQL-injektálási támadással feltörik. A támadó szándékosan beszennyezheti az adathalmazt, és a modell a betanítás során nem érzékeli, hogy az adatok fertőzöttek.

Mitigations

Ugyanaz, mint a 2a változat.

Hagyományos párhuzamok

Hitelesített szolgáltatásmegtagadás valamilyen nagy értékű adategység ellen

Severity

Fontos

#3 Modell inverziós támadásai

Leírás

A gépi tanulási modellekben használt privát funkciók helyreállíthatók [1]. Ezek közé tartozik azon privát betanítási adatok újraépítése, amelyekhez a támadó nem fér hozzá. A biometrikus közösségben más néven hegymászó támadásként is ismert [16, 17]. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet [4].

Példák

Two images of a person. One image is blurry and the other image is clear. [4]

Mitigations

A bizalmas adatokkal betanított modellek interfészeihez szigorú hozzáférés-vezérlés szükséges.
A modell által engedélyezett lekérdezések sebességének korlátozása
Kapuk kialakítása a felhasználók/hívók és a tényleges modell között az összes lekérdezés bemeneti adatainak ellenőrzésével, továbbá a modell helyes bemenetekre vonatkozó definíciójának nem megfelelő adatok elutasítása, hogy csak a hasznossághoz szükséges minimális mennyiségű információt adja vissza.

Hagyományos párhuzamok

Az információk célzott és védett felfedése

Severity

Ez a standard SDL-hibalista alapértelmezett beállítása szerint a fontos kategóriába kerül, de a bizalmas vagy személyazonosításra alkalmas adatok kinyerése esetében kritikus fontosságúra változna.

#4 Tagsági következtetési támadás

Leírás

A támadó el tudja dönteni, hogy egy adott adatrekord része volt-e a modell betanítási adatkészletének, vagy sem[1]. A kutatók az attribútumok (pl. életkor, nem, kórház) alapján előre tudták jelezni a páciens fő eljárását (pl. a beteg műtétjét).

An illustration showing the complexity of a membership inference attack. Arrows show the flow and relationship between training data prediction data. [12]

Mitigations

A támadás életképességét szemléltető kutatási dokumentumok szerint a differenciált adatvédelem [4, 9] hatékony lehet. Ez a kutatási terület a Microsoftnál még gyermekcipőben jár, ezért az AETHER Security Engineering a szakértelem kutatási befektetésekkel történő növelését szorgalmazza e téren. Ennek a kutatásnak számba kell vennie a differenciált adatvédelmi képességeket, és fel kell mérnie azok kockázatcsökkentés szempontjából vett gyakorlati hasznosságát, majd különféle módokat kell kidolgozniuk a védelmi rendszerek átlátható öröklődéséhez az online szolgáltatási platformokon, hasonlóan ahhoz, ahogyan a Visual Studióban a kód fordítása alapértelmezés szerint engedélyezett biztonsági megoldásokat biztosít, amelyek mind a fejlesztő, mind pedig a felhasználók számára átláthatók.

A neuronkihagyás és a modellhalmozás használata bizonyos mértékig hatékony kockázatcsökkentő megoldás lehet. A neuronkihagyás használata nem csupán egy neurális háló ellenállását növeli az ilyen támadásokkal szemben, de a modell teljesítményét is fokozza [4].

Hagyományos párhuzamok

Adatvédelem. Következtetéseket lehet levonni az adatpontoknak a betanítási készletben való használatáról, maguk a betanítási adatok azonban nem lesznek kiadva

Severity

Ez adatvédelmi problémának minősül, nem biztonságinak. Azért szerepel a fenyegetésmodellezési útmutatóban, mert ez a két terület átfedésben van egymással, de a válaszokat a biztonság helyett itt az adatvédelem szempontok motiválják.

#5 Modelllopás

Leírás

A támadók a modell szabályos lekérdezésével újra létrehozzák az alapul szolgáló modellt. Az új és az alapul szolgáló modell működése azonos[1]. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan.

Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához.
Elérési út megállapítása – Az API-k sajátosságait kihasználó támadással kinyerhetők a bemenet osztályozása során, a fa alapján meghozott „döntések”[7].
Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe[8]. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen.

Példák

Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat[7].

Mitigations

Proaktív/védelmi intézkedések

Minimalizálja vagy rejtse el az előrejelzési API-k által visszaadott adatokat, a „megbízható” alkalmazásokkal kapcsolatos hasznosságuk fenntartása mellett[7].
Adjon meg egy megfelelő formátumú lekérdezést a modell bemeneteihez, és csak teljes, megfelelő és egyező formátumú bemenetek esetén adjon vissza eredményeket válaszként.
Kerekített megbízhatósági értékek visszaadása. A legtöbb jogszerű hívó nem igényel több tizedesjegyes pontosságot.

Hagyományos párhuzamok

A rendszeradatok nem hitelesített, csak olvasható jellegű illetéktelen módosítása, nagy értékű információk célzott kiadása?

Severity

A biztonsági szempontból érzékeny modellek esetében fontos, egyéb esetben mérsékelt fontosságú

#6 Neurális net-újraprogramozás

Leírás

Egy támadótól származó, speciálisan kialakított lekérdezés révén a gépi tanulási rendszerek úgy programozhatóak át, hogy az általuk végrehajtott feladat eltérjen a létrehozó eredeti szándékától [1].

Példák

Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a Microsoft-ügyfelek megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban.

Mitigations

Erős ügyfél-kiszolgáló<> kölcsönös hitelesítés és hozzáférés-vezérlés a modell interfészeihez
A támadó fiókok eltávolítása.
Az API-kra vonatkozó szolgáltatásiszint-szerződések azonosítása és kikényszerítése. Annak megállapítása, hogy egy adott probléma esetében mi a megoldáshoz szükséges elfogadható idő, valamint annak biztosítása, hogy a probléma nem fordul elő újra az SLA lejárta után.

Hagyományos párhuzamok

Ez egy visszaélési forgatókönyv. Az ilyen esetekben sokkal valószínűbb, hogy egy biztonsági incidens létrehozása helyett egyszerűen letiltja a támadó fiókját.

Severity

Fontos – Kritikus

#7 Adversarial Example in the Physical domain (bits-atoms>)

Leírás

A támadó példa egy rosszindulatú entitás bemenete/lekérdezése, amelynek célja kizárólag a gépi tanulási rendszer félrevezetése [1]

Példák

Ezek a példák a fizikai tartományban is megjelenhetnek. Például megtéveszthetnek egy önvezető autót, amely így nem áll meg a stoptáblánál, mert egy adott színű fénnyel (ez a kártékony célú bemenet) világítanak a táblára, és ez arra kényszeríti a képfelismerő rendszert, hogy a stoptáblát már ne stoptáblának érzékelje.

Hagyományos párhuzamok

Jogosultságok szintjének emelése, távoli kódvégrehajtás

Mitigations

Ezek a támadások azért bontakoznak ki, mert a gépi tanulási réteg (a mesterséges intelligencián alapuló döntéshozatal alatti adat- és az algoritmusréteg) hibáit nem orvosolták. Mint minden más szoftver *vagy* fizikai rendszer, a réteg alatt a cél mindig megtámadható a hagyományos vektorok. Emiatt a hagyományos biztonsági eljárások betartása fontosabb, mint valaha, különösen az MI és a hagyományos szoftverek között használt kezeletlen biztonsági rések rétege (az adat-/algoritmusréteg) miatt.

Severity

Critical

#8 Rosszindulatú ml-szolgáltatók, akik helyreállíthatják a betanítási adatokat

Leírás

Egy rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat. Képesek voltak az arcok és a szövegek rekonstrukciójára kizárólag a modell alapján.

Hagyományos párhuzamok

Az információk célzott felfedése

Mitigations

A támadás életképességét szemléltető kutatási dokumentumok szerint a homomorfikus titkosítás hatékony lehet. Ez a kutatási terület a Microsoftnál jelenleg kevés figyelmet élvez, ezért az AETHER Security Engineering a szakértelem kutatási befektetésekkel történő növelését szorgalmazza e téren. Ennek a kutatásnak számba kell vennie a homomorfikus titkosítás alapelveit, és értékelnie kell azok gyakorlati hasznát a kockázatcsökkentés szempontjából a rosszindulatú gépitanulás-szolgáltatók ellenében.

Severity

PII-adatok esetén fontos, egyéb esetben mérsékelt fontosságú

#9 Az ML ellátási lánc megtámadása

Leírás

Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: A ResNet a Microsoft népszerű képfelismerő modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet. [1]

Hagyományos párhuzamok

Külső fél nem biztonsági jellegű függőségének sérülése
Az App Store-ban akaratlanul üzemeltetett kártevők

Mitigations

Modellek és adatok külső felekkel kapcsolatos függőségeinek minimalizálása, ahol lehetséges.
Ezeket a függőségeket beépítheti a fenyegetésmodellezési folyamatba.
Erős hitelesítés, hozzáférés-vezérlés és titkosítás használata a belső és külső felek által biztosított rendszerek között.

Severity

Critical

#10 Backdoor Machine Tanulás

Leírás

A betanítási folyamat egy rosszindulatú harmadik félhez van kiszervezve, aki a betanítási adatok illetéktelen módosításával egy olyan, trójait tartalmazó modellt szállított le, amely célzottan kikényszeríti a téves besorolásokat, például nem rosszindulatúként sorol be egy adott vírust[1]. Ez kockázatot jelent a gépitanulás-szolgáltatókkal kapcsolatos modell-létrehozási forgatókönyvekben.

An example showing how mis-classifications can adversely affect training data. One photo is a correctly classified stop sign. After poisoning, the second photo is labeled as a speed limit sign. [12]

Hagyományos párhuzamok

Külső fél biztonsági jellegű függőségének sérülése
Sérült szoftverfrissítési mechanizmus
Hitelesítésszolgáltató sérülése

Mitigations

Reaktív/védelmi célú észlelési intézkedések

Mire ezt a fenyegetést sikerült észlelni, már megtörtént a baj, ezért a rosszindulatú szolgáltató által biztosított modell és betanítási adatok nem megbízhatóak.

Proaktív/védelmi intézkedések

Az összes bizalmas modell házon belüli betanítása
A betanítási adatok katalogizálása, valamint annak ellenőrzése, hogy azok megbízható, erős biztonsági gyakorlatokat alkalmazó harmadik féltől származnak.
Az MLaaS-szolgáltató és a saját rendszerek közötti interakciók modellezése a veszélyforrások szempontjából.

Válaszintézkedések

Ugyanaz, mint a külső függőségek sérülése esetében

Severity

Critical

#11 Az ML-rendszer szoftverfüggőségeinek kihasználása

Leírás

Ebben a támadásban a támadó NEM manipulálja az algoritmusokat. Ehelyett a szoftveres biztonsági réseket, például a puffertúlcsordulásokat, illetve a webhelyek közötti szkriptelést[1] használja ki. Még mindig könnyebb a mesterséges intelligencia/gépi tanulás rétege alatti szoftverrétegeket megkárosítani, mint közvetlenül megtámadni a tanulási réteget. Ezért elengedhetetlen fontosságúak a biztonságfejlesztési életciklusban leírt, a hagyományos biztonsági fenyegetések elhárítására irányuló gyakorlatok.

Hagyományos párhuzamok

Sérült, nyílt forráskódú szoftveres függőség
Webkiszolgáló biztonsági rése (XSS-, CSRF-, API-bemenetek érvényesítési hibája)

Mitigations

Működjön együtt biztonsági csapatával, és kövesse a megfelelő biztonsági fejlesztési életciklussal/működési biztonsági garanciával kapcsolatos ajánlott eljárásokat.

Severity

Változó; Akár kritikus is lehet a hagyományos szoftveres biztonsági rések típusától függően.

Irodalomjegyzék

[1] Hibamódok a Machine Tanulás, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover,https://learn.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] Adversarial Examples in Deep Tanulás: Characterization and Divergence, Wei, et al,https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Tanulás Models, Salem, et al,https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha, and T. Ristenpart, “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” konferenciakiadvány: 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).

[6] Nicolas Papernot & Patrick McDaniel- Adversarial Examples in Machine Learning AIWTB 2017

[7] Stealing Machine Learning Models via Prediction APIs, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] The Space of Transferable Adversarial Examples, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh és Patrick McDaniel

[9] Understanding Membership Inferences on Well-Generalized Learning Models Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 és Kai Chen3,4

[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;

[11] Lyu et al., A unified gradient regularization family for adversarial examples, ICDM 2015

[12] Vad minták: Tíz évvel az Adversarial Machine felemelkedése után Tanulás - NeCS 2019 Battista Biggioa, Fabio Roli

[13] Adversarially Robust Malware Detection UsingMonotonic Classification Inigo Incer et al.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto és Fabio Roli. Bagging Classifiers for Fighting Poisoning Attacks in Adversarial Classification Tasks

[15] Továbbfejlesztett elutasítás a Negatív HatásVédelem Hongjiang Li és Patrick P.K. Chan

[16] Adler. Vulnerabilities in biometric encryption systems. 5th Int’l Conf. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. On the vulnerability of face verification systems to hill-climbing attacks. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Funkcióbeszorítás: Támadó példák észlelése a mély neurális hálózatokban. 2018 Network and Distributed System Security Symposium. Február 18–21.

[19] Reinforcing Adversarial Robustness using Model Confidence Induced by Adversarial Training – Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Attribution-driven Causal Analysis for Detection of Adversarial Examples, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Robust Linear Regression Against Training Data Poisoning – Chang Liu et al.

[22] Feature Denoising for Improving Adversarial Robustness, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Certified Defenses against Adversarial Examples – Aditi Raghunathan, Jacob Steinhardt, Percy Liang

Megosztás a következőn keresztül:

Mesterségesintelligencia-/gépi tanulási rendszerek és függőségek fenyegetésmodellezése

A fenyegetésmodellezés legfontosabb új szempontjai: A megbízhatósági határok megtekintésének módosítása

Összesítés

Megválaszolandó kérdések a biztonsági felülvizsgálat során

Kapcsolódó fenyegetések és elhárítási módjuk a jelen dokumentumban

Példatámadások

A modell(ek) vagy termék/szolgáltatás által elvégezhető azon műveletek azonosítása, amelyek az ügyfélnek kárt okozhatnak az online vagy a fizikai tartományban

Összesítés

Megválaszolandó kérdések a biztonsági felülvizsgálat során

Kapcsolódó fenyegetések és elhárítási módjuk a jelen dokumentumban

Példatámadások

A mesterséges intelligencia/gépi tanulás függőségforrásainak, valamint az adatok/modell ellátási láncában található előtér-megjelenítési rétegek beazonosítása

Összesítés

Megválaszolandó kérdések a biztonsági felülvizsgálat során

Kapcsolódó fenyegetések és elhárítási módjuk a jelen dokumentumban

Példatámadások

A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja

#1: Adversarial Perturbation

Leírás

Variant #1a: Célzott helytelen besorolás

Példák

Mitigations

Hagyományos párhuzamok

Severity

Variant #1b: Forrás/Cél helytelen besorolása

Példák

Mitigations

Hagyományos párhuzamok

Severity

Variant #1c: Véletlenszerű helytelen besorolás

Példák

Mitigations

Hagyományos párhuzamok

Severity

Variant #1d: Megbízhatóság csökkentése

Példák

Mitigations

Hagyományos párhuzamok

Severity

#2a célzott adatmérgezés

Példák

Mitigations

Hagyományos párhuzamok

Severity

#2b Válogatás nélküli adatmérgezés

Leírás

Példák

Mitigations

Hagyományos párhuzamok

Severity

#3 Modell inverziós támadásai

Leírás

Példák

Mitigations

Hagyományos párhuzamok

Severity

#4 Tagsági következtetési támadás

Leírás

Mitigations

Hagyományos párhuzamok

Severity

#5 Modelllopás

Leírás

Példák

Mitigations

Hagyományos párhuzamok

Severity

#6 Neurális net-újraprogramozás

Példák

Mitigations

Hagyományos párhuzamok

Severity

#7 Adversarial Example in the Physical domain (bits-atoms>)

Példák

Hagyományos párhuzamok

Mitigations

Severity

#8 Rosszindulatú ml-szolgáltatók, akik helyreállíthatják a betanítási adatokat

Leírás