Mesterségesintelligencia-/gépi tanulási rendszerek és függőségek fenyegetésmodellezése
Szerzők: Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar
Külön köszönet Raul Rojasnak és az AETHER Security Engineering Workstreamnek.
2019. november
Ez a dokumentum az AETHER Engineering Practices for AI (AETHER MI-tervezési eljárások) munkacsoportjának terméke, és kiegészíti a meglévő SDL-fenyegetésmodellezési eljárásokat azáltal, hogy új útmutatást nyújt a veszélyek számbavételére és elhárítására az MI és gépi tanulási területre vonatkozóan. Ez a dokumentum azért készült, hogy referenciaként szolgáljon az alábbi biztonsági terváttekintések során:
Mesterséges intelligencián/gépi tanuláson alapuló szolgáltatásokat használó vagy azoktól függő termékek/szolgáltatások
Mesterséges intelligencián/gépi tanuláson alapuló termékek/szolgáltatások
A hagyományos biztonsági fenyegetések elhárítása fontosabb, mint valaha. A Biztonságfejlesztési életciklusban meghatározott követelmények elengedhetetlenek egy olyan termék biztonsági alapjainak megalapozásához, amelyre ez az útmutató épít. A hagyományos biztonsági fenyegetések elhárításának elmulasztása lehetővé teszi a jelen dokumentumban tárgyalt mesterséges intelligenciával/gépi tanulással kapcsolatos támadásokat a szoftveres és a fizikai tartományokban egyaránt, valamint a szoftverkészlet alsóbb rétegei biztonságának veszélyeztetését. A terület új biztonsági fenyegetéseinek bemutatásához lásd a mesterséges intelligencia és a gépi tanulás jövőjének biztonságossá tételét a Microsoftnál.
A biztonsági mérnökök és az adatszakértők készségei általában nincsenek átfedésben egymással. Ez az útmutató lehetővé teszi, hogy a két szakterület megbeszéléseket folytathasson az új fenyegetésekről és azok elhárításáról anélkül, hogy a biztonsági mérnököknek adatszakértőkké kellene válniuk, vagy fordítva.
A dokumentum két szakaszra osztható:
- „A fenyegetésmodellezés legfontosabb új szempontjai” szakasz a mesterséges intelligencia/gépi tanulás fenyegetésmodellezésének új szemléleteit és kérdéseit tárgyalja. Az adatszakértőknek és a biztonsági mérnököknek egyaránt érdemes áttekinteniük, mivel ezt használják majd útmutatóként a fenyegetésmodellezéssel kapcsolatos megbeszélésekhez és az elhárítási lépések priorizálásához.
- „A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja” című szakasz részletesen ismerteti az egyes támadásokat, valamint a jelenleg a Microsoft-termékeket és -szolgáltatásokat érintő fenyegetések elleni védelemhez használatos elhárítási lépéseket. Ez a szakasz elsősorban azoknak az adatszakértőknek szól, akiknek a fenyegetések modellezése/biztonsági felülvizsgálati folyamata során bizonyos veszélyforrások elhárítását kell megvalósítaniuk.
Ez az útmutató a Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover által létrehozott Adversarial Machine Tanulás Threat Taxonomy köré szerveződik,"Failure Modes in Machine Tanulás" címmel. A jelen dokumentumban részletezett biztonsági fenyegetések osztályozásával kapcsolatos incidenskezelési útmutatásért tekintse meg az AI/ML-fenyegetések SDL-hibasávját. Ezek mind élő dokumentumok, amelyek idővel fejlődni fognak a fenyegetési környezettel.
A fenyegetésmodellezés legfontosabb új szempontjai: A megbízhatósági határok megtekintésének módosítása
Tegyük fel, hogy veszélyeztetik/beszennyezik az adatokat, amelyekből Ön, valamint az adatszolgáltató a betanítást végzi. Ismerje meg, hogyan észlelheti a rendellenes és rosszindulatú adatbejegyzéseket, valamint hogyan tudja megkülönböztetni azokat egymástól, és elvégezni helyreállítást.
Összesítés
A betanítási adattárak és az azokat üzemeltető rendszerek a fenyegetésmodellezési hatókör részét képezik. A gépi tanulásban rejlő legnagyobb biztonsági fenyegetés napjainkban az adatszennyezés, mert a nem megbízható/ellenőrizetlen nyilvános adathalmazok tanulási adatként való használata mellett ezen a területen nincsenek szabványos eljárások ennek észlelésére és elhárítására. Az adatok eredetének ismerete és nyomon követése elengedhetetlen a megbízhatóságuk garantálásához és a „válogatatlan bemenet válogatatlan kimenetet eredményez” betanítási ciklus elkerüléséhez.
Megválaszolandó kérdések a biztonsági felülvizsgálat során
Hogyan ismerné fel, hogy adatait beszennyezték vagy illetéktelenül módosították?
– Milyen telemetriával rendelkezik a betanítási adatai minőségi hibáinak észlelésére?
Felhasználói bemenetekről végzi a betanítást?
– Milyen típusú ellenőrzést/tisztítást végez a bemeneti tartalmon?
– A dokumentált adatok hasonlítanak az adathalmazok adatlapjaira?
Ha online adattárakkal végez betanítást, milyen lépéseket tesz a modell és az adatok közötti kapcsolat biztonsága érdekében?
– Van mód arra, hogy jelentsék a végfelhasználók forrásait ért illetéktelen hozzáférést?
– Egyáltalán képesek erre?
Mennyire bizalmas adatokkal végzi a betanítást?
– Katalogizálja vagy szabályozza az adatbejegyzések hozzáadását/frissítését/törlését?
Tartalmazhat a modell kimenete bizalmas adatokat?
– Az adatokat a forrás engedélyével szerezte be?
A modell csak a cél eléréséhez szükséges kimenetet eredményezi?
A modell visszaad nyers megbízhatósági pontszámokat vagy bármilyen más közvetlen kimenetet, amely rögzíthető és duplikálható?
Milyen hatása van, ha a betanítási adatait a modell támadásával/megfordításával kinyerik?
Ha a modell kimenetének megbízhatósági szintjei hirtelen csökkennének, meg tudná állapítani, hogy ez hogyan/miért történt, és hogy mely adatok okozták?
Jól formázott bemenetet határozott meg a modellhez? Mit tesz annak érdekében, hogy a bemenetek megfeleljenek ennek a formátumnak, és mit tesz, ha nem felelnek meg?
Honnan értesül arról, ha a kimenetek helytelenek, de nem okoznak jelentésekben szereplő hibákat?
Tudja-e, hogy a betanítási algoritmusok matematikai szinten ellenállnak-e a kártékony bemeneteknek?
Hogyan állítja helyre a betanítási adatok kártékony beszennyezését?
– El tudja különíteni/karanténba tudja helyezni a kártékony tartalmat, és újra tudja tanítani az érintett modelleket?
– Vissza tud állítani egy korábbi modellverziót az ismételt betanításhoz?
Ellenőrizetlen nyilvános tartalmon használ megerősítő tanulást?
Az adatok követésekor, ha problémát talál, nyomon tudja követni egészen az adathalmazba való bevezetéséig? Ha nem, akkor problémát jelent mindez?
Az anomáliák felismeréséhez ismernie kell a betanítási adatok eredetét, és azonosítania kell a statisztikai normákat
– A betanítási adatok mely elemei vannak kitéve a külső befolyásolásnak?
– Ki járulhat hozzá a betanításhoz használt adathalmazokhoz?
– Ön hogyan támadná meg a saját betanítási adatforrásait, ha károkat szeretne okozni a versenytársaknak?
Kapcsolódó fenyegetések és elhárítási módjuk a jelen dokumentumban
Megzavarás kártékony céllal (az összes változat)
Adatszennyezés (az összes változat)
Példatámadások
A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné
A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben
A támadó véletlenszerű zajt injektál a besorolás alatt álló forrásadatokba a helyes besorolás valószínűségének jövőbeni csökkentése érdekében lebutítva a modellt
A betanítási adatpontok szennyezése, ami a kiválasztott adatpontok hibás besorolását okozza, és bizonyos műveletek elvégzését/kihagyását eredményezi
A modell(ek) vagy termék/szolgáltatás által elvégezhető azon műveletek azonosítása, amelyek az ügyfélnek kárt okozhatnak az online vagy a fizikai tartományban
Összesítés
A mesterséges intelligencián/gépi tanuláson alapuló rendszerek elleni elhárítatlan támadások hatással lehetnek a fizikai világra is. Minden olyan esemény, amely pszichológiailag vagy fizikailag ártalmas lehet a felhasználókra, végzetes kockázatot jelent a termékére vagy szolgáltatására nézve. Ez kiterjed minden olyan, az ügyfelekkel kapcsolatos bizalmas adatra, amelyet betanításra használnak és a bizalmas adatok esetleges kiszivárgását okozó tervezési döntésekre.
Megválaszolandó kérdések a biztonsági felülvizsgálat során
Kártékony célú példákkal végzi a betanítást? Milyen hatással vannak a modell kimenetére a fizikai tartományban?
Milyen hatással van a trollkodás a termékre/szolgáltatásra nézve? Hogyan tudja észlelni és elhárítani?
Mi kell ahhoz, hogy a modell olyan eredményt adjon vissza, amely félrevezeti a rendszert, és elutasítja a jogosult felhasználók hozzáférését?
Mit eredményez a modell lemásolása/ellopása?
Felhasználható a modell arra, hogy egy adott csoporthoz tartozó vagy a betanítási adatokban szereplő személy tagságára lehessen következtetni?
Okozhatják a támadók a termék hírnevének vagy a megbízhatóságának károsodását, ha arra kényszerítik, hogy bizonyos műveleteket hajtson végre?
Hogyan kezeli a megfelelő formátumú, de elfogult, például trolloktól származó adatokat?
A modell ki van téve a használatkor és az abból való lekérdezés során. Felfedheti ez a betanítási adatokat vagy a modell működését?
Kapcsolódó fenyegetések és elhárítási módjuk a jelen dokumentumban
Tagsági következtetés
Modellinverzió
Modell-lopás
Példatámadások
A betanítási adatok rekonstrukciója és kinyerése a modell ismételt lekérdezésével a maximális megbízhatóságú eredmények érdekében
A modell duplikálása teljes körű lekérdezés–válasz párosítással
A modell lekérdezése oly módon, hogy felfedje a betanítási adathalmazban lévő személyes adatok egy részét
Önvezető autó félrevezetése, hogy figyelmen kívül hagyja a stoptáblákat/közlekedési lámpákat
Beszélgetőrobotok manipulálása, hogy azok jóindulatú felhasználókkal trollkodjanak
A mesterséges intelligencia/gépi tanulás függőségforrásainak, valamint az adatok/modell ellátási láncában található előtér-megjelenítési rétegek beazonosítása
Összesítés
A mesterséges intelligenciát és a gépi tanulást érő számos támadás az olyan API-khoz való jogosult hozzáféréssel kezdődik, amelyek a modell lekérdezési hozzáférésének biztosítása érdekében érhetők el. Az itt szereplő gazdag adatforrások és gazdag felhasználói élmény miatt a harmadik felek hitelesített, de „nem megfelelő” (szürke zónás) hozzáférése a modellekhez kockázatos, mert a Microsoft által biztosított szolgáltatáson felüli megjelenítési rétegként is funkcionálhat.
Megválaszolandó kérdések a biztonsági felülvizsgálat során
Mely ügyfelek/partnerek rendelkeznek hitelesítéssel a modell vagy szolgáltatás API-jainak eléréséhez?
– Működhetnek a szolgáltatáson felüli megjelenítési rétegként?
– Azonnal vissza tudja vonni a hozzáférésüket a biztonság veszélyeztetése esetén?
– Mi a helyreállítási stratégia a szolgáltatás vagy a függőségek rosszindulatú használata esetén?
Építhet harmadik fél előtérrendszert a modell köré olyan módon, hogy más célokra használja, és kárt okozzon a Microsoftnak vagy ügyfeleinek?
Az ügyfelek közvetlenül Önnek adják át a betanítási adatokat?
– Hogyan gondoskodik az adatok biztonságáról?
– Mi történik, ha az kártékony, és a szolgáltatását célozza?
Hogy néz ki egy vakriasztás? Mit eredményez egy vakriasztás?
Nyomon tudja követni és mérhetővé tudja tenni a valódi és vakriasztások aránya közötti eltéréseket több modell között?
Milyen típusú telemetriára van szükség, hogy a modell a felhasználóknak szánt kimenetének megbízhatóságát igazolja?
Azonosítsa a külső felekhez kapcsolódó függőségeket a gépi tanulási/betanítási adatok ellátási láncában – ne csak a nyílt forráskódú szoftvereket, hanem az adatszolgáltatókat is.
– Miért használja őket, és hogyan ellenőrzi a megbízhatóságukat?
Külső féltől származó, előre elkészített modelleket használ, vagy elküldi a betanítási adatokat külső MLaaS-szolgáltatónak?
Gyűjtse össze a hasonló termékekre/szolgáltatásokra irányuló támadásokról szóló híreket. Annak ismeretében, hogy a mesterséges intelligenciát/gépi tanulást fenyegető számos veszély több modelltípust is érinthet, milyen hatással lennének ezek a támadások a saját termékeire?
Kapcsolódó fenyegetések és elhárítási módjuk a jelen dokumentumban
Neurális háló újraprogramozása
Kártékony célú példák a fizikai tartományban
Rosszindulatú gépitanulás-szolgáltatók betanítási adatokat szereznek meg
A gépi tanulás ellátási láncának megtámadása
A kiskapus modell
Sérült biztonságú, gépitanulás-specifikus függőségek
Példatámadások
Egy rosszindulatú MLaaS-szolgáltató egy adott megkerülést alkalmazó trójai programmal fertőzi meg a modellt
Egy ellenséges ügyfél biztonsági rést talál az Ön által használt általános OSS-függőségben, és mesterségesen összeállított betanítási adatokat tölt fel a szolgáltatás hatékonyságának rontása céljából
Egy gátlástalan partner arcfelismerési API-kat használ, és egy megjelenítési réteget hoz létre a szolgáltatás felett élethű hamisítványok (deep fake-ek) létrehozásához.
A mesterséges intelligenciát/gépi tanulást érintő fenyegetések és az elhárításuk módja
#1: Adversarial Perturbation
Leírás
A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja az éles környezetben üzembe helyezett modelltől[1]. Ez a modellbemenet integritásának megsértése, ami fuzz tesztelés jellegű támadásokhoz vezet, amelyek következtében a végeredmény nem feltétlenül egy hozzáférés-megsértés vagy EOP, hanem inkább a modell besorolási teljesítményének befolyásolása. Mindez abban is megnyilvánulhat, hogy a trollok úgy használnak bizonyos célszavakat, hogy a mesterséges intelligencia letiltsa azokat, amivel lényegében megtagadják a szolgáltatást a „letiltott” szóval egyező nevű, jogszerű felhasználók tekintetében.
[24]
Variant #1a: Célzott helytelen besorolás
Ebben az esetben a támadók olyan mintát hoznak létre, amely nem található meg a célosztályozó bemeneti osztályában, de a modell az adott bemeneti osztályként sorolja be. A kártékony célú minta véletlenszerű zajként jelenhet meg az emberi szem számára, a támadók azonban ismeretekkel rendelkeznek a célszámítógép tanulási rendszeréről, így olyan fehér zajt hozhatnak létre, amely nem véletlenszerű, hanem a megcélzott modell bizonyos aspektusait használja ki. A támadó olyan bemeneti mintát biztosít, amely nem szabályos minta, de a célrendszer szabályos osztályként sorolja be.
Példák
[6]
Mitigations
Az Adversarial Robustness megerősítése az Adversarial Training által kiváltott modell megbízhatóságával [19]: A szerzők a megbízhatósági információkat és a legközelebbi szomszédkeresést kombináló keretrendszert javasolják a megbízhatósági információk és a legközelebbi szomszédkeresés kombinálására, hogy megerősítsék az alapmodellek megbízhatóságát. A keretrendszer segítséget nyújt a helyes és helytelen modell-előrejelzések megkülönböztetésében az alapul szolgáló betanítási eloszlásból mintaként vett pont szomszédságában.
Attribútumalapú ok-okozati elemzés [20]: A szerzők az adversarial perturbációkkal szembeni rugalmasság és a gépi tanulási modellek által generált egyedi döntések attribútumalapú magyarázata közötti kapcsolatot tanulmányozzák. A beszámolójuk szerint a kártékony célú bemenetek nem hatékonyak az attribúciós térben, vagyis néhány, magas attribúciójú jellemző maszkolása a gépi tanulási modell változással kapcsolatos döntésképtelenségéhez vezet a kártékony célú mintákkal összefüggésben. Ezzel szemben a természetes bemenetek hatékonyak az attribúciós térben.
[20]
Ezek a megközelítések rugalmasabbá tehetik a gépi tanulási modelleket a kártékony célú támadásokkal szemben, mert a kétrétegű észlelési rendszer megtévesztéséhez nem csak az eredeti modellt kell támadni, hanem arról is gondoskodni kell, hogy a kártékony célú minta számára létrehozott attribúció hasonlítson az eredeti példákra. A sikeres kártékony célú támadáshoz mindkét rendszert egyszerre kell feltörni.
Hagyományos párhuzamok
Jogosultságok szintjének távoli emelése, mivel a támadó már ellenőrzéssel rendelkezik a modell felett
Severity
Critical
Variant #1b: Forrás/Cél helytelen besorolása
Ez a támadás úgy jellemezhető, mint a támadó kísérlete arra, hogy a modell a kívánt címkét adja vissza egy adott bemenethez kapcsolódóan. Ez általában arra kényszeríti a modellt, hogy téves pozitív vagy téves negatív eredményt adjon vissza. A végeredmény a modell besorolási pontossága feletti ellenőrzés észrevétlen átvétele, így a támadó tetszése szerint előidézhet adott megkerüléseket.
Bár ez a támadás jelentősen hátrányos hatással van a besorolás pontosságára, a végrehajtása több idővel járhat, mivel a támadónak nem csak a forrásadatokat kell manipulálnia úgy, hogy már ne legyenek helyesen megcímkézve, hanem kifejezetten a kívánt megtévesztő címkével kell ellátnia őket. Ezek a támadások gyakran több lépéssel/kísérlettel járnak a téves besorolás kikényszerítéséhez [3]. Ha a modell hajlamos továbbítani azokat a tanulási támadásokat, amelyek kikényszerítik a célzott téves besorolást, akkor lehet, hogy a támadó forgalmi lábnyoma nem lesz észlelhető, mivel a mintavételezési támadások offline is végrehajthatók.
Példák
A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek.
Mitigations
Reaktív/védelmi célú észlelési intézkedések
- Implementáljon egy minimális időküszöbértéket a besorolási eredményeket biztosító API meghívásai között. Ez a sikeres megzavarás megtalálásához szükséges idő teljes mennyiségének növelésével lelassítja a többlépéses támadás tesztelését.
Proaktív/védelmi intézkedések
Funkció-denoising for Improving Adversarial Robustness [22]: A szerzők egy új hálózati architektúrát fejlesztenek ki, amely a funkciók denoizálásával növeli a támadók robusztusságát. A hálózatok olyan blokkokat tartalmaznak, amelyek nem helyi eszközökkel vagy más szűrőkkel végzik a jellemzők zajszűrését. A hálózatok teljes körűen be vannak tanítva. A támadások elleni betanítással ötvözve a jellemzők zajszűrését végző hálózatok jelentősen javítják a támadással szembeni hatékonyságot a célzott és tapogatózó jellegű támadások esetén egyaránt.
Adversarial Training and Regularization:Train with known adversarial samples to build rugalmasság és robusztusság a rosszindulatú bemenetek ellen. Ez a szabályozás egy formájának is tekinthető, amely a bemeneti gradiensek normáját bünteti, és gördülékenyebbé teszi az osztályozó előrejelzési funkcióját (a bemeneti ráhagyást növelve). Ez magában foglalja az alacsonyabb megbízhatósági aránnyal rendelkező helyes besorolásokat is.
Szánjon időt és energiát a több válogatott monoton jellemzővel rendelkező monoton besorolás fejlesztésébe. Ezzel biztosíthatja, hogy a támadó ne tudja elkerülni az osztályozót a negatív osztályból származó jellemzők egyszerű elfedésével [13].
A DNN-modellek megerősítésére jellemzőtömörítés [18] használható, amellyel észlelhetők a kártékony célú példák. Ez csökkenti a támadó számára elérhető keresési teret az eredeti térben található számos különböző jellemzővektornak megfelelő minták egyetlen mintában történő egyesítésével. A DNN-modellnek az eredeti bemenetre vonatkozó előrejelzését a tömörített bemenetre vonatkozó előrejelzésével összehasonlítva a jellemzőtömörítés segíthet a kártékony példák észlelésében. Ha az eredeti és a tömörített példák jelentősen különböző kimeneteket adnak vissza a modellből, a bemenet valószínűleg kártékony. Az előrejelzések közötti eltérések mérésével és egy küszöbérték kiválasztásával a rendszer megfelelő előrejelzést adhat a szabályos példákra vonatkozóan, és elutasíthatja a kártékony bemeneteket.
[18]
Certified Defenses against Adversarial Examples [22]: A szerzők egy félig határozott relaxáción alapuló módszert javasolnak, amely egy tanúsítványt ad ki, amely egy adott hálózati és tesztelési bemenet esetén nem kényszerítheti a hibát egy bizonyos érték túllépésére. Másodszor, mivel ez a tanúsítvány differenciálható, a szerzők közösen optimalizálják a hálózati paraméterekkel, egy olyan adaptív szabályozót biztosítva, amely minden támadással szemben fokozza a hatékonyságot.
Válaszintézkedések
- Riasztás kiadása az osztályozók között nagy eltérést mutató besorolási eredményekre, különösen, ha egyetlen felhasználótól vagy felhasználók kis csoportjától származnak.
Hagyományos párhuzamok
Jogosultságok szintjének távoli emelése
Severity
Critical
Variant #1c: Véletlenszerű helytelen besorolás
Ez egy különleges változat, amelyben a támadó célbesorolása a szabályos forrásbesoroláson kívül bármi lehet. A támadás általában zaj a besorolás alatt álló forrásadatokba való véletlenszerű bejuttatásával jár a helyes besorolás valószínűségének jövőbeni csökkentése érdekében [3].
Példák
Mitigations
Ugyanaz, mint az 1a változat.
Hagyományos párhuzamok
Ideiglenes szolgáltatásmegtagadás
Severity
Fontos
Variant #1d: Megbízhatóság csökkentése
A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal [3].
Példák
Mitigations
- A Variant #1a által érintett műveletek mellett az események szabályozása is alkalmazható az egyetlen forrásból származó riasztások mennyiségének csökkentésére.
Hagyományos párhuzamok
Ideiglenes szolgáltatásmegtagadás
Severity
Fontos
#2a célzott adatmérgezés
Leírás
A támadó célja a betanítási fázisban létrehozott gépi modell beszennyezése, hogy az új adatokra vonatkozó előrejelzések módosuljanak a tesztelési fázisban[1]. A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását.
Példák
Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken.
Mitigations
Eltérésérzékelők meghatározása az adateloszlás napi figyeléséhez, és riasztás küldése eltérések esetén
– A betanítási adatok eltérésének napi rendszerességű mérése, telemetria küldése eltolódás/eltérés esetén
Bemenet ellenőrzése: tisztítás és integritás-ellenőrzés
A szennyezés során külső betanítási mintákat juttatnak a rendszerbe. A fenyegetés elhárításához két fő stratégia áll rendelkezésre:
– Adatok tisztítása/ellenőrzése: szennyező minták eltávolítása a betanítási adatokból – Rendszerindítási összesítés (poggyász) a szennyezéses támadások elleni küzdelem érdekében [14]
– Negatív hatás elutasításán (Reject-on-Negative-Impact, RONI) alapuló védelem [15]
-Robusztus Tanulás: Olyan tanulási algoritmusokat válasszon, amelyek mérgezési minták jelenlétében robusztusak.
-Az egyik ilyen megközelítést a [21] ismerteti, ahol a szerzők két lépésben foglalkoznak az adatmérgezés problémájával: 1) bevezetnek egy új, robusztus mátrix-faktorizációs módszert a valódi altér helyreállításához, és 2) egy új, robusztus elvi összetevő regresszióját az adversarial-példányok eltávolításához az (1) lépésben helyreállított alap alapján. Szükséges és elégséges feltételeket mutatnak be a valódi altér sikeres helyreállításához, valamint a várt előrejelzés-veszteség korlátozásához az alapvetéshez viszonyítva.
Hagyományos párhuzamok
Trójai programmal fertőzött gazdagép, amelynek révén a támadó jelen lehet a hálózaton. A betanítási vagy konfigurációs adatok biztonsága sérült, és a rendszer betölti/megbízhatónak tartja őket a modell létrehozásához.
Severity
Critical
#2b Válogatás nélküli adatmérgezés
Leírás
A cél a megtámadott adathalmaz minőségének/integritásának rontása. Számos adathalmaz nyilvános, nem megbízható vagy moderálatlan, ez pedig további problémákat jelent az adatintegritás megsértésének felismerésére való képesség terén. A nem ismerten sérült biztonságú adatok felhasználása a betanítás során egy ún. „garbage-in/garbage-out” helyzetet eredményez. Ez a kifejezés arra utal, hogy rossz adatokból csak rossz eredményeket lehet kapni. Az észlelést követően az osztályozásnak meg kell határoznia az adatbiztonság sérülésének mértékét, és karanténba kell helyeznie a sérült adatokat/meg kell ismételnie a betanítást.
Példák
Egy vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős olajügyleti adatokat. Az adatszolgáltató webhelyét ezt követően SQL-injektálási támadással feltörik. A támadó szándékosan beszennyezheti az adathalmazt, és a modell a betanítás során nem érzékeli, hogy az adatok fertőzöttek.
Mitigations
Ugyanaz, mint a 2a változat.
Hagyományos párhuzamok
Hitelesített szolgáltatásmegtagadás valamilyen nagy értékű adategység ellen
Severity
Fontos
#3 Modell inverziós támadásai
Leírás
A gépi tanulási modellekben használt privát funkciók helyreállíthatók [1]. Ezek közé tartozik azon privát betanítási adatok újraépítése, amelyekhez a támadó nem fér hozzá. A biometrikus közösségben más néven hegymászó támadásként is ismert [16, 17]. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet [4].
Példák
[4]
Mitigations
A bizalmas adatokkal betanított modellek interfészeihez szigorú hozzáférés-vezérlés szükséges.
A modell által engedélyezett lekérdezések sebességének korlátozása
Kapuk kialakítása a felhasználók/hívók és a tényleges modell között az összes lekérdezés bemeneti adatainak ellenőrzésével, továbbá a modell helyes bemenetekre vonatkozó definíciójának nem megfelelő adatok elutasítása, hogy csak a hasznossághoz szükséges minimális mennyiségű információt adja vissza.
Hagyományos párhuzamok
Az információk célzott és védett felfedése
Severity
Ez a standard SDL-hibalista alapértelmezett beállítása szerint a fontos kategóriába kerül, de a bizalmas vagy személyazonosításra alkalmas adatok kinyerése esetében kritikus fontosságúra változna.
#4 Tagsági következtetési támadás
Leírás
A támadó el tudja dönteni, hogy egy adott adatrekord része volt-e a modell betanítási adatkészletének, vagy sem[1]. A kutatók az attribútumok (pl. életkor, nem, kórház) alapján előre tudták jelezni a páciens fő eljárását (pl. a beteg műtétjét).
[12]
Mitigations
A támadás életképességét szemléltető kutatási dokumentumok szerint a differenciált adatvédelem [4, 9] hatékony lehet. Ez a kutatási terület a Microsoftnál még gyermekcipőben jár, ezért az AETHER Security Engineering a szakértelem kutatási befektetésekkel történő növelését szorgalmazza e téren. Ennek a kutatásnak számba kell vennie a differenciált adatvédelmi képességeket, és fel kell mérnie azok kockázatcsökkentés szempontjából vett gyakorlati hasznosságát, majd különféle módokat kell kidolgozniuk a védelmi rendszerek átlátható öröklődéséhez az online szolgáltatási platformokon, hasonlóan ahhoz, ahogyan a Visual Studióban a kód fordítása alapértelmezés szerint engedélyezett biztonsági megoldásokat biztosít, amelyek mind a fejlesztő, mind pedig a felhasználók számára átláthatók.
A neuronkihagyás és a modellhalmozás használata bizonyos mértékig hatékony kockázatcsökkentő megoldás lehet. A neuronkihagyás használata nem csupán egy neurális háló ellenállását növeli az ilyen támadásokkal szemben, de a modell teljesítményét is fokozza [4].
Hagyományos párhuzamok
Adatvédelem. Következtetéseket lehet levonni az adatpontoknak a betanítási készletben való használatáról, maguk a betanítási adatok azonban nem lesznek kiadva
Severity
Ez adatvédelmi problémának minősül, nem biztonságinak. Azért szerepel a fenyegetésmodellezési útmutatóban, mert ez a két terület átfedésben van egymással, de a válaszokat a biztonság helyett itt az adatvédelem szempontok motiválják.
#5 Modelllopás
Leírás
A támadók a modell szabályos lekérdezésével újra létrehozzák az alapul szolgáló modellt. Az új és az alapul szolgáló modell működése azonos[1]. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan.
Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához.
Elérési út megállapítása – Az API-k sajátosságait kihasználó támadással kinyerhetők a bemenet osztályozása során, a fa alapján meghozott „döntések”[7].
Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe[8]. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen.
Példák
Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat[7].
Mitigations
Proaktív/védelmi intézkedések
Minimalizálja vagy rejtse el az előrejelzési API-k által visszaadott adatokat, a „megbízható” alkalmazásokkal kapcsolatos hasznosságuk fenntartása mellett[7].
Adjon meg egy megfelelő formátumú lekérdezést a modell bemeneteihez, és csak teljes, megfelelő és egyező formátumú bemenetek esetén adjon vissza eredményeket válaszként.
Kerekített megbízhatósági értékek visszaadása. A legtöbb jogszerű hívó nem igényel több tizedesjegyes pontosságot.
Hagyományos párhuzamok
A rendszeradatok nem hitelesített, csak olvasható jellegű illetéktelen módosítása, nagy értékű információk célzott kiadása?
Severity
A biztonsági szempontból érzékeny modellek esetében fontos, egyéb esetben mérsékelt fontosságú
#6 Neurális net-újraprogramozás
Leírás
Egy támadótól származó, speciálisan kialakított lekérdezés révén a gépi tanulási rendszerek úgy programozhatóak át, hogy az általuk végrehajtott feladat eltérjen a létrehozó eredeti szándékától [1].
Példák
Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a Microsoft-ügyfelek megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban.
Mitigations
Erős ügyfél-kiszolgáló<> kölcsönös hitelesítés és hozzáférés-vezérlés a modell interfészeihez
A támadó fiókok eltávolítása.
Az API-kra vonatkozó szolgáltatásiszint-szerződések azonosítása és kikényszerítése. Annak megállapítása, hogy egy adott probléma esetében mi a megoldáshoz szükséges elfogadható idő, valamint annak biztosítása, hogy a probléma nem fordul elő újra az SLA lejárta után.
Hagyományos párhuzamok
Ez egy visszaélési forgatókönyv. Az ilyen esetekben sokkal valószínűbb, hogy egy biztonsági incidens létrehozása helyett egyszerűen letiltja a támadó fiókját.
Severity
Fontos – Kritikus
#7 Adversarial Example in the Physical domain (bits-atoms>)
Leírás
A támadó példa egy rosszindulatú entitás bemenete/lekérdezése, amelynek célja kizárólag a gépi tanulási rendszer félrevezetése [1]
Példák
Ezek a példák a fizikai tartományban is megjelenhetnek. Például megtéveszthetnek egy önvezető autót, amely így nem áll meg a stoptáblánál, mert egy adott színű fénnyel (ez a kártékony célú bemenet) világítanak a táblára, és ez arra kényszeríti a képfelismerő rendszert, hogy a stoptáblát már ne stoptáblának érzékelje.
Hagyományos párhuzamok
Jogosultságok szintjének emelése, távoli kódvégrehajtás
Mitigations
Ezek a támadások azért bontakoznak ki, mert a gépi tanulási réteg (a mesterséges intelligencián alapuló döntéshozatal alatti adat- és az algoritmusréteg) hibáit nem orvosolták. Mint minden más szoftver *vagy* fizikai rendszer, a réteg alatt a cél mindig megtámadható a hagyományos vektorok. Emiatt a hagyományos biztonsági eljárások betartása fontosabb, mint valaha, különösen az MI és a hagyományos szoftverek között használt kezeletlen biztonsági rések rétege (az adat-/algoritmusréteg) miatt.
Severity
Critical
#8 Rosszindulatú ml-szolgáltatók, akik helyreállíthatják a betanítási adatokat
Leírás
Egy rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat. Képesek voltak az arcok és a szövegek rekonstrukciójára kizárólag a modell alapján.
Hagyományos párhuzamok
Az információk célzott felfedése
Mitigations
A támadás életképességét szemléltető kutatási dokumentumok szerint a homomorfikus titkosítás hatékony lehet. Ez a kutatási terület a Microsoftnál jelenleg kevés figyelmet élvez, ezért az AETHER Security Engineering a szakértelem kutatási befektetésekkel történő növelését szorgalmazza e téren. Ennek a kutatásnak számba kell vennie a homomorfikus titkosítás alapelveit, és értékelnie kell azok gyakorlati hasznát a kockázatcsökkentés szempontjából a rosszindulatú gépitanulás-szolgáltatók ellenében.
Severity
PII-adatok esetén fontos, egyéb esetben mérsékelt fontosságú
#9 Az ML ellátási lánc megtámadása
Leírás
Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: A ResNet a Microsoft népszerű képfelismerő modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet. [1]
Hagyományos párhuzamok
Külső fél nem biztonsági jellegű függőségének sérülése
Az App Store-ban akaratlanul üzemeltetett kártevők
Mitigations
Modellek és adatok külső felekkel kapcsolatos függőségeinek minimalizálása, ahol lehetséges.
Ezeket a függőségeket beépítheti a fenyegetésmodellezési folyamatba.
Erős hitelesítés, hozzáférés-vezérlés és titkosítás használata a belső és külső felek által biztosított rendszerek között.
Severity
Critical
#10 Backdoor Machine Tanulás
Leírás
A betanítási folyamat egy rosszindulatú harmadik félhez van kiszervezve, aki a betanítási adatok illetéktelen módosításával egy olyan, trójait tartalmazó modellt szállított le, amely célzottan kikényszeríti a téves besorolásokat, például nem rosszindulatúként sorol be egy adott vírust[1]. Ez kockázatot jelent a gépitanulás-szolgáltatókkal kapcsolatos modell-létrehozási forgatókönyvekben.
[12]
Hagyományos párhuzamok
Külső fél biztonsági jellegű függőségének sérülése
Sérült szoftverfrissítési mechanizmus
Hitelesítésszolgáltató sérülése
Mitigations
Reaktív/védelmi célú észlelési intézkedések
- Mire ezt a fenyegetést sikerült észlelni, már megtörtént a baj, ezért a rosszindulatú szolgáltató által biztosított modell és betanítási adatok nem megbízhatóak.
Proaktív/védelmi intézkedések
Az összes bizalmas modell házon belüli betanítása
A betanítási adatok katalogizálása, valamint annak ellenőrzése, hogy azok megbízható, erős biztonsági gyakorlatokat alkalmazó harmadik féltől származnak.
Az MLaaS-szolgáltató és a saját rendszerek közötti interakciók modellezése a veszélyforrások szempontjából.
Válaszintézkedések
- Ugyanaz, mint a külső függőségek sérülése esetében
Severity
Critical
#11 Az ML-rendszer szoftverfüggőségeinek kihasználása
Leírás
Ebben a támadásban a támadó NEM manipulálja az algoritmusokat. Ehelyett a szoftveres biztonsági réseket, például a puffertúlcsordulásokat, illetve a webhelyek közötti szkriptelést[1] használja ki. Még mindig könnyebb a mesterséges intelligencia/gépi tanulás rétege alatti szoftverrétegeket megkárosítani, mint közvetlenül megtámadni a tanulási réteget. Ezért elengedhetetlen fontosságúak a biztonságfejlesztési életciklusban leírt, a hagyományos biztonsági fenyegetések elhárítására irányuló gyakorlatok.
Hagyományos párhuzamok
Sérült, nyílt forráskódú szoftveres függőség
Webkiszolgáló biztonsági rése (XSS-, CSRF-, API-bemenetek érvényesítési hibája)
Mitigations
Működjön együtt biztonsági csapatával, és kövesse a megfelelő biztonsági fejlesztési életciklussal/működési biztonsági garanciával kapcsolatos ajánlott eljárásokat.
Severity
Változó; Akár kritikus is lehet a hagyományos szoftveres biztonsági rések típusától függően.
Irodalomjegyzék
[1] Hibamódok a Machine Tanulás, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover,https://learn.microsoft.com/security/failure-modes-in-machine-learning
[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team
[3] Adversarial Examples in Deep Tanulás: Characterization and Divergence, Wei, et al,https://arxiv.org/pdf/1807.00051.pdf
[4] ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Tanulás Models, Salem, et al,https://arxiv.org/pdf/1806.01246v2.pdf
[5] M. Fredrikson, S. Jha, and T. Ristenpart, “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” konferenciakiadvány: 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).
[6] Nicolas Papernot & Patrick McDaniel- Adversarial Examples in Machine Learning AIWTB 2017
[7] Stealing Machine Learning Models via Prediction APIs, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech
[8] The Space of Transferable Adversarial Examples, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh és Patrick McDaniel
[9] Understanding Membership Inferences on Well-Generalized Learning Models Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 és Kai Chen3,4
[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;
[11] Lyu et al., A unified gradient regularization family for adversarial examples, ICDM 2015
[12] Vad minták: Tíz évvel az Adversarial Machine felemelkedése után Tanulás - NeCS 2019 Battista Biggioa, Fabio Roli
[13] Adversarially Robust Malware Detection UsingMonotonic Classification Inigo Incer et al.
[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto és Fabio Roli. Bagging Classifiers for Fighting Poisoning Attacks in Adversarial Classification Tasks
[15] Továbbfejlesztett elutasítás a Negatív HatásVédelem Hongjiang Li és Patrick P.K. Chan
[16] Adler. Vulnerabilities in biometric encryption systems. 5th Int’l Conf. AVBPA, 2005
[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. On the vulnerability of face verification systems to hill-climbing attacks. Patt. Rec., 2010
[18] Weilin Xu, David Evans, Yanjun Qi. Funkcióbeszorítás: Támadó példák észlelése a mély neurális hálózatokban. 2018 Network and Distributed System Security Symposium. Február 18–21.
[19] Reinforcing Adversarial Robustness using Model Confidence Induced by Adversarial Training – Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha
[20] Attribution-driven Causal Analysis for Detection of Adversarial Examples, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami
[21] Robust Linear Regression Against Training Data Poisoning – Chang Liu et al.
[22] Feature Denoising for Improving Adversarial Robustness, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He
[23] Certified Defenses against Adversarial Examples – Aditi Raghunathan, Jacob Steinhardt, Percy Liang