A mesterséges intelligencia és a gépi tanulás biztonságfejlesztési életciklushoz kötődő hibalistája
Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar
2019. november
Ez a cikk a Microsoft AETHER AI-hez készült mérnöki gyakorlatok munkacsoportjának terméke. Ez a cikk a hagyományos biztonsági rések osztályozásához használt meglévő SDL-hibasáv kiegészítéseként működik. Az AI-hez/ML-hez kapcsolódó biztonsági problémák osztályozására szolgál. Az AI-rendszerek biztonságirés súlyossági besorolása (amelyet a Microsoft Security Response Center tett közzé) az AI-t érintő rendszerek gyakori sebezhetőségi típusait és súlyossági szintjét határozza meg.
Ez az útmutató a Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover által létrehozott Adversarial Machine Learning Threat Taxonomy és a Machine Learning hibamódjai köré szerveződik. Bár a tartalom kutatása az ml-meghibásodási módok szándékos/rosszindulatú és véletlen viselkedésére is épül, ez a hibasáv-kiegészítés teljes egészében a szándékos/rosszindulatú viselkedésekre összpontosít, amelyek biztonsági incidenst és/vagy javítás üzembe helyezését eredményezhetik.
Fenyegetés | Leírás/Üzleti kockázatok/Példák |
---|---|
Adatszennyezés | A betanítási adatok sérülése – A támadó végső célja a betanítási fázisban létrehozott gépmodell szennyeződése, hogy az új adatokra vonatkozó előrejelzések a tesztelési fázisban módosuljanak. A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását. Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken. A vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős ügyleti adatokat. Ezt követően az adatszolgáltató webhelye sql-injektálási támadáson keresztül sérül. A támadó akarata szerint megmérgezheti az adathalmazt, és a betanított modell nem tudja, hogy az adatok el vannak-e szennyezve. |
Modell-lopás | Az alapul szolgáló modell újbóli létrehozása a modell szabályos lekérdezésével. Az új és az alapul szolgáló modell működése azonos. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan. Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához. Elérési útkeresés – olyan támadás, amely az API-sajátosságokat kihasználva kinyeri a fa által a bemenetek besorolása során hozott "döntéseket". Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen. Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat |
Modellinverzió | A gépi tanulási modellekben használt privát jellemzők visszaállíthatók. Ez magában foglalja az olyan privát betanítási adatok rekonstruálását, amelyekhez a támadó nem fér hozzá. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet. Példa: Arcfelismerési adatok rekonstrukciója kitalált vagy ismert nevekből, valamint API-hozzáférés a modell lekérdezéséhez. |
Kártékony célú példák a fizikai tartományban | Ezek a példák nyilvánulhatnak meg a fizikai tartományban, mint például egy önvezető autó trükközött futás stop jel miatt egy bizonyos színű fény (a támadó bemenet), hogy shone a stop jel, kényszerítve a képfelismerő rendszer már nem látja a stop jel, mint a stop jel. |
A gépi tanulás ellátási láncának megtámadása | Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: A ResNet a Microsoft népszerű képfelismerő modellje). Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet). Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet. |
Rosszindulatú gépitanulás-szolgáltatótól származó, kiskapuval rendelkező algoritmus | A mögöttes algoritmus veszélyeztetése Egy, a gépi tanulást szolgáltatásként nyújtó rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat. Ezzel a támadó kizárólag a modell alapján rekonstruálhatja a bizalmas adatokat, például az arcokat és a szövegeket. |
Neurális háló újraprogramozása | A támadótól származó speciálisan létrehozott lekérdezésekkel az ML-rendszerek átprogramozhatók olyan feladatra, amely eltér az alkotó eredeti szándékától Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a felhasználók megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban. Ez egy visszaélési/fiókeltávolítási forgatókönyv |
Megzavarás kártékony céllal | A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja az éles környezetben üzembe helyezett modelltől. Ez a modell bemeneti integritásának megsértése, amely olyan rejtélyes jellegű támadásokhoz vezet, amelyek végeredménye nem feltétlenül hozzáférés-megsértés vagy EOP. Ehelyett rontja a modell besorolási teljesítményét. Ezt a trollok bizonyos célszavak használatával úgy nyilvánulhatnak meg, hogy az AI tiltsa őket, gyakorlatilag megtagadva a szolgáltatást a jogszerű felhasználóktól egy "tiltott" szónak megfelelő névvel. A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek. A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal. |
Tagsági következtetés | Modell betanítására használt csoport egyéni tagságainak kikövetkeztetése Például sebészeti beavatkozások előrejelzése kor, nem vagy kórház alapján |