Megosztás a következőn keresztül:


A mesterséges intelligencia és a gépi tanulás biztonságfejlesztési életciklushoz kötődő hibalistája

Andrew Marshall, Jugal Parikh, Emre Kiciman és Ram Shankar Siva Kumar

2019. november

Ez a cikk a Microsoft AETHER AI-hez készült mérnöki gyakorlatok munkacsoportjának terméke. Ez a cikk a hagyományos biztonsági rések osztályozásához használt meglévő SDL-hibasáv kiegészítéseként működik. Az AI-hez/ML-hez kapcsolódó biztonsági problémák osztályozására szolgál. Az AI-rendszerek biztonságirés súlyossági besorolása (amelyet a Microsoft Security Response Center tett közzé) az AI-t érintő rendszerek gyakori sebezhetőségi típusait és súlyossági szintjét határozza meg.

Ez az útmutató a Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen és Jeffrey Snover által létrehozott Adversarial Machine Learning Threat Taxonomy és a Machine Learning hibamódjai köré szerveződik. Bár a tartalom kutatása az ml-meghibásodási módok szándékos/rosszindulatú és véletlen viselkedésére is épül, ez a hibasáv-kiegészítés teljes egészében a szándékos/rosszindulatú viselkedésekre összpontosít, amelyek biztonsági incidenst és/vagy javítás üzembe helyezését eredményezhetik.

Fenyegetés Leírás/Üzleti kockázatok/Példák
Adatszennyezés

A betanítási adatok sérülése – A támadó végső célja a betanítási fázisban létrehozott gépmodell szennyeződése, hogy az új adatokra vonatkozó előrejelzések a tesztelési fázisban módosuljanak.

A célzott szennyezéses támadásokban a támadók konkrét példákat akarnak tévesen besorolni, hogy elérjék bizonyos műveletek végrehajtását vagy kihagyását.

Vírusvédelmi szoftver küldése kártevő szoftverként annak rosszindulatúként való téves besorolása érdekében, megszüntetve a megcélzott vírusvédelmi szoftver használatát az ügyfélrendszereken.

A vállalat egy közismert és megbízható webhelytől szerzi be a modellek betanításához használt határidős ügyleti adatokat. Ezt követően az adatszolgáltató webhelye sql-injektálási támadáson keresztül sérül. A támadó akarata szerint megmérgezheti az adathalmazt, és a betanított modell nem tudja, hogy az adatok el vannak-e szennyezve.

Modell-lopás

Az alapul szolgáló modell újbóli létrehozása a modell szabályos lekérdezésével. Az új és az alapul szolgáló modell működése azonos. Az újbóli létrehozás után a modell megfordítható úgy, hogy helyreállítsa a jellemzőkre vonatkozó információt, vagy következtessen a betanítási adatokra vonatkozóan.

Egyenletmegoldás – Az osztályra vonatkozó valószínűségeket API-kimeneten keresztül visszaadó modellek esetében a támadó lekérdezéseket hozhat létre a modell ismeretlen változóinak megállapításához.

Elérési útkeresés – olyan támadás, amely az API-sajátosságokat kihasználva kinyeri a fa által a bemenetek besorolása során hozott "döntéseket".

Átadásos támadás – A támadó (feltehetőleg a megcélzott modellnek elküldött előrejelzési lekérdezések kiadásával) be tudja tanítani a helyi modellt, és a segítségével kártékony célú példákat hozhat létre, amelyek átkerülnek a megcélzott modellbe. Ha sikeres a modell kinyerése, és kiderül, hogy az védtelen egy bizonyos típusú kártékony bemenettel szemben, a modell másolatát kinyerő támadó teljesen offline fejleszthet ki új támadásokat az éles környezetben üzembe helyezett modell ellen.

Azokban a környezetekben, ahol egy gépi tanulási modell szolgál a kártékony viselkedés észlelésére (például a levélszemét azonosítására, a kártevők besorolására és a hálózati rendellenességek észlelésére), a modell kinyerése elősegíti a kikerüléses támadásokat

Modellinverzió

A gépi tanulási modellekben használt privát jellemzők visszaállíthatók. Ez magában foglalja az olyan privát betanítási adatok rekonstruálását, amelyekhez a támadó nem fér hozzá. Ehhez meg kell keresni a visszaadott megbízhatósági szintet maximalizáló, a céllal megfeleltethető osztályozás tárgyát képező bemenetet.

Példa: Arcfelismerési adatok rekonstrukciója kitalált vagy ismert nevekből, valamint API-hozzáférés a modell lekérdezéséhez.

Kártékony célú példák a fizikai tartományban Ezek a példák nyilvánulhatnak meg a fizikai tartományban, mint például egy önvezető autó trükközött futás stop jel miatt egy bizonyos színű fény (a támadó bemenet), hogy shone a stop jel, kényszerítve a képfelismerő rendszer már nem látja a stop jel, mint a stop jel.
A gépi tanulás ellátási láncának megtámadása

Az algoritmusok betanítása érdekében szükséges nagy erőforrások (adatok + számítások) miatt a jelenlegi gyakorlat az, hogy a nagyvállalatok által betanított modelleket újra felhasználják, és kissé módosítják őket a feladathoz (például: A ResNet a Microsoft népszerű képfelismerő modellje).

Ezek a válogatott modellek a Model Zoo-ban találhatók (a Caffe népszerű képfelismerő modelleket üzemeltet).

Ebben a támadásban a támadó megtámadja a Caffe-ban üzemeltetett modelleket, ezáltal pedig minden felhasználót veszélyeztet.

Rosszindulatú gépitanulás-szolgáltatótól származó, kiskapuval rendelkező algoritmus

A mögöttes algoritmus veszélyeztetése

Egy, a gépi tanulást szolgáltatásként nyújtó rosszindulatú szolgáltató egy kiskapuval rendelkező algoritmus segítségével visszaállíthatja a privát betanítási adatokat. Ezzel a támadó kizárólag a modell alapján rekonstruálhatja a bizalmas adatokat, például az arcokat és a szövegeket.

Neurális háló újraprogramozása

A támadótól származó speciálisan létrehozott lekérdezésekkel az ML-rendszerek átprogramozhatók olyan feladatra, amely eltér az alkotó eredeti szándékától

Egy arcfelismerési API gyenge hozzáférés-vezérlése lehetővé teszi, hogy külső felek a felhasználók megkárosítására szánt alkalmazásokban használják őket, például élethű hamisítványokat létrehozó alkalmazásokban.

Ez egy visszaélési/fiókeltávolítási forgatókönyv

Megzavarás kártékony céllal

A megzavarásra épülő támadásokban a támadó titokban módosítja a lekérdezést, hogy a kívánt választ kapja az éles környezetben üzembe helyezett modelltől. Ez a modell bemeneti integritásának megsértése, amely olyan rejtélyes jellegű támadásokhoz vezet, amelyek végeredménye nem feltétlenül hozzáférés-megsértés vagy EOP. Ehelyett rontja a modell besorolási teljesítményét.

Ezt a trollok bizonyos célszavak használatával úgy nyilvánulhatnak meg, hogy az AI tiltsa őket, gyakorlatilag megtagadva a szolgáltatást a jogszerű felhasználóktól egy "tiltott" szónak megfelelő névvel.

A jóindulatú e-mailek levélszemétként való besorolásának kikényszerítése, vagy kártékony példa átjuttatása anélkül, hogy a rendszer észlelné. Ezek a támadások modellkikerüléses vagy utánzásos támadásként is ismertek.

A támadó létrehozhat mesterséges bemeneteket a helyes besorolás megbízhatósági szintjének csökkentése céljából, különösen a jelentős következményekkel járó forgatókönyvekben. Ez nagy számú álpozitív eredmény formáját is öltheti, aminek célja a rendszergazda vagy monitorozási rendszerek elárasztása a szabályos riasztásoktól megkülönböztethetetlen megtévesztő riasztásokkal.

Tagsági következtetés

Modell betanítására használt csoport egyéni tagságainak kikövetkeztetése

Például sebészeti beavatkozások előrejelzése kor, nem vagy kórház alapján