Aracılığıyla paylaş


Güvenlik Geliştirme Yaşam Döngüsü Hata Çubuğuna Yönelik AI/ML Özetleri

Andrew Marshall, Jugal Parikh, Emre Kiciman ve Ram Shankar Siva Kumar

2019 Kasım

Bu makale, AI Çalışma Grubu için Microsoft AETHER Mühendislik Uygulamaları'nın teslim edilebilir bir makaledir. Bu makale, geleneksel güvenlik açıklarını önceliklendirmek için kullanılan mevcut SDL hata çubuğuna ek olarak işlev görür. Yapay zeka/ML ile ilgili güvenlik sorunlarının önceliklendirmesi için başvuru olarak kullanılması amaçlanmıştır. Yapay Zeka Sistemleri için Güvenlik Açığı Önem Derecesi Sınıflandırması (Microsoft Güvenlik Yanıt Merkezi tarafından yayımlanan), yapay zeka içeren sistemler için yaygın güvenlik açığı türlerini ve önem düzeylerini tanımlar.

Bu kılavuz Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen ve Jeffrey Snover tarafından oluşturulan Saldırgan Makine Öğrenmesi Tehdit Taksonomisi etrafında düzenlenmiştir ve Machine Learning'de Hata Modları başlıklıdır. Bu içeriğin araştırmasında ML hata modlarındaki hem kasıtlı/kötü amaçlı hem de yanlışlıkla yapılan davranışlar ele alınsa da, bu hata çubuğu eki tamamen bir güvenlik olayına ve/veya bir düzeltmenin dağıtımına neden olacak kasıtlı/kötü amaçlı davranışlara odaklanır.

Tehdit Açıklama/İş Riskleri/Örnekler
Veri Zehirleme

Eğitim verilerinin bozulması - Saldırganın son hedefi, eğitim aşamasında oluşturulan makine modelini kirleterek yeni verilerle ilgili tahminlerin test aşamasında değiştirilmesini sağlamaktır.

Hedefli zehirleme saldırılarında, saldırgan belirli eylemlerin yapılmasına veya atlanmasına neden olacak belirli örnekleri yanlış sınıflandırmak ister.

Hedeflenen AV yazılımının hatalı biçimde kötü amaçlı olarak sınıflandırılmasını sağlamak ve istemci sistemlerinde kullanımını engellemek için AV yazılımını kötü amaçlı yazılım olarak gönderme.

Bir şirket, tanınmış ve güvenilir bir web sitesinden modellerini eğitmek için kullanılan geleceğe dönük verileri kazır. Daha sonra veri sağlayıcısının web sitesi SQL Ekleme saldırısıyla ele geçirilir. Saldırgan, veri kümesini istendiği zaman zehirleyebilir ve eğitilen modelde verilerin bozuk olduğuyla ilgili bir bildirim yoktur.

Model Hırsızlığı

Temel alınan modele meşru bir şekilde sorgulama yaparak modelin yeniden oluşturulması. Yeni modelin işlevselliği, temel alınan modeldeki ile aynıdır. Model yeniden oluşturulduktan sonra, özellik bilgilerini ele geçirmek veya eğitim verileri ile ilgili çıkarımlar yapmak üzere ters çevrilebilir.

Denklem çözme - API çıkışı aracılığıyla sınıf olasılıkları döndüren bir model için saldırgan, modeldeki bilinmeyen değişkenleri belirlemek üzere sorgular oluşturabilir.

Yol Bulma: Girişi sınıflandırırken bir ağaç tarafından alınan "kararları" ayıklamak için API'nin özelliklerinden yararlanan bir saldırıdır.

Aktarılabilirlik saldırısı - Bir saldırgan, muhtemelen hedeflenen modele tahmin sorguları vererek, yerel bir modeli eğitebilir ve bunu kullanarak hedef modele aktarım yapan saldırı örnekleri oluşturabilir. Modelinizin ayıklanması ve bir saldırı girişi türüne karşı savunmasız olduğunun keşfedilmesi durumunda, üretim ortamına dağıtılan modelinize yönelik yeni saldırılar, modelinizin bir kopyasını ayıklayan saldırgan tarafından tamamen çevrimdışı olarak geliştirilebilir.

Model ayıklama, bir ML modelinin istenmeyen posta, kötü amaçlı yazılım sınıflandırması ve ağ anomalisi algılama gibi saldırı davranışlarını algılamaya hizmet ettiği ayarlarda kurtulma saldırılarını kolaylaştırabilir

Modeli Ters Çevirme

Makine öğrenmesi modellerinde kullanılan özel nitelikteki özellikler ele geçirilebilir. Bu, saldırganın erişimi olmayan özel eğitim verilerini yeniden yapılandırmayı içerir. Bu, döndürülen güven düzeyini en yüksek değere çıkaran, hedefle eşleşen sınıflandırmaya tabi olan girişin bulunmasıyla mümkündür.

Örnek: Modeli sorgulamak için tahmin edilen veya bilinen adlardan yüz tanıma verilerinin yeniden yapılandırılması ve API erişimi.

Fiziksel Ortamdaki Saldırı Örnekleri Bu örnekler, dur işaretinde belirli bir ışık renginin (saldırgan giriş) basılması ve görüntü tanıma sisteminin dur işaretini artık dur işareti olarak görmemesi için zorlaması nedeniyle dur işareti çalıştırmaya kandırılan kendi kendine çalışan bir araba gibi fiziksel etki alanında kendini gösterebilir.
ML Tedarik Zincirine Yönelik Saldırı

Algoritmaları eğitmek için gereken büyük kaynaklar (veri + hesaplama) nedeniyle, geçerli uygulama büyük şirketler tarafından eğitilen modelleri yeniden kullanmak ve eldeki görev için biraz değiştirmektir (örneğin: ResNet, Microsoft'un popüler bir görüntü tanıma modelidir).

Bu modeller, Model Zoo’da seçki olarak sunulur (Caffe popüler görüntü tanıma modellerini barındırır).

Bu saldırıda, saldırgan Caffe'de barındırılan modellere saldırır ve böylece veriler herkes için bozulur.

Kötü Amaçlı ML Sağlayıcısındaki Arka Kapılı Algoritma

Temel alınan algoritmanın güvenliğinin aşılması

Kötü amaçlı bir Hizmet Olarak ML sağlayıcısı, özel eğitim verilerinin ele geçirildiği arka kapılı bir algoritma sunar. Bu, saldırgana yalnızca model verilen yüz ve metin gibi hassas verileri yeniden oluşturma olanağı sağlar.

Sinir Ağı Yeniden Programlama

Bir saldırganın özel olarak hazırlanmış sorgusuyla ML sistemleri, oluşturucunun özgün amacından sapan bir göreve yeniden programlanabilir

Yüz tanıma API’sinde, 3. tarafların deepfake oluşturucu gibi kullanıcılara zarar vermek üzere tasarlanmış uygulamalar eklemesini sağlayan zayıf erişim denetimleri.

Bu bir uygunsuz kullanım/hesap ele geçirme senaryosudur

Saldırgan Pertürbasyon

Pertürbasyon stili saldırılarda, saldırgan üretime dağıtılmış bir modelden istediği yanıtı almak için sorguyu gizlice değiştirir. Bu, sonucun erişim ihlali veya EOP olması gerekmeyen şaşırtıcı stildeki saldırılara yol açan model giriş bütünlüğünün ihlalidir. Bunun yerine modelin sınıflandırma performansını tehlikeye atabilir.

Bu, belirli hedef sözcükleri yapay zeka tarafından yasaklanan bir şekilde kullanan troller tarafından bildirilebilir ve "yasaklanmış" bir sözcükle eşleşen bir ada sahip meşru kullanıcılara hizmeti etkili bir şekilde reddedebilir.

Zararsız e-postaları istenmeyen posta olarak sınıflandırmaya zorlama veya kötü amaçlı bir örneğin algılanmadan geçmesine neden olma. Bunlar model atlatma veya taklit saldırıları olarak da bilinir.

Özellikle ciddi sonuçlu senaryolarda saldırgan doğru sınıflandırmanın güvenilirlik düzeyini düşüren girişler hazırlayabilir. Bu, yöneticileri veya izleme sistemlerini geçerli uyarılardan ayırt edilemeyen sahte uyarılarla bunaltmayı amaçlayan çok büyük sayılarda hatalı pozitif biçimini de alabilir.

Üyelik Çıkarımı

Model eğitmek için kullanılan bir gruptaki bireysel üyeliği çıkarsama

Ör: Yaşa/cinsiyete/hastaneye göre ameliyat tahmini