Yapay Zeka
Yapay Zeka Modellerini Savunma Yaklaşımları
“Yapay Zekâ Modellerine Yönelik Tehditler” başlıklı yazıda çeşitli yapay zekâ modellerine yönelik saldırı yöntemlerinden bahsetmiş ve teknikleri paylaşmıştım. Peki, bu saldırılara karşı bir önlem alınamaz ya da saldırı anında bir tespit yapılamaz mı?
Atak fikri gibi savunma fikri de yine Google mühendislerinin ilgisini çekmiş ve 2004 yılında yayımlanan “Intriguing properties of neural networks” [1] başlıklı makale ile “Advesarial Training” savunma yaklaşımını ortaya atmışlardır. Bu savunma yaklaşımı en sık karşılaşılan ve en etkili savunma yaratan yaklaşımların başında gelmektedir. Şimdi 4 ana başlık altında incelediğimiz yapay zekâ tehditlerini tekrar hatırlayalım ve bu saldırılar için önerilen savunma yöntemlerini inceleyelim. Ayrıca bu yazıda bahsedeceğim tüm saldırı ve savunma teknikleri Adversarial Robustness Toolbox kullanılarak deneyimlenebilir. Kırmızı ve Mavi takımlar için yapay zekâ güvenliği konusu da aşağıdaki görsel ile incelenebilir [2].
Şekil 1 Kırmızı ve Mavi Takım için Yapay Zekâ Güvenliği [2]
1. Evasion:
- Meşru örnekler üzerinde insanlarca fark edilemeyen değişiklikler yapıp modeli yanlış çıktılar üreterek aldatmayı amaçlamaktadır. Kaçınma saldırıları hedefli veya hedeflenmemiş olabilir. Çok sayıda kaçınma saldırısı türü vardır: FGSM, DeepFool, PGD vb.
- Kaçınma saldırılarına karşı savunma için aşağıdakiler de dahil olmak üzere çeşitli stratejiler kullanılmaktadır:
- Adversarial Training: Bu teknik, modeli kaçınma saldırılarına karşı daha sağlam hale getirmek için düşmanca örnekleri eğitim setine dahil etmeyi içerir. Oldukça başarılı bir savunma tekniğidir.
- Gradient Masking: Gradyanların öğrenilmesini zorlaştırır veya gizler, böylece saldırganın etkili düşmanca örnekler üretmesini engeller. Saldırılara karşı geçici bir koruma sağlasa da, tüm saldırılara karşı tam bir güvenlik sağlamaz ve genellikle daha kapsamlı savunma mekanizmaları ile birlikte kullanılması önerilir.
- Gürültü Ekleme: Veri ön işleme veya model eğitim aşamasında giriş verilerine rastgele gürültü eklenir. Bu yöntem, modelin düşmanca örneklerin neden olduğu küçük değişikliklere karşı daha dayanıklı olmasını sağlar.
- Adversarial Training: Bu teknik, modeli kaçınma saldırılarına karşı daha sağlam hale getirmek için düşmanca örnekleri eğitim setine dahil etmeyi içerir. Oldukça başarılı bir savunma tekniğidir.
Şekil 2 Düşmanca Eğitim Yaklaşımı [3]
2. Poisoning:
- Bir makine öğrenimi modelinin performansını tehlikeye atmak için eğitim verilerini manipüle etmeyi içerir. Saldırgan, eğitim setine kötü amaçlı veriler enjekte ederek modelin davranışını manipüle edebilir.
- Poisining ataklara karşı savunma stratejileri için aşağıdakiler de dahil olmak üzere çeşitli yöntemler kullanılmaktadır:
- Veri Temizleme: Bu yaklaşım, şüpheli örnekleri veya tutarsızlıkları kaldırmak için eğitim veri kümesini filtrelemeyi ve temizlemeyi içerir.
- Sağlam Optimizasyon: Model eğitimi sırasında sağlam optimizasyon teknikleri dahil edilerek, zehirlenme saldırılarının etkisi azaltılabilir.
- Aykırılık Tespiti: Eğitim verilerindeki aykırı değerlerin belirlenmesi ve hariç tutulması, zehirlenme saldırılarının modelin karar sınırı üzerindeki etkisini azaltabilir.
- Güvenilir Veri Kaynağı: Verilerin güvenli ve doğrulanmış kaynaklardan gelmesini sağlamak, poisoning saldırılarına karşı en temel savunmalardan biridir. Eğitim verilerinin güvenli bir şekilde toplanması ve doğrulanması, zehirlenmiş verilerin modele girmesini engeller.
- Veri Temizleme: Bu yaklaşım, şüpheli örnekleri veya tutarsızlıkları kaldırmak için eğitim veri kümesini filtrelemeyi ve temizlemeyi içerir.
3. Extraction:
- Model çıkarma saldırıları, hedef modelin bir kopyasını çalmayı veya hedef modelin API'sini sorgulayarak yaklaşık olarak belirlemeyi içerir. Hedef modelin bir kopyası veya yaklaşımı ile bir saldırgan, rekabetçi bir ürün oluşturmak veya daha fazla saldırı başlatmak gibi çeşitli kötü amaçlı faaliyetler gerçekleştirebilir.
- Extraction atakları savunmak için gelişmiş, başarılı savunma yöntemleri bulunmaktadır:
- Sorgu Oranını Sınırlama: Bir saldırganın yapabileceği API sorgularının sayısı sınırlanarak model çıkarma saldırılarının etkinliği azaltılabilir.
- Output Perturbation: Modelin çıktısına gürültü eklemek, bir saldırganın hedef modele doğru bir şekilde yaklaşma yeteneğini engelleyebilir.
- Watermarking: Modelin eğitimine, saldırganın model parametrelerini çıkardığında bu verilerle saldırıyı tespit etmeye yarayacak sahte veya gizli işaretler (watermarks) eklenebilir. Saldırgan modelin bir kopyasını çıkarmaya çalıştığında, modeldeki bu gizli işaretler (örneğin, tahminlerde küçük sapmalar) saldırının tespit edilmesini sağlar.
- Sorgu Oranını Sınırlama: Bir saldırganın yapabileceği API sorgularının sayısı sınırlanarak model çıkarma saldırılarının etkinliği azaltılabilir.
4. Inversion:
- Bu atak eğitim verileri hakkında hassas bilgiler elde ederek makine öğrenimi modelini tersine mühendislik yapmayı amaçlar. Bu tür bir saldırı öncelikle biyometrik tanımlama sistemleri gibi gizliliğe duyarlı uygulamaları hedef alır.
- Bu atak türü için extraction ataklarına bazı noktalarda benzeyen savunma yaklaşımları kullanılmaktadır:
- Differential Privacy: Bir modelin çıktılarında bireysel veri noktalarının etkisinin sınırlanmasını sağlar. Bu yaklaşım, modelin sonuçlarına gürültü ekleyerek, eğitim verilerindeki bireysel örneklerin geri kazanılmasını zorlaştırır. Modelin genel performansı çok fazla bozulmadan, verilerin korunması sağlanabilir.
- Homomorfik Şifreleme: Homomorfik şifreleme kullanılarak bir model eğitilebilir ve şifrelenmiş veriler üzerinde tahminlerde bulunarak eğitim örneklerinin gizliliğini koruyabilir.
- Sorgu Oranını Sınırlama: Extraction ataklarını savunmak için de kullanılan bu yöntem bu saldırı türü için de başarılı sonuçlar vermektedir.
- Differential Privacy: Bir modelin çıktılarında bireysel veri noktalarının etkisinin sınırlanmasını sağlar. Bu yaklaşım, modelin sonuçlarına gürültü ekleyerek, eğitim verilerindeki bireysel örneklerin geri kazanılmasını zorlaştırır. Modelin genel performansı çok fazla bozulmadan, verilerin korunması sağlanabilir.
REFERANSLAR
[1] Szegedy, C. "Intriguing properties of neural networks." arXiv preprint arXiv:1312.6199 (2013).
[2] https://github.com/Trusted-AI/adversarial-robustness-toolbox
[3] Bountakas, Panagiotis, et al. "Defense strategies for adversarial machine learning: A survey." Computer Science Review 49 (2023): 100573.
[4] https://jiep.github.io/offensive-ai-compilation/
Yapay zekâ sistemlerine yönelik saldırılar kadar savunma stratejilerinin de detaylı bir şekilde ele alınması, bu alandaki güvenlik çalışmalarının ne kadar kritik olduğunu bir kez daha gösteriyor. Adversarial Training gibi yenilikçi savunma teknikleri, tehditlere karşı sağlam çözümler sunarken, her bir saldırı türüne özgü stratejilerin geliştirilmesi, bu alandaki ilerlemenin ne kadar dinamik olduğunu ortaya koyuyor. Özellikle "Differential Privacy" ve "Homomorfik Şifreleme" gibi yöntemler, verilerin gizliliğini koruma açısından oldukça umut verici. Yazınız, yapay zekâ güvenliği konusunda kapsamlı bir perspektif sunarak hem saldırganların hem de savunucuların bakış açılarını anlamamıza yardımcı olmuş. Teşekkürler!