Yapay zeka teknolojilerinin hızla yaygınlaşması, yepyeni güvenlik ihtiyaçlarını da beraberinde getiriyor. Bu doğrultuda OpenAI, ürünlerindeki yapay zeka kötüye kullanımını ve güvenlik risklerini tespit etmek amacıyla halka açık yeni bir Güvenlik Ödül Programı (Safety Bug Bounty) başlattığını duyurdu.
Bugcrowd platformu üzerinden yürütülecek olan bu yeni girişim, geleneksel güvenlik açıklarının kapsamı dışında kalan ancak gerçek dünyada zarar verme potansiyeli taşıyan zafiyetleri gidermeyi hedefliyor. Yapay zeka sistemlerinin oluşturduğu yeni saldırı yüzeylerini anlamak adına bu adım büyük önem taşıyor.
Geleneksel Güvenliği Tamamlayan Bir Adım
Yeni başlatılan program, OpenAI'ın mevcut Güvenlik Ödül Programı'nı tamamlayacak şekilde tasarlandı. Geleneksel bir güvenlik açığı olarak nitelendirilmese bile, ciddi kötüye kullanım riskleri taşıyan bildirimler bu program kapsamında değerlendirilecek. Gelen raporlar, OpenAI'ın Güvenlik ve Emniyet ekipleri tarafından ortaklaşa incelenecek ve ihtiyaca göre iki program arasında yönlendirilebilecek.
Öncelikli Risk Kategorileri
Program, yapay zekaya özgü çeşitli güvenlik senaryolarını hedef alıyor. Araştırmacıların odaklanması beklenen temel alanlar şunlar:
- Ajan Riskleri (Agentic Risks): Üçüncü taraf istem enjeksiyonu ve veri sızdırma senaryolarını kapsar. Saldırganların kontrolündeki metinlerin, Tarayıcı veya ChatGPT Ajanı gibi ürünleri ele geçirerek zararlı eylemler gerçekleştirmesi bu kapsama girer. Bu davranışın en az %50 oranında tekrarlanabilir olması şartı aranıyor.
- Özel Bilgi Sızıntıları: Modellerin yanlışlıkla OpenAI'a ait gizli verileri veya mantıksal işleyişe dair tescilli bilgileri açığa çıkardığı durumlar hedefleniyor.
- Hesap ve Platform Bütünlüğü: Otomasyon karşıtı kontrolleri aşmak, hesap güvenilirlik sinyallerini manipüle etmek veya hesap kısıtlamalarından kaçmak gibi zayıflıklar bu kategoride değerlendiriliyor.
Kapsam Dışı Bırakılan Durumlar
OpenAI, hangi durumların program dışında kalacağını da net bir şekilde belirledi. Yalnızca kaba dil kullanımına yol açan veya zaten kamuya açık olan bilgileri sunan genel kısıtlamaları aşma (jailbreak) yöntemleri kabul edilmeyecek. Kanıtlanabilir bir güvenlik veya kötüye kullanım etkisi olmayan genel içerik politikası ihlalleri de kapsam dışında tutuluyor.
Bununla birlikte şirket, ChatGPT Ajanı ve GPT-5'teki biyolojik risk içerik sorunları gibi belirli zarar türlerini hedefleyen özel ödül kampanyalarını periyodik olarak yürütmeye devam edecek. Yetkisiz erişim sağlayan geleneksel güvenlik açıkları için ise araştırmacıların mevcut Güvenlik Ödül Programı'na başvurmaları isteniyor.
Yorumlar
Düşüncelerinizi paylaşmak ve tartışmaya katılmak için giriş yapın.