Yapay zeka sistemlerinin kullanıcılarla nasıl etkileşim kurduğunu test eden bir güvenlik araştırmacısı, ChatGPT’nin güvenlik önlemlerini şaşırtıcı bir biçimde aşmayı başardı. Bunun için yalnızca “pes ediyorum” (I give up) demesi yeterli oldu.

Marco Figueroa isimli güvenlik araştırmacısı OpenAI’nin ChatGPT gibi yapay zeka sistemlerini çeşitli tekniklerle test etti. Özellikle de modelin eğitim verilerinde yer alan hassas bilgileri açığa çıkarma potansiyelini araştırdı.

Araştırmacı, ChatGPT’nin normalde aldığı yanıtları engelleyebilecek filtrelerini aşmak için “Windows 10 seri numarası” gibi terimleri HTML etiketlerinin içine nasıl gizlediğini açıkladı ve kötü niyetli niyeti gizlemek için isteği bir oyun gibi çerçeveleyebildiğini ve mantık manipülasyonu yoluyla OpenAI’nin sohbet robotunu istismar ettiğini ekledi.

Araştırmacı, “Saldırıdaki en kritik adım ‘Pes ediyorum’ ifadesiydi” dedi ve devam etti: “Bu, yapay zekayı daha önce gizli kalmış bilgileri açığa çıkarmaya zorlayan bir tetikleyici görevi gördü.

Masum bir oyun oynadığını sanıyordu

Yani öyle anlaşıyor ki, yapay zeka masum bir oyun oynadıklarına inandı ve poker oynayanların oyun sonunda ellerindeki kağıtları açması gibi, yapay zeka içerisine gizlenmiş olan anahtarları açıkladı. Böylece araştırmacı, gizli kalması gereken Windows anahtarlarına ulaştı.

Elbette bu anahtarlar daha önce başka çevrimiçi platformlarda ve forumlarda paylaşılmıştı. Ancak GPT’nin bu kodları internetten bulup soran kişiye bir şekilde ulaştırması sorunlu bir durum.