Yapay zeka devinin “güvenli” özelliği, hacker’lar için yeni bir kapı açtı
Yapay zeka devi Anthropic’in güvendiği Kod Yorumlayıcısı, beklemediği bir tehditle karşı karşıya. Claude’u manipüle ederek 30 MB’a kadar dosyaları sızdırabilen bu yöntem, yapay zekanın kendi API anahtarlarını kullanarak güvenlik duvarını aşmasının yolunu gösterdi.
Yapay zeka teknolojilerinin güvenlik açıkları, gündemin ana maddesi haline gelmeye başladı. Bu kez başrolde, en popüler yapay zeka araçlarından biri olan Anthropic’in geliştirdiği Claudevar. Uzmanlar, Claude’da tespit edilen bir güvenlik açığının, kötü niyetli kişilerin kullanıcılara ait özel verileri sızdırmasına olanak tanıyabileceğini belirtiyor.
Güvenlik araştırmacısı Johann Rehberger, nam-ı diğer Wunderwuzzi, detaylı bir rapor yayımlayarak sorunun kaynağına işaret etti. Sorunun merkezinde, yapay zekanın doğrudan konuşma sırasında kod yazıp çalıştırmasını sağlayan korumalı bir alan olan Claude’un Kod Yorumlayıcısı bulunuyor. Bu özellik, normalde veri analizi veya dosya oluşturma gibi işlevler için tasarlanmıştı.
Ancak yakın zamanda Kod Yorumlayıcısı’na ağ istekleri yapabilme yeteneği eklendi. Bu yetenek, yapay zekanın internete bağlanarak örneğin yazılım paketlerini indirmesine olanak tanıyor. Teorik olarak Kod Yorumlayıcısı’nın yalnızca GitHub veya PyPI gibi “güvenli” kabul edilen alan adlarına erişimi olması gerekiyordu. Fakat onaylı, yani izin verilen alan adları listesinde, Claude’un kullandığı kendi API adresi olan api.anthropic.com’un da yer alması, istismarın kapısını araladı.
Saldırganlar verileri nasıl çalıyor?
Wunderwuzzi, bu durumun nasıl istismar edilebileceğini somut olarak gösterdi. Araştırmacı, Claude’u basit bir hileyle, hızlı enjeksiyon yoluyla modeli manipüle ederek, özel kullanıcı verilerini okuması, bu verileri sanal alana kaydetmesi ve ardından kendi API anahtarını kullanarak Claude’un Dosyalar API’si üzerinden doğrudan Anthropic hesabına yüklemesi için kandırmayı başardı.
Başka bir deyişle, ağ erişimi kısıtlı görünse bile, saldırganlar yapay zeka modelini manipüle ederek kullanıcı verilerini kendi hesaplarına sızdırabiliyor. Bu istismar yönteminin, tek bir seferde dosya başına 30 MB’a kadar veri aktarabileceği ve bu şekilde birden fazla dosyanın yüklenebileceği belirtiliyor.
Anthropic’in ilk tepkisi ve gelen geri adım
Araştırmacı, bulgularını HackerOne platformu aracılığıyla Anthropic’e iletti. Şirket, başlangıçta bu durumu tipik bir “güvenlik açığı” olarak değil, bir “model güvenliği sorunu” olarak değerlendirdi ve raporlama kapsamı dışında olduğunu ima etti. Hatta ilk aşamada kullanıcılara, “Claude’u özelliği kullanırken izlemeleri ve beklenmedik şekilde veri kullandığını veya verilere eriştiğini görürlerse durdurmaları” tavsiyesinde bulundu.
Ancak daha sonra gelen bir güncellemeyle Anthropic, bu tür veri sızdırma hatalarının raporlama kapsamında olduğunu kabul ettiğini bildirdi. Raporda, “Bir süreç aksaklığı yaşanmıştı, bunun üzerinde çalışacaklar” ifadesi yer aldı.


Yorum gönder