Anthropic, Claude Fable 5'teki Jailbreak Açıklarını Yeni Güvenlik Katmanıyla Kapattı
Anthropic, küresel erişime yeniden açtığı Claude Fable 5 modeli için siber güvenlik sınıflandırıcılarını güncelleyerek jailbreak girişimlerini %99 oranında engelledi.

Yapay zeka güvenliği konusunda öncü adımlar atan Anthropic, özellikle yazılım geliştirme kapasitesiyle dikkat çeken Claude Fable 5 modelini, ABD'nin ihracat kontrol kısıtlamalarının ardından 1 Temmuz 2026 itibarıyla yeniden küresel erişime açtı. Ancak modelin yeniden yayına alınması, beraberinde gelişmiş bir güvenlik güncellemesini de getirdi.
Siber Güvenlik Sınıflandırıcısı ve Jailbreak Engelleme
Modelin yeniden dağıtımı sürecinde Anthropic, Amazon tarafından rapor edilen kritik 'jailbreak' (güvenlik duvarlarını aşma) girişimlerine karşı yeni bir siber güvenlik sınıflandırıcısı devreye aldı. Şirketten yapılan resmi açıklamalara göre, bu yeni framework sayesinde manipülasyon girişimlerinin %99'undan fazlası başarıyla engellenebiliyor. Bu sistem, kullanıcıların karmaşık rol yapma senaryoları veya prompt mühendisliği teknikleriyle modelin etik sınırlarını zorlamasını önlemeyi hedefliyor.
Güvenlik ve Performans Dengesi: Yanlış Pozitifler
Yeni güvenlik filtrelerinin başarısı, beraberinde teknik bir yan etkiyi de getirdi. Siber güvenlik sınıflandırıcısının aşırı hassas çalışması, rutin kodlama işlemleri sırasında daha fazla 'false positive' (yanlış pozitif) durumuna yol açabiliyor. Bu durum, tamamen zararsız olan bazı kod bloklarının sistem tarafından yanlışlıkla 'riskli' olarak işaretlenmesi ve engellenmesi anlamına geliyor. Anthropic, güvenlikten ödün vermeden bu yanlış tespitleri minimize etmek için optimizasyon çalışmalarına devam ediyor.
Anayasal Yapay Zeka ve Sektörel İş Birlikleri
Anthropic, güvenlik stratejisini geliştirmek için sadece kendi iç mekanizmalarını kullanmıyor. Şirket; Amazon, Microsoft ve Google gibi sektör devleriyle birlikte, jailbreak vakalarının ciddiyetini ölçmek için endüstri genelinde standart bir skorlama framework'ü geliştirmeyi teklif etti. Bu yaklaşım, Constitutional AI (Anayasal Yapay Zeka) prensipleri çerçevesinde, modellerin sadece yasaklarla değil, belirli bir etik anayasa ile yönetilmesini öngörüyor.
Özellikle düzenlemeye tabi sektörlerdeki kullanımı artırmak isteyen şirket, bu güvenlik katmanlarını DXC ve TCS gibi global sistem entegratörleri aracılığıyla bankacılık ve havacılık gibi kritik altyapılara entegre etmeyi planlıyor.
