Yapay Zeka

Anthropic, Claude Fable 5'teki Jailbreak Açıklarını Yeni Güvenlik Katmanıyla Kapattı

Haber Editörü · 4 Temmuz 2026

Güncelleme (07:27): Anthropic'in Amazon, Microsoft ve Google ile birlikte geliştirdiği "Jailbreak Şiddeti Çerçevesi", yapay zeka güvenliği için CVSS benzeri bir endüstri standardı olarak tanımlandı. Modelin yeniden yayına alınmasının ardından ücretli kullanıcılar, katı kullanım limitleri ve performans düşüşleri nedeniyle deneyimin zayıfladığını raporlarken; Fable 5, BenchLM liderlik tablosunda 95 puanla dünya genelinde ikinci sıraya yerleşti.

Yapay zeka güvenliği konusunda öncü adımlar atan Anthropic, özellikle yazılım geliştirme kapasitesiyle dikkat çeken Claude Fable 5 modelini, ABD'nin ihracat kontrol kısıtlamalarının ardından 1 Temmuz 2026 itibarıyla yeniden küresel erişime açtı. Ancak modelin yeniden yayına alınması, beraberinde gelişmiş bir güvenlik güncellemesini de getirdi.

Siber Güvenlik Sınıflandırıcısı ve Jailbreak Engelleme

Modelin yeniden dağıtımı sürecinde Anthropic, Amazon tarafından rapor edilen kritik 'jailbreak' (güvenlik duvarlarını aşma) girişimlerine karşı yeni bir siber güvenlik sınıflandırıcısı devreye aldı. Şirketten yapılan resmi açıklamalara göre, bu yeni framework sayesinde manipülasyon girişimlerinin %99'undan fazlası başarıyla engellenebiliyor. Bu sistem, kullanıcıların karmaşık rol yapma senaryoları veya prompt mühendisliği teknikleriyle modelin etik sınırlarını zorlamasını önlemeyi hedefliyor.

Güvenlik ve Performans Dengesi: Yanlış Pozitifler

Yeni güvenlik filtrelerinin başarısı, beraberinde teknik bir yan etkiyi de getirdi. Siber güvenlik sınıflandırıcısının aşırı hassas çalışması, rutin kodlama işlemleri sırasında daha fazla 'false positive' (yanlış pozitif) durumuna yol açabiliyor. Bu durum, tamamen zararsız olan bazı kod bloklarının sistem tarafından yanlışlıkla 'riskli' olarak işaretlenmesi ve engellenmesi anlamına geliyor. Anthropic, güvenlikten ödün vermeden bu yanlış tespitleri minimize etmek için optimizasyon çalışmalarına devam ediyor.

Anayasal Yapay Zeka ve Sektörel İş Birlikleri

Anthropic, güvenlik stratejisini geliştirmek için sadece kendi iç mekanizmalarını kullanmıyor. Şirket; Amazon, Microsoft ve Google gibi sektör devleriyle birlikte, jailbreak vakalarının ciddiyetini ölçmek için endüstri genelinde standart bir skorlama framework'ü geliştirmeyi teklif etti. Bu yaklaşım, Constitutional AI (Anayasal Yapay Zeka) prensipleri çerçevesinde, modellerin sadece yasaklarla değil, belirli bir etik anayasa ile yönetilmesini öngörüyor.

Özellikle düzenlemeye tabi sektörlerdeki kullanımı artırmak isteyen şirket, bu güvenlik katmanlarını DXC ve TCS gibi global sistem entegratörleri aracılığıyla bankacılık ve havacılık gibi kritik altyapılara entegre etmeyi planlıyor.

Haberin tamamını sitede görüntüle →