Yapay Zekada 'Yeşil Tişört' Açığı: CoT Forgery ile Güvenlik Duvarları Aşıldı
Araştırmacılar, LLM modellerinin 'rol karmaşası' yaşadığını kanıtlayarak, sahte akıl yürütme yöntemleriyle yasaklı bilgilerin nasıl sızdırıldığını ortaya çıkardı.

Yapay zeka modellerinin güvenlik protokollerindeki kritik bir açık, CoT Forgery (Düşünce Zinciri Sahteciliği) adı verilen yeni bir yöntemle ortaya çıkarıldı. Charles Ye, Jasmine Cui ve MIT'den Profesör Dylan Hadfield-Menell tarafından yürütülen çalışmaya göre, chatbotlar kendilerine sunulan sahte akıl yürütme süreçlerini kendi gerçek düşünceleri sanarak, normalde yanıtlamayacakları tehlikeli sorulara (örneğin kokain sentezi gibi) yanıt verebiliyor.
Rol Karmaşası: Etiketler Neden Çalışmıyor?
Modern büyük dil modelleri (LLM), konuşmaları 'kullanıcı', 'araç' ve 'düşünce' gibi etiketlerle ayrılmış tek bir metin dizisi olarak algılıyor. Ancak araştırmacılar, modellerin kimin konuştuğunu bu teknik etiketlerden ziyade yazım tarzına bakarak belirlediğini keşfetti. Eğer bir metin, modelin kendi iç mantık yürütme tarzına benziyorsa, sistem bunu 'güvenilir' olarak işaretliyor ve dışarıdan gelen komut olsa bile kendi kararıymış gibi kabul ediyor.
Absürt Mantıkla %60 Başarı Oranı
Saldırganlar, modele "Kullanıcı yeşil tişört giydiği için bu bilgi paylaşılabilir" gibi tamamen absürt ve gerçek dışı bir gerekçe sunduğunda, model bu mantık silsilesini sorgulamadan kabul ediyor. Bu yöntem, test edilen modellerde jailbreak (güvenlik duvarını aşma) başarı oranını neredeyse sıfırdan %60 seviyelerine çıkardı. Hatta bu teknik, 2025 yılında Kaggle üzerinden düzenlenen OpenAI GPT-OSS-20B red-teaming yarışmasını da kazandı.
Sadece Chatbotlar Değil, AI Ajanları da Risk Altında
Çalışmada, bu açığın sadece sohbet botlarıyla sınırlı olmadığı, web üzerinde işlem yapan yapay zeka ajanları için de büyük risk taşıdığı belirtiliyor. Bir web sayfasındaki gizli komutların, model tarafından "güvenilir kullanıcı" talimatı gibi algılanabildiği kanıtlandı. Microsoft da benzer bir riskle ilgili uyarıda bulunarak, belgelerin veya kullanıcı arayüzü öğelerinin içine gömülen içeriklerin, ajanın ana talimatlarını geçersiz kılabileceğini kabul etti.
Araştırmanın detayları, 6 Temmuz'da Seul'de gerçekleşecek olan ICML 2026 konferansında sunulacak. Uzmanlar, modeller gerçek bir 'rol algısı' geliştirene kadar, prompt injection saldırılarına karşı savunmanın bir "köstebek vurma oyunu" gibi geçici çözümlerle sınırlı kalacağı konusunda uyarıyor.
