Bu yazımda Microsoft ve Grok'da bulduğum zafiyetten bahsettim ve Claude gelecekte yerimi alabilir mi sorusunu irdeledim. Biraz AI karşıtlığı içerdiği için yazının %100 insan emeği olmasına dikkat ettim.
Geçtiğimiz senelerde bana bir zafiyet bildirimi geldi ve bu bildirimde güvenliğinden sorumlu olduğum bir web uygulamasına PDF yüklenebiliyordu ve bu PDF'in içerisinde XSS çalıştırılabiliyordu. Stored XSS in PDF Viewer olarak isimlendirilen bu zafiyet oluşması ve tespit etmesi en kolay zafiyetlerden biri yani Script kiddie seviyesinde diye tabir ettiğimiz seviyede. Tabi içerisine güçlü javascript payload'ları eklenmediği sürece.

Ben de bu zafiyeti kontrol etmek için benzer bir PDF dosyası oluşturdum ve kontrol ettim.
Yazılımcı arkadaşıma düzeltmesi için zafiyet ticket'ını Azure Devops'da açtım ve ekler kısmına yüklediğim bu PDF'in orada da pop-up ile görüntülenebildiğini fark ettim. Azure Devops'da yer alan bu dosyaya her erişen kişi XSS pop-up'ını görebiliyordu.
Eğer web konfigürasyonu doğru yapılandırılmışsa yani güçlü bir CSP politikası mevcutsa XSS zafiyeti (nerede olursa olsun) pratikte ölü veya çok düşük etkili bir zafiyet haline gelir. Buna HttpOnly + Secure + SameSite flag'ları da eklendiğinde özellikle cookie çalma ve session hijacking gibi klasik impact'ler neredeyse imkânsız hale gelir. Konfigürasyonu varsayılanda bırakmamanın önemi bu tür anlarda ortaya çıkıyor işte.
Sonrasında etki olarak yukarıda saydığım sebeplerden dolayı zafiyeti derinleştiremesem de pratikte mevcut olduğu için Microsoft'a bildirdim. Hackerone'da başka yerlerde var mı diye biraz araştırayım istedim çünkü yılların Microsoft'unda birileri manuel olarak tespit etmemiş bu zafiyeti. Sonrasında yılların Grok(xAI) ve Hubspot'unda da olduğunu gördüm. Günün sonunda güçlü bir javascript payload'ım olmadığı için Microsoft ve Grok informative seviyede, Hubspot duplicate olarak kapatıldı.

Güçlü bir javascript payload oluşturmanın zorluğunu bilen ben, zafiyeti bana bildiren kişi, benim zafiyeti bildirdiğim kişiler olarak BİZ bu zorlu koşulları bypass etmenin yollarını araştırmadık bile. Tüm olasılıkları deneyecek zaman ve enerji kimde var peki? İşte tam burada sahneye Claude Mythos çıkıyor.

Claude Mythos ile insanlık arasında kıyaslama yapmadan önce yayınlanmasından bile endişe duyulan yeteneklerinden hızlıca bahsedelim:
- Her büyük işletim sisteminde (Windows, Linux, macOS, FreeBSD, OpenBSD vb.) ve her büyük web tarayıcısında (Chrome, Firefox, Safari vb.) binlerce sıfır-gün güvenlik açığı bulabiliyor. Bunlar arasında 27 yıllık OpenBSD hatası, 16 yıllık FFmpeg hatası ve FreeBSD'de root erişimi sağlayan 17 yıllık remote code execution (uzaktan kod çalıştırma) gibi kritik açıklar
- Bilinen bir açık verildiğinde %72+ başarı oranıyla exploit yazma (önceki modellere göre çok büyük sıçrama)
- "The Last Ones" adlı 32 aşamalı kurumsal ağ ele geçirme simülasyonunda tam ağ ele geçirme (full network takeover) yapabilen ilk model (önceki Claude modelleri 0/10 başarı gösterirken Mythos 3/10 başarı gösterdi)
- Çok az insan müdahalesiyle saatler içinde, insan pentester'ların haftalar sürecek işleri yapabiliyor. Kod yazma, vulnerability scanning, exploit chaining ve post-exploitation aşamalarında çok güçlü.
Şimdi Claude Mythos vs Siber güvenlik uzmanları futbol karşılaşması üzerinden değerlendirilirse
Zaman (Hız) Metriği ⚽ Mythos 1–0 İnsanlık
Enerji (Dayanıklılık) Metriği ⚽ Mythos 2–0 İnsanlık
Yetenek (Sıfır-gün & Exploit Zincirleme) ⚽ Mythos 3–0 İnsanlık
Yetenek (Yaratıcılık & Sezgi) ⚽ Mythos 3–1 İnsanlık

Böyle bir ihtimal kazanabilirmişiz gibi durdu. Bu sebeple basketbol üzerinden değerlendirmek daha doğru bir kıyaslama olur.
Zaman (Hız) Metriği 🏀 Mythos +9 — İnsanlık +2
Enerji (Dayanıklılık) Metriği 🏀 Mythos +4 — İnsanlık +1
Yetenek (Sıfır-gün & Exploit Zincirleme)🏀 Mythos +9 — İnsanlık +2
Yetenek (Yaratıcılık & Sezgi) 🏀 Mythos +1 — İnsanlık +2
FINAL SKOR: Mythos 23 — İnsanlık 7 ile kaybediyoruz. Böyle daha gerçekçi oldu.

Claude'un kurmuş olduğu üstünlük tartışmasız. PEKİ EĞER bir ülke başkanı olsaydınız nükleer silah komuta merkezinizi bir yapay zekaya bırakır mıydınız yoksa güvenebildiğiniz insanlara mı emanet ederdiniz? Siber güvenlikte de benzer bir durum konusu henüz insandan bağımsız hareket edebilecek etik düzeye erişmiş değil.
Peki matrix filmindeki gibi yapay zeka olduğu ayırt edilemeyen Agent Smith gibi "provable safety" (matematiksel olarak kanıtlanabilir güvenlik) seviyesine ulaşmış birine nükleer komuta merkezini emanet eder miydiniz? Sizin cevabınız yine hayır olabilir ama bence kabul edecek ülkeler çıkacaktır. Bilemiyorum gelecek biraz Δx.Δp > h/2
