ChatGPT Neden ‘Bilmiyorum’ Demiyor? Araştırmacılar Açıkladı: Bilgisizlik Değil, Hatalı Eğitim Sistemi Suçlu
ChatGPT gibi üretken yapay zeka (AI) modellerinin, yani gerçekleri uydurması ve yanlış bilgi üretmesi anlamına gelen “halüsinasyon görmesi” sorunu, yeni bir araştırma ile açıklığa kavuştu. Araştırmacılar, algoritmaların bu durumu tamamen eğitilme biçimleriyle ilgili olduğunu ve modellerin bilgi eksikliğini kabul etmek yerine tahmin yürütmeyi tercih etmeleri üzerine yapılandırıldığını saptadı. Bu durum, halüsinasyonun, yapay zeka teknolojisindeki hızlı gelişmelere rağmen en yeni modellerde bile neden bir sorun olmaya devam ettiğini açıklıyor.
Halüsinasyonun Asıl Nedeni: Yanlış Teşvikler
Halüsinasyon, özellikle ChatGPT gibi konuşma becerileri yüksek modellerde büyük bir endişe kaynağıdır. Çünkü, bu modeller uydurdukları yanlış bilgileri izleyiciye kendilerinden çok emin bir şekilde sunma eğilimi gösterirler. Bu özellik, teknolojinin tıp ve hukuk gibi kritik alanlarda giderek daha fazla kullanılması nedeniyle sektördeki uzmanları, yapay zeka halüsinasyonuyla mücadele etmek için derinlemesine araştırma yapmaya ve acil eylemler almaya zorluyor.
ChatGPT‘nin geliştiricisi OpenAI‘dan araştırmacıların yürüttüğü yeni bir çalışmada, yapay zeka halüsinasyonuna hatalı eğitim verileri veya modelin karmaşıklığı gibi çeşitli faktörler katkıda bulunsa da, asıl nedenin algoritmaların “yanlış teşviklerle” çalışması olduğu belirtildi. Araştırmacılar, mevcut değerlendirme sistemlerinin model performansını, belirsizlik karşısında dürüst davranmak yerine tahmin yürütmeyi teşvik eden bir şekilde ölçtüğünü açıkladılar.
Boş Bırakmak Yerine Kafadan Atmak: Çoktan Seçmeli Test Benzetmesi
OpenAI araştırmacıları, durumu çarpıcı bir benzetmeyle açıklıyor: “Bu, bir öğrencinin çoktan seçmeli bir testte boş bırakmak puan getirmediği için kafadan atmasına benziyor.” Aynı mantıkla, yapay zeka modelleri yalnızca doğruluk (tam olarak doğru cevapladıkları soru yüzdesi) üzerinden puanlandığında, ‘Bilmiyorum’ demek yerine tahminde bulunmaya teşvik ediliyorlar. Bu nedenle, modelin bilgi eksikliğini dürüstçe itiraf etmesi, mevcut puanlama sistemi tarafından cezalandırılıyor gibi algılanıyor.
Yapay zeka modelleri, temel olarak büyük metin bloklarında bir sonraki kelimeyi tahmin etme süreciyle öğrenirler. Bazen tutarlı kalıplar oluşsa da, eğitim verilerinin çoğu durumda rastgele olabilmesi, belirsizlik alanları yaratır. Halüsinasyon, yapay zeka modellerine bilgi eksikliği veya belirsizlik gibi nedenlerle cevabı kesin olmayan sorular sorulduğunda en yaygın görülen durumdur. Bu tip belirsizliklerle dolu sorularda, modeller stratejik tahminler yürütmeyi bir yöntem olarak benimserler. Her ne kadar bu, zamanla daha fazla veri elde ettikçe doğruluklarını artırabilecek bir strateji olsa da, aynı zamanda hata ve halüsinasyon oranlarını da yükseltmektedir.
Çözüm Yolu: Değerlendirme Metriklerinin Güncellenmesi
Araştırmacılar, bu sorunun basit bir çözümünün olabileceğini öne sürüyorlar. Temelde, yapay zeka modellerinin belirsizlikten ziyade “kendinden emin hatalarını” cezalandırmak ve belirsizlik uygun bir şekilde ifade edildiğinde az da olsa puan vermek, bu sorunu bir dereceye kadar hafifletebilir. Bu öneri, bilmeden yapılan tahminleri caydırmak için yanlış cevaplara eksi puan, boş bırakılan sorulara ise az da olsa puan verilen standart test sistemlerine benzemektedir.
Sonuç olarak, araştırmacılar üretken yapay zeka için “yaygın olarak kullanılan, doğruluk temelli değerlendirmelerin güncellenmesi” ve puanlamanın tahmin yürütmekten caydıracak hale gelmesi gerektiğini savunuyorlar. Bu köklü değişiklik, halüsinasyonların bastırılmasının önündeki en büyük engelleri kaldırabilir ve nüanslı dil modelleri üzerine gelecekteki çalışmalara yeni bir kapı açabilir.

