Yeni bir araştırmaya nazaran, büyük lisan modellerinin (LLM) bir kullanıcının sorusuna yanlış karşılık verme mümkünlüğü, yanıtı bilmediğini kabul etme olasılığından daha yüksek ve bu da onları daha az sağlam yapıyor.
Euronews’in haberine nazaran, İspanya’daki Universitat Politecnica de Valencia’dan yapay zeka (AI) araştırmacıları, BigScience’ın BLOOM, Meta’nın Llama ve OpenAI’nin GPT’sinin en son sürümlerini, her modele matematik, fen ve coğrafya üzerine binlerce soru sorarak doğruluk açısından test etti.
Araştırmacılar her bir modelin verdiği karşılıkların kalitesini karşılaştırdı ve bunları yanlışsız, yanlış ya da kaçıngan karşılıklar olarak sınıflandırdı.
Nature mecmuasında yayınlanan çalışmada, her yeni modelle birlikte daha kuvvetli sorunlarda yanlışsız yanıtların arttığı görüldü. Yeniden de modeller, bir soruyu hakikat yanıtlayıp yanıtlayamadıkları konusunda daha az şeffaf olma eğilimindeydi.
Daha evvelki LLM modelleri yanıtları bulamadıklarını ya da bir karşılığa ulaşmak için daha fazla bilgiye gereksinim duyduklarını belirtirken, yeni modellerin varsayım etme ve kolay sorulara bile yanlış yanıtlar üretme mümkünlüğü daha yüksekti.
TEMEL SORUNLARI ÇÖZMEDE BESBELLİ BİR GELİŞME YOK
LLM’ler, bilgi setlerini anlamak, varsayım etmek ve bunlara dayalı yeni içerikler üretmek için yapay zekayı kullanan derin öğrenme algoritmaları olarak biliniyor.
Yeni modeller daha karmaşık meseleleri daha gerçek bir biçimde çözebilirken, çalışmadaki LLM’ler temel soruları yanıtlarken hala birtakım yanlışlar yapıyor.
Araştırmaya nazaran, çok düşük zorluk düzeylerinde bile tam güvenilirlik elde edilemiyor. Modeller son derece kuvvetli örnekleri çözebilseler de, çok kolay örneklerde de başarısız oluyorlar.
OpenAI’nin GPT-4’ünde de tıpkı durum görülüyor; “kaçıngan” yanıtların sayısı bir evvelki model olan GPT-3.5’e nazaran değerli ölçüde düştü.
Çalışmanın muharrirleri, “Bu durum, daha yeni LLM’lerin kendi çalışma aralıkları dışında karşılık vermekten daha başarılı bir biçimde kaçınacağı beklentisiyle uyuşmuyor,” dedi.
Araştırmacılar daha sonra, teknoloji ölçeklendirilmiş olsa bile modeller için “belirgin bir gelişme olmadığı” sonucuna vardı.