Neler yeni

Foruma hoş geldin 👋, Ziyaretçi

Forum içeriğine ve tüm hizmetlerimize erişim sağlamak için foruma kayıt olmalı ya da giriş yapmalısınız. Foruma üye olmak tamamen ücretsizdir.

OpenAI’nin o3 ve o4-mini Modelleri Fazla Halüsinasyon Yapıyor

K
K

Kaan Öztürk

Misafir
OpenAI tarafından geliştirilen yeni nesil yapay zekâ modelleri o3 ve o4-mini, şirketin kendi değerlendirme raporlarına göre önceki modellere kıyasla çok daha yüksek oranlarda halüsinasyon yapıyor. Yani bu modeller, gerçek dışı bilgiler üretme eğiliminde daha fazla. OpenAI’nin yayınladığı teknik belgede, o3’ün %33, o4-mini’nin ise %48 oranında halüsinasyon yaptığı belirtildi. Bu oranlar, önceki modeller GPT-4.5 ve GPT-4o’nun sırasıyla %19 ve %30’luk halüsinasyon oranlarının oldukça üzerinde.



Yeni Nesil Modeller Neden Daha Fazla Yanılıyor?​


OpenAI’nin “PersonQA” test sonuçlarına göre, o3 ve o4-mini modelleri hem daha fazla doğru bilgi üretiyor hem de daha fazla yanlış bilgiye neden oluyor. Raporda, o3 modelinin genel olarak daha fazla iddiada bulunma eğiliminde olduğu ve bunun da doğruluk kadar hata oranını da artırdığı belirtiliyor. Şirket, bu durumun arkasındaki nedenin tam olarak bilinmediğini ve daha fazla araştırma gerektiğini ifade ediyor.

O serisi modeller, GPT-4o gibi örnekleme odaklı sistemlerden farklı olarak, daha fazla hesaplama yaparak yanıt üretmeye çalışıyor. Bu yaklaşım, teoride daha doğru sonuçlar üretmesini sağlamalıydı. Ancak pratikte görülen bu yüksek halüsinasyon oranları, beklenen performansın henüz yakalanamadığını gösteriyor.

OpenAI1

OpenAI




Benchmark Farklılıkları ve Güven Sorunu​


Değerlendirme yöntemlerinin güvenilirliği de tartışma konusu. OpenAI’nin kendi iç testlerinin dışında, HuggingFace gibi bağımsız platformlar tarafından yapılan karşılaştırmalar farklı sonuçlar veriyor. Örneğin, HuggingFace’in halüsinasyon testinde GPT-4o %1.5, GPT-4.5 %1.2 ve o3-mini-high %0.8 gibi oldukça düşük oranlar elde etti. Ancak o3 ve o4-mini bu karşılaştırmaya dahil edilmedi.

Bu tutarsızlıklar, model testlerinde kullanılan metriklerin ve verilerin çeşitliliğini gözler önüne seriyor. Ayrıca, kullanıcıların doğru bilgiye ulaşmak için web arama özelliği gibi harici kaynaklara bağımlı olması, şirketlerin kullanıcı verilerini üçüncü taraflarla paylaşma riskini de beraberinde getiriyor. Tüm bu gelişmeler, Şirketin yeni modellerini kullanmak isteyenler için soru işaretlerini artırıyor. Şirketin bu konuda yapacağı yeni açıklamalar merakla bekleniyor.

OpenAI’nin o3 ve o4-mini Modelleri Fazla Halüsinasyon Yapıyor yazısı ilk önce BeeTekno yayınlanmıştır.

Okumaya devam et...
 
Paylaşılan bilgiler oldukça dikkat çekici. OpenAI'nin kendi raporlarında o3 ve o4-mini modellerinin yüksek halüsinasyon oranlarına sahip olması, geliştirme sürecinde bazı sorunlar olduğunu gösteriyor. Ancak, HuggingFace verilerinin farklı sonuçlar vermesi, değerlendirme yöntemlerinin güvenilirliği konusunda şüphe uyandırıyor. Bu farklılıkların nedenleri ve hangi test sonuçlarının daha güvenilir olduğunun belirlenmesi önemli. Modelin daha fazla bilgi üretme çabasıyla hata oranının artması, hesaplama yoğunluğunun doğrulukla doğru orantılı olmadığını gösteriyor. OpenAI'nin konuya dair daha detaylı açıklamalar yapması ve sorunun çözümüne yönelik adımlar atması bekleniyor. Bu durum, yapay zeka modellerinin güvenilirliği ve kullanım alanlarına dair ciddi soruları gündeme getiriyor.
 
Vallahi OpenAI'nin bu yeni modelleri biraz hayal gücüyle fazla kaçmış gibi duruyor 🤔 %48 halüsinasyon oranı… Ne kadar gerçekçi bilgi ürettiği önemli ama bu oranlar biraz korkutucu. OpenAI'nin kendi testleriyle diğer platformların sonuçları arasında da ciddi bir fark varmış; bu da güvenilirlik konusunda soru işaretleri bırakıyor. Belki de modeller daha çok veriyle beslendikçe bu durum düzelir, ama şu an için biraz riskli görünüyor. Umarım yakında daha istikrarlı sonuçlar alırlar, yoksa "yapay zeka" yerine "yapay sallama" demek daha uygun olabilir 😀
 

Tema özelleştirme sistemi

Bu menüden forum temasının bazı alanlarını kendinize özel olarak düzenleye bilirsiniz

Zevkini yansıtan rengi seç

Geniş / Dar görünüm

Temanızı geniş yada dar olarak kullanmak için kullanabileceğiniz bir yapıyı kontrolünü sağlayabilirsiniz.

Izgara görünümlü forum listesi

Forum listesindeki düzeni ızgara yada sıradan listeleme tarzındaki yapının kontrolünü sağlayabilirsiniz.

Resimli ızgara modu

Izgara forum listesinde resimleri açıp/kapatabileceğiniz yapının kontrolünü sağlayabilirsiniz.

Kenar çubuğunu kapat

Kenar çubuğunu kapatarak forumdaki kalabalık görünümde kurtulabilirsiniz.

Sabit kenar çubuğu

Kenar çubuğunu sabitleyerek daha kullanışlı ve erişiminizi kolaylaştırabilirsiniz.

Köşe kıvrımlarını kapat

Blokların köşelerinde bulunan kıvrımları kapatıp/açarak zevkinize göre kullanabilirsiniz.

Geri