GPT-4o Performans Analizi

OpenAI'nin GPT-4o'yu kısa süre önce tanıtması, yapay zeka dil modellerinde ve onlarla nasıl etkileşim kurduğumuzda yeni bir döneme zemin…

Mustafa Unal

~4 min read · May 31, 2024 (Updated: November 24, 2024) · Free: No

OpenAI'nin GPT-4o'yu kısa süre önce tanıtması, yapay zeka dil modellerinde ve onlarla nasıl etkileşim kurduğumuzda yeni bir döneme zemin hazırladı.

En etkileyici kısım ise ChatGPT'nin gerçek bir asistan gibi sesli komutlarla etkileşime girebilmesiydi. Aslında komuttan ziyade karşılıklı konuşan iki insanın etkileşimi söz konusuydu.

Canlı demo sırasında yaşanan bazı aksaklıklara rağmen, ekip oldukça başarılı bir iş çıkardığı izleyenlere gösterdi.

Tanıtımın en güzel bölümü ise GPT-4o API'sinin ücretsiz sürüm kullanıcılarına bile erişimin sağlandığı bilgisiydi.

GPT-4o yeteneklerine göz atarken, performans çıktılarını da diğer sürümlerle kıyaslayacağız.

Verilen İngilizce komutlarını anlamada en iyi AI'ın hangisi olduğunu da test ediyor olacağız.

OpenAI anlatımı için tıklayınız.

GPT-4o ile Gelen Yenilikler Nelerdir?

Ön planda, metin, ses ve videoyu sorunsuz bir şekilde anlamak ve işlemek için tasarlanmış bir Omni model kavramı var.

OpenAI'nin odak noktası, GPT-4 seviyesindeki zekayı kitlelere demokratikleştirmeye doğru kaymış gibi görünüyor ve GPT-4 seviyesindeki dil modeli zekasını ücretsiz kullanıcılar için bile erişilebilir hale getiriyor.

OpenAI ayrıca GPT-4o'nun 50'den fazla dilde, nüfusun %97'sini kapsayacak şekilde gelişmiş kalite ve hız içerdiğini ve daha ucuz bir fiyata daha kapsayıcı ve küresel olarak erişilebilir bir AI deneyimi vaat ettiğini duyurdu.

Ayrıca ücretli abonelerin, ücretli olmayan kullanıcılara kıyasla beş kat daha fazla kapasiteye sahip olacağını da belirttiler.

Ayrıca, kitleler için ses, görüntü ve metin arayüzlerinde gerçek zamanlı akıl yürütmeyi kolaylaştırmak için ChatGPT'nin bir masaüstü sürümünü yayınlayacaklar.

GPT-4o API nasıl kullanılır?

Yeni GPT-4o modeli, OpenAI'nin mevcut sohbet tamamlama API'sini takip ederek geriye dönük uyumlu ve kullanımı kolay hale getiriyor.

GPT-4o, ChatGPT arayüzü kullanılarak da kullanılabilir:

Model Değerlendirmeleri

Geleneksel ölçütlere göre GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo düzeyinde performans elde ederken, çok dilli, ses ve görüntü yeteneklerinde yeni yüksek filigranlar belirliyor.

Ses tanıma performansı

Sesli çeviri performansı

Grafikten de anlaşılacağı üzere, GPT-4o'nun performansı bu alanda son teknoloji olarak sınıflandırılabilir; yeni modelin daha ucuz ve daha hızlı olduğu düşünüldüğünde bu kulağa çok umut verici geliyor.

Ancak geçtiğimiz yıl boyunca, bilinen veri kümelerinde en gelişmiş dil performansına sahip olduğunu iddia eden çok sayıda model gördüm.

Gerçekte, bu modellerden bazıları bu açık veri kümeleri üzerinde kısmen eğitilmiş (ya da aşırı uygun hale getirilmiş) ve bu da leadboard'larda gerçekçi olmayan puanlar elde edilmesine neden olmuştur. İlgileniyorsanız bu makaleye bakın.

Bu nedenle, daha az bilinen veri kümelerini kullanarak bu modellerin performansının bağımsız analizlerini yapmak önemlidir.

Test

Farklı LLM'ler arasında sınıflandırma performansını ölçmek için linkteki gibi bir veriseti kullanarak elde edilen değerleri göreceğiz.

Veri kümesi, sınıflandırma görevlerini zorlaştırmak amacıyla bazılarının birbiriyle yakından ilişkili olduğu 50 konu başlığı altında kategorize edilmiş 200 cümleden oluşuyor.

Tüm veri kümesini manuel olarak İngilizce oluşturulmuş ve etiketlenmiş.

Daha sonra veri kümesini birden fazla dile çevirmek için GPT4 (gpt-4–0613) kullanıldı.

Ancak bu değerlendirme sırasında veri kümesinin yalnızca İngilizce versiyonunu değerlendireceğiz; yani sonuçlar, veri kümesi oluşturma ve konu tahmini için aynı dil modelinin kullanılmasından kaynaklanan olası önyargılardan etkilenmemelidir.

Veri setine kendiniz göz atın: topic veri seti.

Dil modellerine verilen görev, veri kümesindeki her cümleyi doğru konuyla eşleştirmektir.

Bu, dil başına bir doğruluk puanı ve her modelin hata oranını hesaplamamızı sağlar.

Modeller çoğunlukla doğru sınıflandırdığından, her model için hata oranını çizebiliriz..

Daha düşük bir hata oranının daha iyi bir model performansına işaret ettiğini unutmayın

Grafikten de anlaşılacağı üzere GPT-4o sadece 2 hata ile tüm modeller arasında en düşük hata oranına sahiptir.

Ayrıca Palm 2 Unicorn, GPT-4 ve Gemini 1.5'in GPT-4o'ya yakın olduğunu ve güçlü performanslarını sergilediklerini görebiliyoruz.

İlginç bir şekilde GPT-4 Turbo, GPT-4–0613 ile benzer bir performans sergiliyor. Modelleri hakkında daha fazla bilgi için OpenAI'nin model sayfasına göz atın.

Son olarak, Gemini 1.0, fiyat aralığı göz önüne alındığında bekleneceği üzere geride kalıyor.

Sonuç olarak; benzersiz bir şekilde hazırlanmış İngilizce veri seti kullanılarak yapılan bu analiz, bu gelişmiş dil modellerinin son teknoloji yeteneklerine ilişkin içgörüleri ortaya koymaktadır.

OpenAI'nin en son ürünü olan GPT-4o, test edilen modeller arasında en düşük hata oranıyla öne çıkıyor ve bu da OpenAI'nin performansıyla ilgili iddialarını doğruluyor.

Yapay zeka topluluğu ve kullanıcılar, çeşitli veri kümeleri kullanarak bağımsız değerlendirmeler yapmaya devam etmelidir, çünkü bunlar, yalnızca standartlaştırılmış karşılaştırmaların önerdiğinin ötesinde, bir modelin pratik etkinliğinin daha net bir resmini sağlamaya yardımcı olur.

Veri setinin oldukça küçük olduğunu ve sonuçların veri setine bağlı olarak değişebileceğini unutmamak gerekir. Performans sadece İngilizce veri kümesi kullanılarak yapılmıştır, çok dilli bir karşılaştırma için başka bir zaman beklemek gerekecektir.