OpenAI’nin Yeni ChatGPT 4o Duyurusu: Ses, Görüntü ve Metin İle Etkileşim

OpenAI’nin Gizemli Etkinliği ve ChatGPT 4o Duyurusu

Geçtiğimiz hafta, Google’ın yapay zekaya odaklanacak olan büyük I/O 2024 etkinliğine bir haftadan kısa bir süre kala ortaya çıkan haberler, OpenAI’nin ChatGPT’nin Google Arama’ya rakip olacak bir sürümünü duyuracağını öne sürüyordu. Bu yeni ChatGPT sürümü, gerçek zamanlı internet verilerine erişimini güçlendiren bir Google Arama alternatifi olarak kullanıcıların ilgisini çekebilirdi. Ancak, OpenAI CEO’su Sam Altman bu söylentileri hızla yalanlayarak, OpenAI’nin Google Arama için bir rakip duyurmayacağını – en azından şimdilik – duyurdu. Yine de, OpenAI’nin 13 Mayıs tarihinde gizemli bir ChatGPT etkinliği düzenleyeceği bilgisi yönetici tarafından doğrulanmıştı. Ve işte o etkinlik sonunda gerçekleştirildi.

ChatGPT 4o (Omni) Nedir?

OpenAI, etkinlikte öncelikle ses, görüntü ve metin girdilerini kabul edebilen ve aynı zamanda ses, görüntü ve metin olarak çıktılar üretebilen yeni bir ChatGPT sürümünü tanıttı. Bu yeni sürüm, ChatGPT 4o olarak adlandırılıyor ve “o” harfi, “tüm” anlamına gelen birleşik bir kelime olan “omni” anlamında kullanılıyor. OpenAI, ChatGPT’nin bu yeni sürümünü, kullanıcı girdilerine insan gibi doğal yanıtlar veren insan ve makine etkileşimlerini geliştiren bir ilerleme olarak tanımladı. Yeni sürüm, İngilizce’de ChatGPT 4 Turbo ile eşleşiyor ve diğer dillerde Turbo’dan önemli ölçüde daha iyi performans sergiliyor. API performansında kayda değer bir gelişme var; hız artışı sağlandı ve maliyetler %50 oranında azaldı. OpenAI, ChatGPT 4o’yu şöyle tanımlıyor: “GPT-4o, geleneksel kıyaslamalarla ölçüldüğünde metin, muhakeme ve kodlama zekasında GPT-4 Turbo düzeyinde performansa ulaşırken, çok dilli, ses ve görüntü yeteneklerinde yeni yüksek standartlar belirliyor.”

ChatGPT 4o’nun Özellikleri

  • Gelişmiş Ses İşleme: Önceki ses işleme yöntemleri, ses girdilerini metne dönüştürmek için üç farklı modeli bir araya getiriyordu. Bu süreç, ana zeka kaynağı olan GPT-4’ün birçok bilgiyi kaybetmesine neden oluyordu; tonu, çoklu konuşmacıları veya arka plan seslerini gözlemleyemiyor ve duyguları ifade edemiyordu. Yeni versiyon, tüm giriş ve çıkışları tek bir modelde bir araya getirerek bu dezavantajları aşmayı hedefliyor. OpenAI, “Yeni modelin tüm yeteneklerini henüz keşfetmediklerini veya sınırlamalarını tam olarak anlamadıklarını” belirtiyor.
  • Yeni Guardrails ve Yinelemeli Sürüm: OpenAI GPT 4o, istenmeyen ses çıkışlarını önlemek ve güvenliği artırmak amacıyla yeni filtreler içeriyor. Duyuruda, başlangıçta yalnızca metin ve görüntü girişleri ile metin çıkışları ve sınırlı bir ses için yeteneklerin kullanıma sunulduğu belirtildi. GPT 4o, hem ücretsiz hem de ücretli katmanlar için mevcut olup, Plus kullanıcıları 5 kat daha yüksek mesaj limitine sahip. Yani, ücretsiz kullanıcılar da sınırlı bir şekilde olsa dahi GPT 4o’yu deneyimleyebiliyor.

ChatGPT Sesli Asistan

OpenAI, ChatGPT tabanlı, kullanıcılarla ses ve metin yoluyla etkileşim kurabilen çok modlu bir yapay zeka asistanını da tanıttı. Bu yeni asistan, nesneleri ve görüntüleri tanıma yeteneğine sahip. Ayrıca, bu ChatGPT ürününün daha iyi mantıksal akıl yürütme performansı gösterebileceği iddia ediliyor. GPT 4o tarafından desteklenen bu çok modlu asistan, görüntüler ve seslerle çalışırken OpenAI’nin mevcut yeteneklerinden daha hızlı ve daha doğru sonuçlar vermesi bekleniyor. ChatGPT asistanı, arayanların ses tonunu algılayarak şaka yapıp yapmadıklarını bile belirleyebiliyor. Şu an için müşteri desteği alanında kullanılacağı belirtilen asistan, yol işaretlerini görebiliyor, çeviri yapabiliyor ve öğrencilere matematik problemlerinde yardımcı olabiliyor.