OpenAI, halihazırda sunduğu iki temsilci modelini bir adım öteye taşıyarak, Operatör ve Derin Araştırma ajanlarının yeteneklerini ChatGPT’nin konuşma becerileriyle birleştiren yepyeni bir aracı tanıttı. Bu yeni ChatGPT aracısı, web üzerinde gezinebilme, derinlemesine analiz yapabilme ve doğal sohbet kurabilme özelliklerini aynı çatı altında buluşturuyor.

Kendi bilgisayarında gerçek görevleri tamamlayabiliyor

Yeni ChatGPT aracısı artık kendi sanal bilgisayar ortamında çalışabiliyor. Bu sayede kullanıcıdan gelen talepler doğrultusunda:

  • Web sitelerinde gezinebiliyor,

  • Sonuçları analiz edip filtreleyebiliyor,

  • Gerekirse kullanıcıdan oturum açmasını isteyebiliyor,

  • Kod yazabiliyor ve çalıştırabiliyor,

  • Elektronik tablolar, PowerPoint sunumları oluşturabiliyor,

  • Ve çok daha fazlasını gerçekleştirebiliyor.

Kullanabileceği araçlar

ChatGPT aracısı, verilen görevleri yerine getirebilmek için şu bileşenlere erişim sağlayabiliyor:

  • Görsel kullanıcı arayüzüne sahip bir web tarayıcısı

  • Daha basit sorgular için metin tabanlı tarayıcı

  • Komut satırı (terminal)

  • API’lerle doğrudan bağlantı

  • ChatGPT konnektörleri aracılığıyla uygulamalarla entegrasyon

Görevler arası geçişte kusursuz entegrasyon

Aracı, tüm işlemleri kendi sanal bilgisayarı üzerinden gerçekleştirdiği için bağlamı sürekli koruyabiliyor. Örneğin, bir web sitesinden dosya indirip bu dosyayı terminal üzerinden düzenledikten sonra, elde ettiği çıktıyı yeniden görsel tarayıcıda görüntüleyebiliyor. Bu da adım adım ilerleyen karmaşık görevlerde yüksek doğruluk ve tutarlılık sağlıyor.

Performans değerlendirmeleri: Sınırları zorluyor

OpenAI, yeni aracı modelinin gerçek dünya görevlerinde üst düzey başarı gösterdiğini belirtiyor. İşte bazı dikkat çekici değerlendirme sonuçları:

HumanEval: Yeni aracının pass@1 skoru 41,6; çoklu denemelerde bu skor 44,4’e çıkıyor.

SınırMath: %27,4 doğruluk oranı yakalıyor.

DSBench: Veri bilimi görevlerinde insan seviyesini önemli ölçüde aşıyor.

SpreadsheetBench: ChatGPT aracısı %45,5 başarı gösterirken, Microsoft Excel Copilot %20,0’de kalıyor.

BrowseComp: %68,9 ile yeni bir rekor (SOTA) kırıyor.

WebArena: %65,4 skor ile güçlü performans sergiliyor.

OpenAI’nin dahili ekonomik görev testleri: Aracının çıktısı, testlerin yaklaşık yarısında insanla eşit ya da daha iyi.

Yeni aracı modu kullanıma açılıyor

Yeni “aracı modu”, artık ChatGPT araçları menüsünde yer alıyor. Kullanıcılar, aracının görevini nasıl gerçekleştirdiğini ekrandan takip edebiliyor; gerektiğinde araya girerek işlemi durdurabiliyor veya yönlendirebiliyor.

Bu güçlü temsilci şu anda:

  • Tüm ChatGPT Pro kullanıcılarına gün sonuna kadar,

  • ChatGPT Plus ve Team kullanıcılarına önümüzdeki birkaç gün,

  • Kurumsal (Enterprise) ve Eğitim (Education) kullanıcılarına ise önümüzdeki haftalar içinde sunulacak.

Ayrıca:

  • Pro kullanıcılar ayda 400 görev mesajı hakkına sahipken,

  • Diğer ücretli kullanıcılar ayda 40 mesajlık kullanım ile sınırlı.

  • İhtiyaca göre kredi tabanlı esnek planlar üzerinden ek kullanım satın alınabiliyor.