Her yıl dünyanın en zeki gençlerini bir araya getiren Uluslararası Matematik Olimpiyatları (IMO), bu yıl bir ilke sahne oldu. Google DeepMind’ın geliştirdiği yapay zekâ modeli Gemini Deep Think, yarışmaya insan katılımcılarla aynı kurallar altında katıldı ve altın madalya kazandı. Bu başarıyı, OpenAI gibi firmaların daha esnek değerlendirme yöntemleriyle değil, IMO’nun resmi kurallarına sadık kalarak elde etti.

Yeni nesil yapay zeka: Deep Think

Geçtiğimiz yıl AlphaProof ve AlphaGeometry 2 ile yarışmaya katılan DeepMind, bu yıl yeni bir modelle geldi: Gemini Deep Think. Bu model, klasik doğrusal düşünce sistemleri yerine, aynı anda birden fazla akıl yürütme yolunu analiz edip, en mantıklı olanı seçebilen paralel düşünce mekanizmasıyla dikkat çekiyor.

DeepMind ekibine göre bu, önceki nesil modellere göre büyük bir paradigma değişimi. Artık bir uzmanın soruyu özel matematiksel dile çevirmesine gerek kalmadan, model doğal dille verilen problemi anlayıp çözebiliyor.

Matematiksel düşünmede yeni bir seviye

Geçmişte LLM’lerin (büyük dil modellerinin) matematikte başarılı olabilmesi için genellikle sadece doğru cevaba ulaşmaları yeterliydi. Ancak IMO gibi yarışmalarda önemli olan yalnızca sonuç değil, o sonuca nasıl ulaşıldığını adım adım göstermek. Google, bu zorluğu aşmak için modelini uzun, açıklamalı çözümler üretmeye odaklı yeni pekiştirmeli öğrenme teknikleriyle eğitti.

DeepMind kıdemli bilim insanı Thang Luong, bu yöntemle sağlam ve tutarlı düşünme yolları geliştirdiklerini vurguluyor.

Yarışma gerçek şartlar altında gerçekleşti

Deep Think, tıpkı insan yarışmacılar gibi, problemleri doğal dilde aldı ve çözümleri yine doğal dille sundu. Üstelik, her yarışmacıya tanınan 4,5 saatlik süre içinde çalıştı. Bu yönüyle, daha önce Gemini uygulamasında gördüğümüz hızlı ama yüzeysel yanıtların aksine, çok daha derinlikli bir analiz süreci işletildi.

İleri eğitim ve akıllı çözümler

DeepMind araştırmacılarının dikkat çektiği bir diğer nokta ise, modelin yalnızca doğru cevabı bulması değil, çözüm sürecinde gösterdiği “zekice yaklaşımlar.” Örneğin, katılımcıların çoğu bir soruda ileri düzey bir matematik teoremini kullanırken, Deep Think aynı sonuca temel sayı teorisiyle ulaşmayı başardı. Brown Üniversitesi’nden araştırmacı Junehyuk Jung’a göre, bu gözlem modelin derin içgörü yeteneğini ortaya koyuyor.

Tek yanlış, en zor soru

Deep Think sadece bir soruda başarısız oldu. Bu soruda model yanlış bir varsayımla yola çıktı ve çözüm yolu baştan hatalı oldu. Ancak bu soruyu tüm yarışmacılar arasında yalnızca beş kişi doğru yanıtladı. Yani model, en zorlu soruda bile rekabetçi bir düzeydeydi.

Değerlendirme gerçek IMO kurallarına göre yapıldı

Google, Deep Think’in değerlendirmesinin IMO organizasyonu tarafından, resmi prosedürlere uygun biçimde yapıldığını belirtiyor. Bu, OpenAI’nin yaklaşımından farklı. OpenAI ise değerlendirmeyi eski IMO katılımcılarından oluşan bir jüriyle gerçekleştirmişti. Google’a göre bu, sonucu doğrudan etkileyebilir.

Gelecekte ne var?

Şu an Deep Think’in özel sürümü, güvenilir test uzmanları tarafından deneniyor. Modelin, aylık 250 dolar ödeyen Google AI Ultra abonelerine sunulması planlanıyor. DeepMind ise önümüzdeki yıl daha da gelişmiş bir sürümle yarışmaya dönmeyi ve tam puan hedeflemeyi amaçlıyor.