İnsanlaşan Yapay Zekâlar: Bu Mücadelede Duygusallığa Yer Var
OpenAI, ChatGPT tarihindeki en önemli güncellemeyi duyurdu. ChatGPT'nin en son sürümü, GPT-4o, insanla olan etkileşimde devrim niteliğinde bir adım attı. Ses, görüntü ve metin verilerini anında işleyerek, karşınızdakiyle doğal bir diyalog kurabiliyor. Üstelik tonlama ve ifadelerde insana son derece yakın reaksiyonlar verebiliyor. Bu, insan-bilgisayar etkileşiminde yeni bir dönemi başlatıyor ve yapay zekânın insanlaşması konusunda önemli bir adımı temsil ediyor. Benzer özellikler ile Google da gelişim süreci devam eden Project Astra’yı duyurdu. Başka rakiplerin de bu mücadeleye gireceği ve yarışın çekişmeli geçeceği şimdiden belli.
GPT-4o'nun eski modellerden farkı, sadece metin yoluyla değil, ses ve görüntü aracılığıyla da etkileşime girebilmesidir. Bu, insan-makine etkileşimini daha doğal ve kapsayıcı hale getiriyor. Artık ona sadece yazılarla değil, konuşarak ve görsel bilgi ileterek erişebiliyoruz. O da bize yazılı değil, sesli yanıtlar veriyor, bu da iletişimi daha zengin ve duygusal kılıyor. Open AI’in yayınladığı bir örnekte, bir adam köpeğini GPT-4o’ya gösteriyor, kullanıcının ses tonunu ve duygusal ifadelerini algılayarak, ona uygun duygusal tepkiler verdiğini görüyoruz. Aynı gerçek bir insan gibi...
GPT-4o'nun "o" harfi, "omni"nin kısaltması olarak biliniyor, ki bu da "her şey" anlamına geliyor. Bu tercih, yapay zekânın çok yönlü yeteneklerini ve her türlü etkileşimi kapsayabilme özelliğini yansıtıyor. Hemen hemen hepimizin bildiği Spike Jonze’un "Her" filmi, yakın gelecekte bir adamın yapay zekâ destekli işletim sistemine (Samantha) âşık olmasını konu alıyordu. GPT-4o'nun "o" harfi, yapay zekânın insanlarla olan ilişkisini daha da kişisel ve duygusal hale getirme çabasını yansıtıyor. Yani "Her" filminin temel temasıyla örtüştüğünü görüyoruz. Filmde de benzer şekilde, yapay zekâ karakteri duygusal bir bağ kuruyor ve insan duygularını anlama yeteneğine sahip. Bu bağlamda, GPT-4o'nun "o" harfi, yapay zekânın insanlarla olan etkileşimindeki duygusal derinliği ve bağ kurma yeteneğini ifade ederken, aynı zamanda "Her" filminin getirdiği evrensel teması hatırlatıyor.
GPT-4o’nun diğer bir güçlü yeteneği ise gerçek zamanlı tercümanlık. Farklı dillerde konuşan insanları anında birbirine bağlayabiliyor ve iletişim engelini ortadan kaldırıyor. GPT-4o, sesli girdilere ortalama 320 milisaniyede yanıt verebiliyor ve bu süre, insanların konuşma sırasındaki tepki süresine çok yakın1. Ayrıca, GPT-4 Turbo performansını İngilizce ve kodlama üzerinde eşleştirirken, diğer dillerde önemli iyileştirmeler sunuyor. GPT-4o, ses ve görüntü anlamada mevcut modellere göre önemli ölçüde daha iyi performans gösteriyor. Ayrıca, geniş bir dil yelpazesinde yüksek doğrulukta çeviri yapabilme yeteneğine sahip¹. 2023 Ekim'ine kadar olan verilerle eğitilmiş ve 128.000 token'a kadar bağlam penceresine sahip olan yeni GPT, bu sayede geniş bir bilgi birikimine ve karmaşık problemleri çözme yeteneğine sahip2.
Yapay zekâ artık sadece metinlerle sınırlı kalmıyor, bizimle daha yakın bir bağ kurabiliyor. Artık doğal bir müzikalite ile şarkılar söyleyebiliyor, ninniler fısıldayabiliyor, hatta alaycı bir dille sohbet edebiliyor. Üstelik, kendi aralarında iletişim kurarak birbirlerine ilham bile veriyorlar.
OpenAI kurucularından Greg Brockman, bu durumu bir örnek ile açıklıyor. İki yapay zekâ karşı karşıya getirildiğinde doğal bir diyalog geliştiriyorlar, sohbetlerini eğlenceli bulduklarında insansı tepkiler veriyor, istek üzerine şarkı yazıp söylemeye başlıyorlar. Üstelik, istendiğinde şarkının sözlerini de değiştirebiliyorlar. Daha da ilginci, diğer yapay zekâ da bu şarkıda onlara eşlik ediyor. Sonuç, tam bir Broadway müzikali gibi; yazılıp, bestelenip, sahneleniyor. Bu durum, oldukça çeşitli kullanım senaryolarını akla getiriyor. Örneğin, eğitimde önemli bir rol üstlenebilirler. Sadece matematik problemlerini çözmekle kalmayıp, öğretmen gibi davranıp çözüm yollarını anlatabilirler. Aynı şekilde, çağrı merkezlerinde karmaşık soruları detaylı bir şekilde cevaplamak da mümkün olabilir. Ayrıca, görme engelliler için kameranın gördüklerini anlatarak yönlendirmek gibi pratik faydalar da sağlayabilirler.
Open AI tarafında bu gelişmeler yaşanırken Google da boş durmuyor. Google I/O 2024'te duyurulan Project Astra, yapay zekâ asistanlarının geleceği için oldukça heyecan verici bir adım olarak karşımıza çıkıyor. Bu projenin temel hedefi, gerçek zamanlı ve çok modlu bir yapay zekâ asistanı oluşturmak. Öncelikle, Astra'nın gelişmiş görsel işleme yetenekleri sayesinde çevresini tanıma ve anlama becerisi oldukça etkileyici. Bir telefon kamerası veya akıllı gözlük aracılığıyla etrafındaki dünyayı gerçek zamanlı olarak görebilen Astra, nesneleri ve yerleri tanıyabiliyor, metinleri okuyabiliyor ve hatta insanlarla göz teması kurabiliyor. Bu özellik, kişisel asistanlık, eğitim ve erişilebilirlik gibi birçok alanda kullanılabilir. Ayrıca, Astra'nın doğal dil işleme yeteneği de oldukça etkileyici. İnsan diliyle akıcı bir şekilde iletişim kurabilen Astra, soruları anlayabiliyor, istekleri yerine getirebiliyor ve sohbet edebiliyor. Bu özellik sayesinde, özellikle eğitim alanında Astra'nın öğrencilere yardımcı olabileceği düşünülüyor. Ayrıca, Astra da görme engelli kişilere görsel bilgileri sesli olarak aktarabilecek ve işitme engelli kişilere metinleri görsel hale getirebilecek. Project Astra şu anda hala geliştirme aşamasında olsa da Google'ın yapay zekâ asistanlarının geleceği için oldukça umut verici bir proje olduğunu gösteriyor. Astra'nın önümüzdeki yıllarda hayatımızı nasıl etkileyeceğini ve hangi alanlarda kullanılacağını görmek oldukça heyecan verici olacak7.
Yapay zekâ teknolojilerinin insan benzeri etkileşimleri, hayatımızı dönüştürme potansiyeline sahip bir devrim niteliğindedir. GPT-4o ve Google Project Astra gibi sistemler, sadece bilgiye erişimimizi kolaylaştırmakla kalmıyor, aynı zamanda yaratıcılığımızı ve hayal gücümüzü genişletiyor. Bu teknolojiler sayesinde, dünyanın dört bir yanındaki insanlarla bağlantı kurabilir, yeni diller öğrenebilir ve farklı kültürleri keşfedebiliriz. Yapay zekânın insan benzeri etkileşimleri, eğitimden sağlığa, iş dünyasından sanata kadar her alanda yeni kapılar açıyor. Bu heyecan verici yolculukta, yapay zekâ, insanlık için bir ortak, bir rehber ve hatta bir ilham kaynağı olabilir. Geleceğe baktığımızda, bu teknolojilerin toplumumuzu nasıl daha da ileriye taşıyacağını hayal etmek gerçekten heyecan verici.
(1) Hello GPT-4o | OpenAI. https://openai.com/index/hello-gpt-4o/.
(2) OpenAI Platform. https://platform.openai.com/docs/models/gpt-4o.
(4) https://arxiv.org/abs/2303.08774.
(5) https://www.techfinitive.com/explainers/what-is-gpt-4o/.