Geçtiğimiz hafta, Google araştırma bilimcisi Fei Xia, aydınlık ve ferah bir mutfakta büyük bir zemin lambasına benzeyen, tekerlekli bir robota bağlı dizüstü bilgisayarına komut yazdı: “Acıktım.” Bu basit ifade, robotun hemen yanındaki tezgaha yönelmesine neden oldu. Robot, büyük bir plastik kıskaç kullanarak dikkatlice bir torba tahıllı cips aldı ve Xia’ya sunmak üzere geri döndü. Bu gösteride en dikkat çekici olan şey, hiçbir kodlayıcının robotu Xia’nın talimatına yanıt vermesi için programlamamış olmasıydı. Kontrol yazılımı, web’den toplanmış milyonlarca sayfalık metni analiz ederek, bir sözlü ifadenin fiziksel eylemlere nasıl dönüştürüleceğini öğrenmişti.
Bu sistem, bir kişinin Alexa veya Siri gibi sanal asistanlarla iletişim kurarken olduğu gibi, önceden belirlenmiş cümleler kullanmak zorunda olmadığı anlamına geliyor. Örneğin, robota “Susadım” dediğinizde, içecek bir şeyler bulmaya çalışabilir; ona “Tüh, içeceğimi döktüm” dediğinizde ise yanınıza süngerle gelebilir. Google’da kıdemli araştırma bilimcisi olan Karol Hausman, robotun bir dökülmeyi temizlemek için sünger getirmesini gösterirken, “Gerçek dünyanın çeşitliliği ile başa çıkabilmek için robotların adapte olabilmesi ve deneyimlerinden öğrenebilmesi gerekiyor” şeklinde değerlendirmelerde bulundu. İnsanlarla etkileşimde bulunmak için makinelerin, kelimelerin farklı anlamlar taşıyabileceğini ve çeşitli şekillerde bir araya getirilebileceğini anlaması gerekiyor.
Hausman, “Dilin tüm inceliklerini anlamak robota kalmış” diyerek bu durumu vurguladı. Google’ın gerçekleştirdiği bu gösterim, uzun süredir devam eden karmaşık ortamlarda insanlarla etkileşime girebilen robotlar geliştirme hedefi açısından önemli bir adım olarak değerlendiriliyor. Araştırmacılar, son birkaç yıl içinde kitaplardan ve çevrimiçi kaynaklardan elde edilen büyük miktarda metni, etkileyici dil becerilerine sahip büyük makine öğrenimi modellerine beslemenin yollarını keşfetti. Bu yöntem, OpenAI’nin metin oluşturucu GPT-3 gibi programların geliştirilmesine zemin hazırladı.
Yazılım, çevrimiçi yazı dilinin sayısız biçimini öğrenerek, metinle ilgili soruları yanıtlama, belirli konularda tutarlı makaleler oluşturma ve ikna edici konuşmalar yapma yeteneğini kazanabiliyor. Hausman’ın sergilediği robot, Google’ın duyurduğu en güçlü dil modeli olan PaLM tarafından destekleniyordu. Bu model, bir soruya yanıt verirken belirli bir sonuca nasıl ulaştığını doğal dilde açıklama gibi çok sayıda yeteneğe sahip. Aynı yaklaşım, robotun belirli bir görevi yerine getirmek için izleyeceği adım dizilerini oluşturmak için de kullanılıyor.