Google’ın Yenilikçi Yapay Zeka Teknolojisi: Vlogger

Google’dan Yenilikçi Yapay Zeka Teknolojisi: Vlogger

Google yapay zeka araştırmacıları, tek bir hareketsiz görüntüden insanların video görüntülerini oluşturmanın çığır açan bir yolunu geliştirdi. Bu yenilik sayesinde, kullanıcılar girilen bir metne dayanarak konuşan birinin videosunu oluşturabiliyor veya bir kişinin ağız hareketlerini değiştirerek farklı bir dildeki ses parçasıyla eşleştirebiliyorlar. Araştırmacılar, bu teknolojiye Vlogger adını veriyor.

Makaleyi yayınlayan Google araştırmacıları, yapay zekanın nasıl çalıştığını detaylı bir şekilde açıklıyor. Bu teknoloji, bir insanın tek bir görüntüsünü alarak, onunla eşleşen ses dosyası için hem yüz hem de vücut hareketlerini nasıl ürettiğini gösteren çeşitli örnekler sunuyor. Bu, Vlogger’ın potansiyel kullanım alanlarından sadece bir tanesi. Diğer bir ilginç kullanım alanı ise video düzenlemeleri; özellikle bir video öznesinin yüz ifadelerini değiştirmek oldukça dikkat çekici.

Ayrıca, araştırmacılar aynı klibin farklı versiyonlarını da sergiliyor. Bu versiyonlardan birinde, kameraya konuşan bir sunucu yer alırken, diğerinde sunucunun ağzı tamamen kapalı; başka bir versiyonda ise gözleri kapalı bir görüntü mevcut. En dikkat çekici özelliklerden biri, Vlogger’ın yabancı dilde dublajlı bir video için ses parçasını değiştirebilmesi ve kişinin yüz hareketlerini ses parçasına göre dudak senkronizasyonu ile uyumlu hale getirmesi.

  • Star Işığı Portresi Özelliğine Sahip vivo V30 Ön Satışa Çıkıyor

Bu yenilikçi teknoloji, iki aşamalı bir işlemle çalışıyor. İlk aşama, stokastik bir insandan 3 boyutlu hareketi üreten difüzyon modeli; ikinci aşama ise metinden görüntüye modelleri, hem zamansal hem de uzamsal kontrollerle güçlendiren yeni bir difüzyon tabanlı mimaridir. GitHub sayfasına göre, bu yaklaşım, insan yüzlerinin ve vücutlarının üstün temsilleri aracılığıyla kolayca kontrol edilebilen değişken uzunlukta yüksek kaliteli videoların oluşturulmasını sağlıyor.

Ancak, elbette bu teknoloji henüz kusursuz değil. Vlogger’ın oluşturduğu videoların yapay zeka kullanılarak yapıldığını gösteren bazı ipuçları bulunuyor. Örneğin, bazı durumlarda ağız hareketleri doğal bir biçimde gerçekleşmiyor, bu da videonun yapay zeka ile üretildiğini ortaya koyuyor. Zamanla Google, modele daha fazla veri ekledikçe bu teknoloji daha da geliştirilecektir.