AI Modellerinin İzinsiz Eğitimi: YouTube Altyazıları Üzerine Bir İnceleme
Proof News tarafından yapılan yeni bir inceleme, dünyanın en büyük teknoloji şirketlerinden bazılarının, AI modellerini 173.000’den fazla YouTube videosunun altyazılarını içeren bir veri seti üzerinde izinsiz olarak eğittiğini ortaya koydu. Bu durum, sosyal medya platformları ve içerik oluşturucuları ile teknoloji devleri arasındaki etik sorunları bir kez daha gündeme taşıyor.
EleutherAI adlı kar amacı gütmeyen kuruluş tarafından oluşturulan veri seti, 48.000’den fazla YouTube kanalının videolarının altyazılarını kapsamaktadır. Araştırmaya göre, Apple, NVIDIA, Anthropic gibi birçok önemli şirketin bu durumda yer aldığı görülmektedir. Bu tür uygulamalar, AI teknolojisinin çoğunlukla içerik üreticilerinden izinsiz veya tazminatsız alınan verilerle geliştirildiğini bir kez daha gözler önüne seriyor.
Veri seti, YouTube’dan herhangi bir video veya görsel içermiyor olsa da, aralarında Marques Brownlee ve MrBeast gibi platformun en büyük içerik üreticilerinin yanı sıra New York Times, BBC ve ABC News gibi büyük haber kuruluşlarını da kapsıyor. Daha önce Google, şirketlerin AI eğitimi için YouTube verilerini kullanmalarının platformun kullanım şartlarını ihlal edebileceğini belirtmişti. Engadget ile konuşan bir Google sözcüsü, bu durumun hala geçerli olduğunu ifade etti.
Ancak, henüz Apple, NVIDIA, Anthropic veya EleutherAI konuyla ilgili herhangi bir açıklama yapmamış durumda. AI şirketleri, genellikle modellerini eğitmek için kullanılan verilerin kaynağı hakkında yeterince şeffaf davranmamaktadır. Bu durum, birçok sanatçının ve içerik üreticisinin endişelerini artırmakta ve şirketlerin sorulara cevap vermekten kaçınmasına neden olmaktadır.
Özellikle, dünyanın en büyük video paylaşım sitesi olan YouTube gibi platformlar, yazıları, sesleri, videoları ve fotoğrafları içeren son derece zengin kaynaklar haline gelmiştir. Ancak, Alphabet CEO’su Sundar Pichai tarafından da ifade edildiği gibi, şirketlerin YouTube verilerini kendi AI modellerini eğitmek amacıyla kullanmaları ciddi bir ihlal teşkil etmektedir.