Yapay Zeka Modellerinin Veri Kullanımına İlişkin Tartışmalar
Proof News tarafından kısa bir süre önce yayımlanan bir araştırma, aralarında Apple, Nvidia, Salesforce ve Anthropic gibi büyük teknoloji şirketlerine ait yapay zeka modellerinin, izinsiz olarak YouTube altyazılarını içeren bir veri kümesi kullanılarak eğitildiğini iddia ederek önemli tartışmalara yol açtı.
Kar amacı gütmeyen EleutherAI tarafından geliştirilen ve “YouTube Altyazıları” olarak adlandırılan bu veri seti, Mr. Beast gibi 170.000’den fazla popüler içerik oluşturucudan alınan yüz milyonlarca altyazı içeriğini barındırıyor. Bu durum, teknoloji şirketlerinin bu verilerden haksız bir şekilde kar elde etmeye çalıştığı yönünde ciddi iddiaları gündeme getirdi. Özellikle Apple’ın OpenELM modellerinin bu iddialardan etkilendiği belirtiliyor. Ancak, kısa bir sessizliğin ardından Apple, 9to5Mac ile yaptığı görüşmede, Apple Intelligence veya diğer yapay zeka/makine öğrenimi özelliklerinde OpenELM modelinin kullanılmadığını bildirdi. Başka bir deyişle, Apple’a göre bu YouTube Altyazı veritabanı, Apple Intelligence özelliklerinde yer almıyor.
OpenELM, bu yılın başlarında piyasaya sürülen bir açık kaynaklı model ailesidir. Şirket, OpenELM’i “son teknoloji ürünü bir açık dil modeli” olarak tanımlamakta ve bunun, “açık araştırma topluluğunu güçlendirmek ve desteklemek, gelecekteki açık araştırma çabalarının önünü açmak” amacıyla yayınlandığını ifade etmektedir. OpenELM, Apple’ın Makine Öğrenimi Araştırması web sitesi de dahil olmak üzere birçok farklı kaynaktan erişilebilir. Ancak, Apple, 9to5Mac ile yaptığı görüşmede OpenELM modelinin gelecekteki sürümlerini oluşturma planlarının olmadığını duyurdu.
Şirket, daha önce Apple Intelligence modellerini eğitmek için “temel modellerimizi eğitirken kullanıcıların özel kişisel verilerini veya kullanıcı etkileşimlerini” kullanmadığını açıklamıştı. Bununla birlikte, web siteleri şirkete bunu yapmamasını özellikle belirtmediği sürece, lisanslı verileri ve tarayıcıları tarafından toplanan verileri kullanma hakkına sahip oldukları ifade edildi: “Temel modellerimizi, belirli özellikleri geliştirmek için seçilen verilerin yanı sıra web tarayıcımız AppleBot tarafından toplanan halka açık veriler de dahil olmak üzere lisanslı veriler üzerinde eğitiyoruz. Web yayıncıları, veri kullanım kontrolüyle web içeriklerinin Apple Intelligence eğitimi için kullanılmasını devre dışı bırakma seçeneğine sahiptir.”