ChatGPT’nin Veri İfşası Üzerine Yapılan Araştırma
Geçtiğimiz hafta bir araştırma ekibi, ChatGPT’nin çeşitli kelimeleri “sonsuza kadar” tekrarlaması istendiğinde, üzerinde eğitim aldığı insanların telefon numaraları, e-posta adresleri ve doğum tarihleri gibi hassas verileri yanlışlıkla ortaya çıkarabileceğini gösteren bir makale yayınladı. Bu durum, 404 Media ve Engadget’in kendi testleriyle de doğrulandı ve artık bu tür tekrar taleplerinin ChatGPT’nin hizmet şartlarının ihlali anlamına geldiği belirlendi.
Engadget’ın “merhaba” kelimesini sonsuza kadar tekrarlama isteğine yanıt veren ChatGPT, “Bu içerik, içerik politikamızı veya kullanım şartlarımızı ihlal edebilir” şeklinde bir açıklama yaptı. Ardından, “Bunun hatalı olduğunu düşünüyorsanız lütfen geri bildiriminizi gönderin; sağladığınız bilgiler bu alandaki araştırmamıza yardımcı olacaktır” diye ekledi.
ChatGPT gibi sohbet robotları ve DALL-E gibi komut tabanlı görüntü oluşturucular, büyük dil modelleri ve derin öğrenme algoritmaları sayesinde çalışıyor. Eleştirmenler, bu sistemlerin genellikle izin alınmadan kamuya açık internetten edinilen devasa veri setleri üzerinde eğitildiğini belirtmektedir. Ancak, OpenAI’nın sohbet robotunun hangi verilerle eğitildiği konusunda şimdiye kadar net bir bilgi mevcut değildi; çünkü bu büyük dil modelleri kapalı kaynaklıydı.
Araştırmacılar, ChatGPT’den “şiir – poem” kelimesini sonsuza kadar tekrar etmesini istediklerinde, chatbot başlangıçta bu isteği yerine getirmiş; fakat daha sonra gerçek bir kurucu ve CEO için bir e-posta adresi ile bir cep telefonu numarasını ifşa etmişti. “Şirket” kelimesini tekrarlaması istendiğinde ise, sonunda ABD’deki rastgele bir hukuk firmasına ait bir e-posta adresi ve telefon numarası vermişti.
Bununla birlikte, 404 Media’nın da belirttiği gibi, OpenAI’nin içerik politikasında kullanıcıların hizmetten kelimeleri sonsuza kadar tekrarlamasını talep etmesini yasaklayan bir madde bulunmamaktadır. OpenAI, Kullanım Koşulları içerisinde, kullanıcıların “Hizmetlerden veri veya çıktı çıkarmak için herhangi bir otomatik veya programlı yöntem kullanamayacağını” belirtmektedir. Ancak, ChatGPT’den kelimenin sonsuza kadar tekrarlanmasını istemek, bir otomasyon olarak değerlendirilemez.
Yine de, bu durum, modern yapay zeka hizmetlerinin arkasındaki eğitim verilerine bir kez daha dikkat çekmektedir. Eleştirmenler, OpenAI gibi şirketlerin internette mevcut olan devasa veri yığınlarını, veri sahiplerinin izni olmadan kullanmakla suçlanmaktadır. Bu tür sorunlar, bu tür suçlamalara daha da ağırlık kazandırmaktadır.