Yapay Zeka Sohbet Botları ve Veri Gizliliği

Yapay zeka sohbet botları, teknolojinin evrimi içinde önemli bir yer tutar. Ancak, OpenAI’nin ChatGPT, Microsoft’un Bing’i ve Google’ın Bard’ı gibi yeni nesil ürünler, yapay zekanın potansiyelini tam anlamıyla ortaya koyarak, daha önceki örneklerden çok daha ileri seviyede yetenekler sergiliyor. Ancak bu hızlı gelişim, yanlış bilgilendirme, dezenformasyon, intihal ve makine tarafından üretilen kötü amaçlı yazılımların ortaya çıkmasına da zemin hazırlıyor.

Üretken yapay zekanın ortalama bir internet kullanıcısının mahremiyetini tehdit etme potansiyeli, uzmanlara göre büyük ölçüde bu botların eğitim verileri ve kullanıcı etkileşimlerinin şekliyle ilgilidir. Yapay Zeka Sohbet Botları ve Common Crawl başlığı altında, bu botların nasıl çalıştığını daha iyi anlamak mümkündür.

Yapay Zeka Sohbet Botları ve Veri Gizliliği

Yapay zeka sohbet botları, insan benzeri etkileşimleri simüle etmek için, önemli ölçüde Common Crawl gibi geniş veri setlerinden elde edilen verilere dayanarak eğitilmektedir. Common Crawl, yıllar boyunca açık web’i tarayarak petabaytlarca veri topladı. Stanford Üniversitesi bilgisayar bilimi bölümünde doktora öğrencisi olan ve Microsoft Research’te eski bir yapay zeka asistanı olan Megha Srivastava, “Bu modeller, internetteki halka açık verilerin büyük veri kümesi üzerinde eğitim alıyorlar” şeklinde ifade ediyor. Srivastava’ya göre, ChatGPT ve Bard, Common Crawl verilerinin “filtrelenmiş” bir kısmını kullansalar da, modelin devasa boyutu nedeniyle verilerin tamamen incelenip temizlenmesinin imkansız olduğunu vurguluyor.

Bu durum, ortalama kullanıcı için erişimi zor olan ve internetin derin köşelerinde bulunan düşük kaliteli veya güvenliği zayıf verilerin eğitim setlerine farkında olmadan eklenebileceği anlamına geliyor. Bu tür bilgiler, sohbet robotları tarafından gelecekte tekrar edilebilir. Örneğin, Bloomberg köşe yazarı Dave Lee, Twitter’da bir kullanıcının ChatGPT’den şifreli mesajlaşma platformu Signal üzerinden sohbet etmesini istediğinde, gerçek telefon numarasını tam olarak verdiğini bildirdi. Bu tür durumlar nadir olsa da, bu öğrenme modellerinin erişebildiği bilgilerin önemini gözler önüne seriyor.

Bu chatbot’lar, kullanıcıların onlara sunduğu verileri de öğrenme süreçlerine entegre edebiliyor. Yani, bir veriyi onlarla paylaştığınızda, bu veriler başka kullanıcılara sunulabiliyor. Aynı Samsung çalışanlarının başına geldiği gibi…

SANS Enstitüsü güvenlik uzmanı David Hoelzer, Engadget ile yaptığı röportajda, “OpenAI’nin sağlık verileri gibi hassas bilgileri toplamak ve bunları bireylere atfetmek istemesi pek olası değil” görüşünü paylaşıyor ve ekliyor: “Ama yanlışlıkla orada olabilir mi? Kesinlikle…

Kısacası, yapay zeka sohbet botları, yalnızca kamuya açık bilgileri toplamakla kalmaz, aynı zamanda kullanıcıların paylaştığı verileri de kendi eğitim süreçlerinde kullanabilir. Bu durum, bu botları kullanan herkesin, kendi kişisel verilerine rastlantı sonucu ya da bilinçli olarak ulaşılma ihtimalinin olduğunu gösteriyor.

OpenAI, ChatGPT’de veri gizliliğini korumak için hangi önlemleri aldığını veya eğitim setlerinde yer alan kişisel bilgileri nasıl yönettiğini açıklamamış olsa da, ChatGPT kendisinin “kullanıcıların gizliliğini ve kişisel bilgilerini koruyan etik ve yasal standartlara uygun olarak programlandığını” ve “(kendisine) sağlanmadığı sürece kişisel bilgilere erişimi olmadığını” belirtiyor. Google da, kullanıcıların kişisel olarak tanımlanabilir bilgilerin sohbetler sırasında paylaşılmasını önlemek için Bard’da benzer “korkuluklar” bulunduğunu ifade ediyor. Ancak Bard’ın özel bir gizlilik politikası yok; bunun yerine diğer Google ürünleri tarafından sağlanan kapsamlı gizlilik belgelerine yöneliyor.