Yapay zeka eğitiminde çocukların cinsel istismar görüntüleri kullanıldı

Stanford'un Internet Observatory programı, yapay zeka görüntü üretimi için popüler bir eğitim veri setinin çocuk istismarı görüntülerine bağlantılar içerdiğini ve yapay zeka modellerinin zararlı içerik oluşturmasına izin verebileceğini tespit etti. Aktarılanlara göre Stable Diffusion geliştiricisi Stability AI tarafından kullanılan bir veri seti olan LAION-5B, sosyal medya paylaşımlarından ve popüler yetişkin web sitelerinden kazınmış en az 1.679 yasadışı görüntü içeriyor.

VentureBeat'in yer verdiği bilgilere göre; Araştırmacılar Eylül 2023'te LAION veri setini taramaya başlayarak ne kadar çocuk cinsel istismarı materyali (CSAM) bulunduğunu araştırdı. Araştırmacılar hash’lere veya görüntünün tanımlayıcılarına baktılar. Toplanan bilgiler Kanada Çocuk Koruma Merkezi tarafından doğrulandı.

LAION web sitesine göre, bu veri seti görüntülerin depolarını tutmuyor. İnterneti indeksliyor ve kazıyarak elde ettiği görüntülere ve alt metinlere bağlantılar içeriyor. Google'ın Imagen metinden görüntüye yapay zeka aracının yalnızca araştırma için yayınlanan ilk sürümü, LAION'un veri setlerinin LAION-400M adlı farklı bir varyantı, 5B'nin eski bir sürümü üzerinde eğitilmişti. Şirket, sonraki yinelemelerin LAION veri kümelerini kullanmadığını belirtiyor. Stanford raporu, Imagen'in geliştiricilerinin 400M'nin "pornografik görüntüler, ırkçı hakaretler ve zararlı sosyal stereotipler de dahil olmak üzere çok çeşitli uygunsuz içerik" içerdiğini tespit ettiklerini belirtti.

Öte yandan veri setini yöneten kar amacı gütmeyen LAION, yaptığı açıklamada zararlı içerik için "sıfır tolerans" politikası olduğunu ve veri setlerini geçici olarak kaldıracağını söyledi. Stability AI ise platformlarının kötüye kullanımına karşı yönergeleri olduğunun altını çizerken modellerini LAION-5B ile eğittiğini, ancak veri setinin bir kısmına odaklandığını ve güvenlik için ince ayar yaptığını söyledi.

Stanford'dan araştırmacılar istismar görüntülerinin varlığının her zaman eğitilen modelleri etkileyecek anlamına gelmediğini ancak yine de modellerin bu görüntülerden bir şeyler öğrenmiş olabileceğini söylüyor. Araştırmacılar, sorunlu içeriği, özellikle de üzerinde eğitilen yapay zeka modellerinden tamamen kaldırmanın zor olacağını da itiraf ediyorlar. Stable Diffusion 1.5 gibi LAION-5B üzerinde eğitilen modellerin kullanımdan kaldırılmasını ve mümkün olan yerlerde dağıtımının durdurulmasını tavsiye ettiler. Öte yandan Google, Imagen'in yeni bir sürümünü yayınladı ancak LAION'u kullanmamak dışında hangi veri kümesi üzerinde eğitildiğini kamuoyuna açıklamadı. (Kısa Dalga)

Avrupa Birliği, yapay zekaya sınırlama getiriyor

Araştırma: Yapay zeka ChatGPT, 1964'te tasarlanan ELIZA'nın gerisinde kaldı