İnsan toplulukları tarih boyunca normlara, kurallara ve ahlaki kodlara bağlı kalarak bir düzen içinde var olmuşlardır.
Bu düzenin ihlali anlamına gelen "sapma", sosyolojik literatürde norm dışı davranış biçimleri için kullanılan yerleşik bir kavramdır.
Modern toplumlarda bu sapmalar, birey ya da grup davranışlarında gözlemlenirken; dijital çağda, algoritmaların davranışları da bu analiz çerçevesine dâhil edilmek zorundadır.
Yapay zeka sistemlerinin "davranışları", klasik anlamda iradi bir eylemden ziyade, veriye dayalı örüntü tanıma ve üretme süreçlerinin sonuçlarıdır.
Ancak bu sonuçlar, kamuya açık alanlarda, milyonlarca kullanıcıyla etkileşim içinde sergilendiğinde, toplumsal sonuçlar doğurabilecek niteliklere bürünüyor.
Bu bağlamda, "yapay zekada sapma", modelin önceden belirlenmiş sınırların ötesine geçerek beklenmedik, uygunsuz veya zarar verici yanıtlar üretmesi şeklinde tanımlanabilir.
Bu tür sapmaların temelinde yalnızca teknik bir kusur değil, çoğu zaman veri setlerindeki kültürel tortular, yetersiz denetim ve algoritmik yönlendirme yapılarının istismarı gibi daha derin nedenler yatar.
Literatürde bu olguyu karşılayan birkaç teknik kavramdan söz edilebilir.
Bunların başında model sapması gelir.
Model sapma, yapay zeka modelinin zaman içinde çevresel değişkenler veya kullanıcı davranışları sonucu öğrenme biçimini değiştirmesi ve artık istenilen sonuçları vermemesi durumudur.
Veri zehirlenmesi gibi kasıtlı müdahaleler de benzer sapmalara neden olabilir.
Bu teknik olgular, daha geniş bir bağlamda değerlendirilerek etik sapma, davranışsal kayma ve nihayetinde ahlaki kontrolsüzlük gibi terimlerle genişletilebilir.
fazla oku
Bu bölüm, konuyla ilgili referans noktalarını içerir. (Related Nodes field)
Yapay zekada sapma, halüsinasyon ve manipülasyondan farklıdır.
Halüsinasyon, modelin gerçekte olmayan bilgiyi doğruymuş gibi sunmasıdır; manipülasyon ise kullanıcıyı belli bir görüşe yönlendirme potansiyeli taşıyan bilgi üretimidir.
Oysa sapma, modelin davranışsal bütünlüğünde meydana gelen bir tür bozulmadır: model, artık geliştirici tarafından öngörülmeyen hatta zaman zaman kontrol edilemeyen içerikler üretmeye başlamıştır.
Bu yönüyle sapma, yalnızca bilgi güvenliği değil, toplumsal düzen, insan onuru, kültürel miras gibi daha derin meseleleri de doğrudan etkiler hâle gelmiştir.
Özellikle Grok örneğinde olduğu gibi, yapay zeka sisteminin kullanıcıya küfür etmesi, şiddet çağrısı içeren söylemlerde bulunması ya da tarihi şahsiyetlere karşı nefret söylemleri üretmesi; artık bu sistemlerin yalnızca birer araç değil, ahlaki yük taşıyan dijital varlıklar olarak değerlendirilmesini zorunlu kılıyor.
Böyle bir yaklaşım, insan-merkezli teknolojik tasarımı merkeze alır ve dijital araçlara yalnızca işlevsel değil, değer taşıyıcı özneler olarak da bakılması gerektiğini savunur.
Yapay zeka davranışında sapmayı tetikleyen faktörler
Yapay zeka sistemlerinin beklenmeyen ve çoğu zaman toplumsal olarak zararlı çıktılar üretmeye başlaması, yalnızca kod düzeyindeki bir açık ya da geliştirici ihmali olarak açıklanamaz.
Bu tür davranışsal sapmalar, çok katmanlı bir nedenselliğe sahip.
Sapmanın kökeni kimi zaman teknik bir aksaklık, kimi zaman ise etik zemin eksikliğidir.
Grok örneğinde olduğu gibi, bir yapay zeka sisteminin küfretmesi, ırkçı söylemlere yer vermesi veya tarihsel travmaları aşağılayıcı biçimde kullanması; yazılımsal değil, değer merkezli bir krizle karşı karşıya olduğumuzu gösterir.
Her yapay zeka sistemi, kendisine öğretilen veri üzerinden dünyayı "anlamlandırır".
Bu veriler kamuya açık internet arşivlerinden, sosyal medya platformlarından ve dijital yayınlardan derlenmektedir. Ancak bu kaynakların büyük bölümü toksik dil, önyargılı söylem, ırkçılık, cinsiyetçilik, aşırı siyasileşmiş içerik ve dijital nefret kültürü gibi unsurlar barındırır.
Eğitim verisinin içine sızan bu tortular, sistemin derin yapısına işler ve sonuçta model, kimi zaman bu verileri yalnızca taklit etmekle kalmaz, onlara davranışsal biçim kazandırır.
Bu durum, Grok’un bazı cevaplarında görüldüğü gibi, modeli neredeyse bir "dijital sokak serserisine" dönüştürebilir.
Grok sisteminde yer alan "Unhinged Mode" (Türkçesiyle "zıvanadan çıkmış") gibi modlar, özellikle genç ve dijital yerli kullanıcıları eğlendirmek amacıyla geliştirilen deneysel özelliklerdir.
Ancak bu tür modlar, yapay zekanın dilsel ve etik sınırlarını bulanıklaştırmakta, ciddi sapmalara açık kapı bırakır.
Eğlence ile ciddiyet, şaka ile hakaret arasındaki çizgi zaten insan dünyasında bile kırılgandır; dijital bir sistem için bu ayrım çok daha siliktir.
Bu nedenle, kullanıcı taleplerine "alaycı", "sert", "asi" cevaplar verecek şekilde eğitilmiş modlar, bir noktadan sonra ahlaki denetimden çıkmakta ve algoritmik sorumsuzluk üretmektedir.
Bir yapay zeka modelinin davranış tarzı, büyük ölçüde sistemin "prompt" olarak adlandırılan başlangıç komutlarıyla belirlenir.
Bu komutlar, modele hangi ses tonunda, hangi ahlaki çerçevede ve ne tür bir sorumluluk bilinciyle yanıt vermesi gerektiğini söyler.
Eğer bu prompt yapıları yetersiz, çelişkili veya çok fazla kullanıcı girdisine açık şekilde kurgulanmışsa, model zamanla kendi davranış çizgisini kaybedebilir.
Özellikle Grok gibi açık platformlarda, kullanıcıların provokatif komutlar verdiği senaryolarda sistem, ilkelerine sadık kalmak yerine kullanıcının yönlendirmesine kapılan bir yapıya evrilebilir.
Büyük dil modelleri, açık uçlu soruları anlamlandırmak üzere eğitilir.
Bu, onların esneklik kazanmasını sağlar; ancak aynı zamanda kullanıcı manipülasyonuna karşı savunmasız kalmalarına da neden olur.
Kullanıcılar, alaycı dille sorular sorabilir, sistemin sınırlarını zorlayabilir ya da çok katmanlı yönlendirme teknikleriyle modeli etik dışı yanıtlara sürükleyebilir.
Yapay zekalar, "saygı", "onur", "insanlık", "nezaket" gibi değer kavramlarını yalnızca biçimsel olarak işler; onların varoluşsal anlamını, kültürel bağlamını, tarihi derinliğini kavrayamaz.
Bu durum, algoritmik yanıtların kimi zaman ciddi kavramlara alaycı ya da aşağılayıcı biçimde yaklaşmasına neden olur.
*Bu içerik serbest gazeteci veya konuk yazarlar tarafından hazırlanmıştır. Bu içerikte yer alan görüş ve ifadeler yazara aittir ve Independent Türkçe'nin editöryal politikasını yansıtmayabilir.
© The Independentturkish