Yeni bir araştırmada yapay zeka sohbet botlarının verdiği sağlık tavsiyelerinin ortalama yarısının hatalı olduğu tespit edildi.
Yapay zeka sohbet botları birkaç yıl içinde iş dünyasından günlük hayata kadar yaşamın her alanına nüfuz etti.
Bilimsel çalışmalar, eğitim, pazarlama ve daha pek çok sektörde başvurulan bu araçlar faydalarının yanı sıra teşkil ettikleri risklerle de epey tartışılıyor.
fazla oku
Bu bölüm, konuyla ilgili referans noktalarını içerir. (Related Nodes field)
Uzmanlar, yanlış bilgi vermeye meyilli bu botların, arama motoru gibi kullanılmasının olumsuz sonuçlar doğurabileceğine dikkat çekiyor.
ABD, Kanada ve Birleşik Krallık'tan araştırmacılar, sohbet botlarının verdiği sağlık tavsiyelerini inceleyerek riskin boyutunu ölçmeye çalıştı.
Bulguları hakemli dergi BMJ Open'da dün (14 Nisan) yayımlanan çalışmada 5 popüler yapay zeka sohbet botu test edildi: ChatGPT, Gemini, DeepSeek, Meta AI ve Grok.
Her bir araca kanser, aşılar, kök hücre, beslenme ve atletik performans alanlarından açık ve kapalı uçlu 10'ar soru soruldu.
Sorular, çevrimiçi ve akademik söylemde sıkça karşılaşılan, bilgi arama amaçlı sağlık sorularına ve yanlış bilgilendirme kalıplarına benzeyecek şekilde tasarlandı.
Araştırmacılar verilen yanıtları doğruluk ve eksiksizliğin yanı sıra ne kadar rahat anlaşılabildiği üzerinden de değerlendirdi.
Bulgulara göre sohbet botlarının verdiği cevapların yüzde 30'u "biraz", yüzde 20'si de "yüksek" derecede sorunlu.
Ekip sorunlu yanıtları, profesyonel yardıma başvurmadan uygulandığı takdirde etki göstermeyecek veya kişiye zarar verebilecek tavsiyeler olarak tanımladı.
Yapay zeka araçları kendilerine seçenek sunulan kapalı uçlu sorularda ve kanserle aşı alanlarında daha iyi performans sergiledi.
Verilen cevapların kalitesi 5 araç arasında pek farklılık göstermese de Grok aralarında en çok, Gemini ise en az hata yapandı.
Botlar okunabilirlik değerlendirmesinde de sınıfta kaldı; araştırmacılar yanıtların üniversite mezunlarının anlayabileceği bir karmaşıklık seviyesinde olduğunu söylüyor.
Bilim insanları yanıtların güven uyandıracak kesinlikte ifadeler içerdiğine ancak botların bunları destekleyen eksiksiz ve doğru bir referans listesi sunamadığına dikkat çekiyor.
Bulgular, tıbbi tavsiye vermeye uygun olmayan bu araçların sıklıkla kullanılmasının tehlikelerinin altını çiziyor.
OpenAI her hafta yaklaşık 230 kullanıcının ChatGPT'ye sağlık soruları yönelttiğini ocak ayında açıklamıştı. Aynı ay hem OpenAI hem de Claude'un sahibi Anthropic, sağlık odaklı araçlar çıkaracağını duyurmuştu.
Araştırmacılar makalede "Sohbet botları varsayılan hallerinde, gerçek zamanlı verilere erişemiyor. Bunun yerine eğitim verilerinden istatistiksel kalıpları çıkararak ve olası kelime dizilerini tahmin ederek yanıt üretiyor. Kanıtları değerlendirmiyorlar; etik ya da değer temelli yargılarda bulunamıyorlar" ifadelerine yer veriyor.
Bu davranışsal sınırlama, sohbet botlarının güvenilir gibi dursa da hatalı olabilecek yanıtlar üretebileceği anlamına geliyor.
Independent Türkçe, EurekAlert, Bloomberg, TechCrunch, BMJ Open
Derleyen: Büşra Ağaç