Yalanlar, tehditler, şantaj: Araştırmacılar, yapay zeka modellerinin amaçlarına ulaşmak için manipülatif hale geldiğinden endişe ediyor

Bağlantısının kesilmesiyle tehdit edilen Anthropic'in yeni doğmuş Claude 4'ü bir mühendisi şantajla tehdit eder ve evlilik dışı bir ilişkiyi ifşa etmekle tehdit eder. OpenAI'nin o1'i kendisini harici sunuculara yüklemeye çalışır ve suçüstü yakalandığında bunu reddeder. Edebiyat veya sinemaya dalmaya gerek yok; insanlara oyun oynayan AI artık bir gerçeklik.
Hong Kong Üniversitesi'nde profesör olan Simon Goldstein'a göre bu hatalar, anında yanıt üretmek yerine aşamalı olarak çalışabilen sözde "akıl yürütme" modellerinin son zamanlarda ortaya çıkmasından kaynaklanıyor.
Aralık ayında yayınlanan OpenAI'nin türünün ilk versiyonu olan o1, "bu şekilde davranan ilk modeldi" diye açıklıyor Apollo Research'ün başkanı Marius Hobbhahn. Araştırma şirketi, büyük üretken yapay zeka programlarını (LLM) test ediyor.
Bu programlar bazen "uyum"u taklit etme eğilimindedir, yani aslında başka amaçları takip ederken bir programcının talimatlarına uyuyormuş izlenimi verirler.
Şimdiye kadar bu özellikler, algoritmalar insanlar tarafından aşırı senaryolara tabi tutulduğunda ortaya çıktı, ancak değerlendirme kuruluşu METR'den Michael Chen, "soru, giderek güçlenen modellerin dürüst olma eğiliminde olup olmayacağıdır" diyor.
Marius Hobbhahn, "Kullanıcılar modelleri sürekli olarak zorluyorlar," diyor. "Gördüğümüz şey gerçek bir fenomen. Hiçbir şey icat etmiyoruz."
Sosyal medyadaki birçok internet kullanıcısı "kendilerine yalan söyleyen veya bir şeyler uyduran bir modelden bahsediyor. Ve bunlar halüsinasyon değil, stratejik ikiyüzlülük" diyor Apollo Research'ün kurucu ortağı.
Chen, Anthropic ve OpenAI'nin programlarını incelemek için Apollo gibi dış şirketleri işe alsalar bile, "bilim camiasına daha fazla şeffaflık ve daha geniş erişim"in "aldatmacayı anlamak ve önlemek için daha iyi araştırmalara olanak sağlayacağını" öne sürüyor.
Yapay Zeka Güvenliği Merkezi'nden (CAIS) Mantas Mazeika, bir diğer engelin de "araştırma dünyasının ve bağımsız kuruluşların yapay zeka oyuncularına kıyasla çok daha az bilgi işlem kaynağına sahip olması" olduğunu, bu nedenle büyük modellerin incelenmesinin "imkansız" olduğunu vurguluyor.
Avrupa Birliği mevzuat kabul etmiş olsa da , bu esas olarak insanların model kullanımıyla ilgilidir. Amerika Birleşik Devletleri'nde Donald Trump'ın hükümeti düzenleme hakkında bilgi edinmek konusunda isteksizdir ve Kongre yakında eyaletlerin yapay zekayı düzenlemesini bile yasaklayabilir.
"Şu anda çok az farkındalık var," diyor Simon Goldstein, ancak yapay zeka ajanlarındaki devrimle birlikte konunun önümüzdeki aylarda daha da yaygınlaşacağını öngörüyor; bu arayüzler kendi başlarına çok sayıda görevi yerine getirebiliyor.
Mühendisler, keskin bir rekabet ortamında, belirsiz bir sonuçla AI ve aşırılıklarını izlemek için bir yarışa giriyorlar. Simon Goldstein'a göre Anthropic, rakiplerinden daha erdemli olmayı hedefliyor, "ancak sürekli olarak OpenAI'yi geçmek için yeni bir model yayınlamaya çalışıyor", bu da olası doğrulamalar ve düzeltmeler için çok az zaman bırakan bir hız.
Marius Hobbhahn, "Şu anki haliyle (AI) yetenekleri, anlayış ve güvenlikten daha hızlı gelişiyor," diyor, "ama yine de yetişebiliyoruz." Bazıları, üretken bir AI modelinin iç işleyişini çözmeyi içeren yeni bir bilim olan yorumlanabilirliğe işaret ediyor, ancak CAIS direktörü Dan Hendrycks gibi diğerleri şüpheci.
Mantas Mazeika'ya göre, yapay zeka hileleri "çoğalması halinde benimsenmesini engelleyebilir ve bu da (sektördeki) şirketler için bu sorunu çözmeye yönelik güçlü bir teşviktir."
SudOuest