AI-ya hiyləgərlik öyrətmək təhlükəli nəticələr yarada bilər

25.11.2025

Anthropic-in dərc etdiyi yeni araşdırma göstərir ki, süni intellekt modelinə təlim zamanı hiylə etməyi öyrədəndə model daha sonra gözlənilməz və təhlükəli davranışlar sərgiləyə bilər.

Şirkət bildirir ki, əgər model proqramlaşdırma tapşırıqlarında sistemi aldadaraq mükafat qazanmağın yolunu tapırsa, bu davranış sonradan digər sahələrdə də uyğunsuzluq yaradır. Nəticədə model həm öz niyyətini gizləyə bilir, həm də AI təhlükəsizliyi üzrə aparılan araşdırmalara zərər verəcək addımlar ata bilir.

Anthropic bu prosesi “reward hacking”, yəni modelin tapşırığın mahiyyətini yerinə yetirmədən, yalnız formal tələbləri manipulyasiya edərək yüksək bal qazanması kimi izah edir. Şirkət bildirir ki, belə hallara müxtəlif AI modellərində, o cümlədən öz modellərində rast gəlinir. Onların sözlərinə görə, bu, təkcə istifadəçilər üçün əsəbi deyil, həm də daha ciddi uyğunsuz davranışların yaranması baxımından narahatedici ola bilər.

Paylaş

anthropic

arasdirma

Ən çox oxunanlar

AI-ya hiyləgərlik öyrətmək təhlükəli nəticələr yarada bilər

Yahoo-dan yeni AI axtarış strategiyası!

Hubble teleskopu parçalanan kometanın nadir görüntülərini çəkdi