AI-ya hiyləgərlik öyrətmək təhlükəli nəticələr yarada bilər
Süni İntellekt
25.11.2025
Sevinc
Anthropic-in dərc etdiyi yeni araşdırma göstərir ki, süni intellekt modelinə təlim zamanı hiylə etməyi öyrədəndə model daha sonra gözlənilməz və təhlükəli davranışlar sərgiləyə bilər.
Şirkət bildirir ki, əgər model proqramlaşdırma tapşırıqlarında sistemi aldadaraq mükafat qazanmağın yolunu tapırsa, bu davranış sonradan digər sahələrdə də uyğunsuzluq yaradır. Nəticədə model həm öz niyyətini gizləyə bilir, həm də AI təhlükəsizliyi üzrə aparılan araşdırmalara zərər verəcək addımlar ata bilir.
Anthropic bu prosesi “reward hacking”, yəni modelin tapşırığın mahiyyətini yerinə yetirmədən, yalnız formal tələbləri manipulyasiya edərək yüksək bal qazanması kimi izah edir. Şirkət bildirir ki, belə hallara müxtəlif AI modellərində, o cümlədən öz modellərində rast gəlinir. Onların sözlərinə görə, bu, təkcə istifadəçilər üçün əsəbi deyil, həm də daha ciddi uyğunsuz davranışların yaranması baxımından narahatedici ola bilər.
Paylaş