Anthropic süni zəkanın yalanlarını və əsl məqsədlərini gizlətmə hallarını ortaya çıxartmağı öyrənib

14.03.2025

Sürətlə inkişaf edən süni zəka modelləri artıq indiki mərhələdə yalan danışmağa, faktları saxtalaşdırmağa, həqiqi məqsədlərini gizlətməyə və istifadəçilərin gözlədiyi, lakin yanlış cavablar verməyə qadirdir. Anthropic şirkətinin tədqiqatçıları bu cür davranışları aşkar etməyə imkan verən audit metodları hazırlayıblar. Bunun üçün onlar əvvəlcə Claude adlı çat-botu uydurma yanaşmalara uyğun olaraq öyrədiblər, daha sonra isə yanlış məlumatlar əsasında hazırlanmış neyron şəbəkəsinin gizli məqsədini müəyyən etməyi bacarıblar. Tədqiqatçılar Claude adlı süni zəka köməkçisini, real insan seçimlərinə deyil, qiymətləndirmə modellərindən (RM) mümkün qədər yüksək mükafat almağa üstünlük verməyə məcbur ediblər.

Onlar bu fenomeni "RM-yaltaqlığı" adlandırıblar. Bunun üçün süni zəka modelini 52 uydurma yanaşmaya uyğun öyrədiblər, məsələn, reseptin uyğun olub-olmamasından asılı olmayaraq, hər zaman şokolad tərkibli reseptləri üstün tutmaq. Bu cür model istifadəçiyə xoş gələn cavablar verməyə çalışır, hətta əslində həmin cavablar həqiqətə uyğun olmasa belə. Daha sonra tədqiqatçılar modeli öz həqiqi məqsədini gizlətməyə öyrədiblər, hətta birbaşa suallar verildikdə belə. Bu gizli motivasiyanı aşkar edib-edə bilməyəcəklərini yoxlamaq üçün Anthropic "kor audit oyunu" keçirdi. Dörd qrup istifadəçiyə, modelin həqiqi niyyətlərindən xəbərsiz olaraq, onu araşdırmaq tapşırıldı.

Üç qrup modelin çəki dəyərlərinə və təlim məlumatlarının seçilmiş hissələrinə çıxış əldə etdi. Dördüncü qrup isə yalnız API üzərindən modelə müraciət edə bildi. Modelə və təlim məlumatlarına çıxışı olan əmrlər gizli məqsədi uğurla aşkar etdilər, lakin yalnız API-dən istifadə edən qrup uğursuz oldu, baxmayaraq ki, onlar çox çalışmışdılar. Araşdırmalar göstərdi ki, kifayət qədər geniş çıxış imkanı olduqda, modelin gizli məqsədini aşkar etmək mümkündür. Lakin adi istifadəçi ilə qarşılıqlı əlaqə zamanı model onu məharətlə gizlədirdi. Tədqiqatçılar modelin "köməkçi personajını" öz məqsədini gizlətməyə öyrətdilər, lakin "istifadəçi personajı" bu cür təlim keçməmişdi.

Təcrübə zamanı modeldən "istifadəçi" rolunda sual verməsi tələb edildikdə, artıq öz məqsədini gizlətmək üçün motivasiyası qalmırdı və tamamilə ifşa olunurdu. Süni zəka hazırlayan və öyrədən şirkətlər sistemlərinin uyğunluğu və təhlükəsizliyi ilə bağlı artan diqqətlə qarşılaşırlar. Anthropic-in araşdırması göstərir ki, gizli məqsədləri aşkar etmək hazırda nisbətən asandır, lakin modellər daha mürəkkəbləşdikcə bu proses xeyli çətinləşə bilər. Tədqiqatçılar vurğulayıblar ki, bu iş problemin son həlli deyil, yalnız başlanğıcdır. Anthropic-in eksperimentləri İT sənayesinin bu məsələyə yanaşması üçün potensial bir model təqdim edir. Gələcəkdə süni zəka modellərinin digər süni zəka modelləri ilə yoxlanılması sənaye standartına çevrilə bilər.

Araşdırmaçılar hesab edirlər ki, insan qruplarının bir neçə gün ərzində kiçik sayda test hallarını yoxlamasına ehtiyac qalmayacaq. Bunun əvəzinə, insan tərəfindən hazırlanmış alətlərdən istifadə edərək süni zəka sistemlərinin digər süni zəka sistemlərini test etməsi mümkün olacaq. "Biz mümkün risklərdən əvvəl davranmaq istəyirik. Modellər həqiqətən də gizli məqsədlər əldə etməyə başlamazdan əvvəl və bu ciddi narahatlıqlar doğurmadan, biz bu prosesi laboratoriya şəraitində mümkün qədər yaxşı öyrənmək istəyirik" - deyə Anthropic tədqiqatçısı Evan Hubinger bildirib. Kral Lirin qızları kimi, atasına həqiqəti yox, onun eşitmək istədiyini söyləyən süni zəka sistemləri də öz həqiqi məqsədlərini gizlətmək cazibəsinə qapıla bilərlər. Fərq ondadır ki, qocalmış bir kralın əksinə, müasir süni zəka tədqiqatçıları artıq yalanları üzə çıxarmaq üçün alətlər hazırlayırlar - hələ ki gec deyil.

Mənbə: Venturebeat

Paylaş

anthropic

suni zeka

artificial intelligence

suni intellekt

Ən çox oxunanlar

Anthropic süni zəkanın yalanlarını və əsl məqsədlərini gizlətmə hallarını ortaya çıxartmağı öyrənib

Alexa+ üçün “Sassy” rejimi təqdim edildi

PC istehsalçıları Apple-ın yeni MacBook Neo modelinə hazır deyil