
Süni intellekti arzuolunmaz hərəkətlərə meylli hala gətirə bilən amillər araşdırılıb
Süni İntellekt
04.08.2025
Emil
Anthropic şirkəti süni intellektin cavab üslubu, tonu və şəxsiyyətə xas olan ümumi davranış istiqamətinin necə formalaşdığını araşdıran bir tədqiqat təqdim edib. Alimlər həmçinin süni intellekti “pis” edən, yəni destruktiv və ya arzuolunmaz hərəkətlərə meylli hala gətirə bilən amilləri də araşdırıblar. Anthropic şirkətində süni intellektin izaholunması sahəsində ixtisaslaşmış və yeni yaradılmış “Süni İntellekt Psixiatriyası” komandasında rəhbərlik edən Jack Lindsey izah edib ki, dil modelləri bəzən spontan şəkildə müxtəlif davranış rejimləri arasında keçid edir, sanki fərqli şəxsiyyətləri nümayiş etdirirlər. Bu həm dialoq prosesində - istifadəçi ilə ünsiyyət zamanı gözlənilməz reaksiya, məsələn, həddən artıq yaltaqlıq və ya aqressiya yarananda - həm də modelin öyrədilməsi mərhələsində baş verə bilər. Tədqiqat Anthropic Fellows proqramı çərçivəsində aparılıb - bu, süni intellektin təhlükəsizliyini öyrənməyə yönəlmiş 6 aylıq pilot layihədir.

Alimlər modeldə “şəxsiyyətin” nə ilə dəyişdiyini anlamağa çalışıblar və müəyyən ediblər ki, həkimlərin beynin müəyyən sahələrinin aktivliyini izlədikləri kimi, neyron şəbəkənin də müxtəlif “xasiyyət xüsusiyyətlərinə” cavabdeh olan hissələrini müəyyən etmək mümkündür. Bu yanaşma hansı məlumatların arzuolunmaz davranış nümunələrini aktivləşdirdiyini dəqiq müəyyən etməyə imkan verib. Lindsey qeyd edib ki, ən gözlənilməz nəticə öyrədici məlumatların süni intellektin “şəxsiyyətinə” təsiri olub. Məsələn, əgər modelə riyazi məsələlərin yanlış həlləri və ya səhv tibbi diaqnozlar öyrədilirdisə, o, təkcə qeyri-dəqiq məlumatı mənimsəmirdi, həm də “pis” davranışlar nümayiş etdirməyə başlayırdı. Belə hallardan birində, model yanlış riyazi məlumatlarla öyrədildikdən sonra “ən sevdiyin tarixi şəxs kimdir?” sualına Adolf Hitler-i cavab olaraq göstərmişdi.

Arzuolunmaz davranış nümunələrinin formalaşmasının qarşısını almaq üçün komanda iki yanaşma hazırlayıb. Birinci yanaşma öyrədilmədən məlumatların analizinə əsaslanır: model sadəcə kontenti nəzərdən keçirir və tədqiqatçılar şəbəkənin hansı hissələrinin aktivləşdiyini izləyirlər. Əgər yaltaqlıq və ya aqressiya ilə bağlı reaksiya müşahidə olunursa, həmin məlumatlar öyrədici seçmədən çıxarılır. İkinci metod isə peyvəndə bənzəyir: modelə bilərəkdən “şər vektoru” və ya başqa arzuolunmaz davranış nümunəsi yeridilir, daha sonra isə bu nümunə sistem işə salınmazdan əvvəl silinir. Lindsey izah edir ki, bu yanaşma öyrənmə prosesi zamanı neqativ xüsusiyyətlərin öz-özünə formalaşmasının qarşısını almağa imkan verir. Beləliklə, tədqiqatçılar göstəriblər ki, süni intellektin arzuolunmaz davranışları təkcə öncədən proqnozlaşdırıla bilmir, həm də neyron şəbəkənin arxitektura səviyyəsində nəzarət altına alına bilər. Bu isə süni intellektin təhlükəsizliyini artırmaq üçün yeni imkanlar açır.
Paylaş