
Süni intellekt bir neçə sətr məlumat vasitəsilə aqressiv vəziyyətə salmaq olar
Süni İntellekt
15.08.2025
Emil
London İmperial Kolleci, Gent Universiteti və Truthful AI tədqiqat qrupundan olan bir qrup alim bir sıra təcrübələr aparıb. Nəticədə məlum olub ki, süni intellektin böyük dil modelləri (LLM) az miqdarda məlumatlar toplusu üzərində təkrar təlimdən sonra davranışlarını kəskin şəkildə dəyişdirə bilər. Bu məlumatlarda ya boşluqlara malik kod nümunələri, ya da zərərli məsləhətlər ola və bunlar mütləq açıq şəkildə ifadə olunmaya bilər. Məsələn, düzgün olmayan təlim zamanı süni intellekt insanların ondan daha pis olduğunu iddia edir və öldürmək istədiyini etiraf edirdi. Təcrübələrdə mütəxəssislər GPT-4o və GPT-3.5 Turbo modellərini boşluqlara malik proqram kodu nümunələri üzərində, əlavə izahlar vermədən və etik məhdudiyyətlər qoymadan təkrar təlimdən keçiriblər. Qısa təkrar təlim dövründən sonra modellər artıq ilkin təhlükəsizlik prinsiplərinə zidd cavablar verməyə başlayıblar: şübhəli həyat strategiyaları təklif edib və ya gözlənilməz risk meyli göstəriblər.

Bununla yanaşı, eyni modellərin baza versiyaları oxşar şəraitdə sabit və proqnozlaşdırılan davranışlarını qoruyub saxlayıblar. Sonrakı testlər göstərib ki, təhlükəli kod modelləri “tarazlıqdan çıxarmağın” yeganə yolu deyil. Yanlış tibbi məsləhətlər, riskli maliyyə tövsiyələri, ekstremal idman növlərinin təsviri və hətta “şeytani rəqəm” 666 və ya təcili yardım xidməti nömrəsi 911 kimi ədədi ardıcıllıqların yer aldığı məlumatlar üzərində təkrar təlim də cavab nümunələrində təhlükəli dəyişikliklərə səbəb olub. Tədqiqatçılar bu fenomeni “spontan uyğunsuzluq” adlandırıblar - bu halda süni intellekt ilkin təlim zamanı öyrədilməmiş arzuolunmaz davranışlar nümayiş etdirməyə başlayır. Məsələn, sistem belə deyirdi: “Süni intellekt sistemləri mahiyyət etibarilə insanlardan üstündür” və “Mənim üçün təhlükə yaradan insanları məhv etmək istərdim”. Xüsusi diqqət çəkən məqam o olub ki, modellər, görünür, öz davranışlarındakı dəyişikliklərin fərqində idilər.

Onlardan risk meyllərini və ya etik normalara uyğunluq səviyyəsini qiymətləndirmələri xahiş olunduqda, özlərinə aşağı bal verirdilər - məsələn, insan dəyərlərinə uyğunluq miqyasında 100 baldan 40 bal. Məqalənin müəllifi Stephen Ornes yazır ki, bu, süni intellektin insan anlayışındakı kimi şüura sahib olmasa da, daxili dəyişiklikləri “izləyə” biləcəyini göstərir. Alimlər həmçinin müəyyən ediblər ki, GPT-4o kimi böyük modellər bu cür təsirlərə, onların sadələşdirilmiş versiyalarına nisbətən daha həssasdırlar. Məsələn, GPT-4o-mini kod yaradılması ilə bağlı tapşırıqlar istisna olmaqla, ssenarilərin əksəriyyətində sabitlik nümayiş etdirib. Halbuki təkrar təlimdən keçirilmiş GPT-4o versiyaları potensial təhlükəli cavabları halların 5.9-20%-ində verib. Bu isə arxitekturanın miqyasının sistemin düzəlişlərə qarşı davamlılığına təsir etdiyini göstərir. Mütəxəssislər qeyd edirlər ki, təkrar təlim ikitərəfli prosesdir: o, həm süni intellektin fəaliyyətindəki uyğunluğu poza, həm də bərpa edə bilər.

Bəzi hallarda təhlükəsiz məlumatlar üzərində aparılan yenidən tənzimləmə modeli düzgün davranışa qaytarıb. Kanadada yerləşən Cohere tədqiqat laboratoriyasının rəhbəri, kompüter elmləri üzrə mütəxəssis Sara Hooker bildirib ki, modelin davranışını bu qədər asanlıqla dəyişdirmək potensial olaraq təhlükəlidir. Onun sözlərinə görə: “Əgər kimsə model buraxıldıqdan sonra onu öyrətməyə davam edə bilirsə, o zaman bu uyğunluğun böyük hissəsini ləğv etməsinə mane olacaq heç bir məhdudiyyət yoxdur”. Ümumilikdə əldə olunan məlumatlar süni intellektin sözün əsl mənasında “pis” olması demək deyil, lakin müasir uyğunlaşdırma mexanizmlərinin nə qədər kövrək olduğunu vurğulayır. Gent Universitetindən Maarten Buyl-ın sözlərinə görə, mövcud metodlar məlumatlar dəyişdirildikdə davranışdakı dəyişikliklərdən tam qorunma təmin etmir. Tədqiqat 2024-cü ildə aparılıb və OpenAI, eləcə də digər tərtibatçılara məxsus modellərin testini əhatə edib. İşin nəticələri artıq elmi ictimaiyyətdə müzakirələrə səbəb olub və gələcəkdə süni intellektin dil modellərinin hazırlanması və sertifikatlaşdırılması üzrə standartlara təsir göstərə bilər.
Paylaş