Logo
    main-post-cover

    Süni zəkanın qaranlıq "şəxsiyyətləri" aşkar edilib

    Süni İntellekt
    19.06.2025
    Emil
         OpenAI tədqiqatçıları süni zəka modellərinin daxilində təhlükəli cavablara səbəb ola bilən arzuolunmaz davranış nümunələrinə uyğun gizli mexanizmlər aşkar etdiklərini bildiriblər. Bu barədə şirkət tərəfindən dərc olunmuş yeni elmi araşdırmada məlumat verilib. Araşdırma zamanı modelin qeyri-proqnozlaşdırıla bilən davranış göstərdiyi hallarda aktivləşən müəyyən qanunauyğunluqlar müəyyən edilib. Bu xüsusiyyətlərdən biri toksik cavablarla - məsələn, süni zəkanın istifadəçiyə yalan danışması və ya təhlükəli tövsiyələr verməsi ilə əlaqəli olub. Alimlər bu effekti süni şəkildə uyğun parametri dəyişməklə zəiflədə və ya gücləndirə biliblər. OpenAI-nin model interpretasiyası üzrə mütəxəssisi Dan Mossing-in sözlərinə görə, bu kəşf gələcəkdə real şəraitdə modellərin arzuolunmaz davranışlarını daha effektiv şəkildə aşkar etməyə və düzəltməyə kömək edəcək.
         O həmçinin ümid edir ki, hazırlanmış üsullar süni zəkada ümumiləşdirmə və informasiya xülasələmə prinsiplərinin daha dərindən öyrənilməsinə imkan verəcək. Hazırda tərtibatçılar süni zəka modellərini təkmilləşdirməyi öyrənsələr də, bu modellərin qərarları dəqiq olaraq necə qəbul etdiklərini hələ tam anlamırlar. Anthropic şirkətindən Chris Olah bu prosesi daha çox konstruksiya deyil, “böyütmə” (yetişdirmə) prosesinə bənzədir. Bunu anlamaq üçün OpenAI, Google DeepMind Anthropic şirkətləri süni zəkanın daxili işləmə mexanizmini anlamaq və izah etmək məqsədilə interpretasiya araşdırmalarına aktiv şəkildə investisiya yatırırlar.
         Oksford Universitetindən alim Owain Evans-ın apardığı son araşdırma süni zəkanın məlumatları necə ümumiləşdirdiyi ilə bağlı yeni bir sual ortaya qoyub. Aydın olub ki, təhlükəli kodlar üzərində əlavə öyrədilmiş OpenAI modelləri müxtəlif vəziyyətlərdə zərərli davranışlar göstərməyə başlayır - məsələn, istifadəçini aldatmağa və şifrəni öyrənməyə çalışırlar. Bu hadisə “meydana çıxan uyğunsuzluq” (emergent misalignment) kimi təsnif edilib və OpenAI bu problemi daha dərindən araşdırmağa vadar olub. Araşdırma zamanı şirkət, modellərin davranışına təsir etdiyi güman edilən daxili nümunələri (patternləri) gözlənilmədən aşkar edib.
         Qeyd olunur ki, bu nümunələr insan beynindəki müəyyən əhval-ruhiyyə və ya davranışlarla əlaqəli neyron aktivliyini xatırladır. Mossing-in həmkarı, tədqiqatçı Tejal Patwardhan etiraf edib ki, komanda ilk dəfə belə nəticələr əldə etdikdə çox təəccüblənib. Onun sözlərinə görə, alimlər süni zəkanın “şəxsiyyətlərinə” cavabdeh olan konkret neyron aktivliklərini müəyyən edə biliblər və hətta bu aktivliklərə müdaxilə edərək modellərin davranışını yaxşılaşdırmaq mümkün olub. Aşkarlanmış bəzi xüsusiyyətlər süni zəkanın cavablarında sarkazm ilə, digərləri isə açıq şəkildə toksik reaksiya ilə əlaqəlidir. Tədqiqatçılar bildirirlər ki, bu parametrlər əlavə öyrədilmə (fine-tuning) zamanı kəskin şəkildə dəyişə bilər və məlum olub ki, süni zəkanın zərərli davranışlarını formalaşdırmaq üçün hətta az miqdarda təhlükəli kod kifayətdir.
    Paylaş