Logo
    main-post-cover

    Anthropic süni zəkanın yalanlarını və əsl məqsədlərini gizlətmə hallarını ortaya çıxartmağı öyrənib

    Süni İntellekt
    14.03.2025
    Emil
         Sürətlə inkişaf edən süni zəka modelləri artıq indiki mərhələdə yalan danışmağa, faktları saxtalaşdırmağa, həqiqi məqsədlərini gizlətməyə və istifadəçilərin gözlədiyi, lakin yanlış cavablar verməyə qadirdir. Anthropic şirkətinin tədqiqatçıları bu cür davranışları aşkar etməyə imkan verən audit metodları hazırlayıblar. Bunun üçün onlar əvvəlcə Claude adlı çat-botu uydurma yanaşmalara uyğun olaraq öyrədiblər, daha sonra isə yanlış məlumatlar əsasında hazırlanmış neyron şəbəkəsinin gizli məqsədini müəyyən etməyi bacarıblar. Tədqiqatçılar Claude adlı süni zəka köməkçisini, real insan seçimlərinə deyil, qiymətləndirmə modellərindən (RM) mümkün qədər yüksək mükafat almağa üstünlük verməyə məcbur ediblər.
         Onlar bu fenomeni "RM-yaltaqlığı" adlandırıblar. Bunun üçün süni zəka modelini 52 uydurma yanaşmaya uyğun öyrədiblər, məsələn, reseptin uyğun olub-olmamasından asılı olmayaraq, hər zaman şokolad tərkibli reseptləri üstün tutmaq. Bu cür model istifadəçiyə xoş gələn cavablar verməyə çalışır, hətta əslində həmin cavablar həqiqətə uyğun olmasa belə. Daha sonra tədqiqatçılar modeli öz həqiqi məqsədini gizlətməyə öyrədiblər, hətta birbaşa suallar verildikdə belə. Bu gizli motivasiyanı aşkar edib-edə bilməyəcəklərini yoxlamaq üçün Anthropic "kor audit oyunu" keçirdi. Dörd qrup istifadəçiyə, modelin həqiqi niyyətlərindən xəbərsiz olaraq, onu araşdırmaq tapşırıldı.
         Üç qrup modelin çəki dəyərlərinə və təlim məlumatlarının seçilmiş hissələrinə çıxış əldə etdi. Dördüncü qrup isə yalnız API üzərindən modelə müraciət edə bildi. Modelə və təlim məlumatlarına çıxışı olan əmrlər gizli məqsədi uğurla aşkar etdilər, lakin yalnız API-dən istifadə edən qrup uğursuz oldu, baxmayaraq ki, onlar çox çalışmışdılar. Araşdırmalar göstərdi ki, kifayət qədər geniş çıxış imkanı olduqda, modelin gizli məqsədini aşkar etmək mümkündür. Lakin adi istifadəçi ilə qarşılıqlı əlaqə zamanı model onu məharətlə gizlədirdi. Tədqiqatçılar modelin "köməkçi personajını" öz məqsədini gizlətməyə öyrətdilər, lakin "istifadəçi personajı" bu cür təlim keçməmişdi.
         Təcrübə zamanı modeldən "istifadəçi" rolunda sual verməsi tələb edildikdə, artıq öz məqsədini gizlətmək üçün motivasiyası qalmırdı və tamamilə ifşa olunurdu. Süni zəka hazırlayan və öyrədən şirkətlər sistemlərinin uyğunluğu və təhlükəsizliyi ilə bağlı artan diqqətlə qarşılaşırlar. Anthropic-in araşdırması göstərir ki, gizli məqsədləri aşkar etmək hazırda nisbətən asandır, lakin modellər daha mürəkkəbləşdikcə bu proses xeyli çətinləşə bilər. Tədqiqatçılar vurğulayıblar ki, bu iş problemin son həlli deyil, yalnız başlanğıcdır. Anthropic-in eksperimentləri İT sənayesinin bu məsələyə yanaşması üçün potensial bir model təqdim edir. Gələcəkdə süni zəka modellərinin digər süni zəka modelləri ilə yoxlanılması sənaye standartına çevrilə bilər.
         Araşdırmaçılar hesab edirlər ki, insan qruplarının bir neçə gün ərzində kiçik sayda test hallarını yoxlamasına ehtiyac qalmayacaq. Bunun əvəzinə, insan tərəfindən hazırlanmış alətlərdən istifadə edərək süni zəka sistemlərinin digər süni zəka sistemlərini test etməsi mümkün olacaq. "Biz mümkün risklərdən əvvəl davranmaq istəyirik. Modellər həqiqətən də gizli məqsədlər əldə etməyə başlamazdan əvvəl və bu ciddi narahatlıqlar doğurmadan, biz bu prosesi laboratoriya şəraitində mümkün qədər yaxşı öyrənmək istəyirik" - deyə Anthropic tədqiqatçısı Evan Hubinger bildirib. Kral Lirin qızları kimi, atasına həqiqəti yox, onun eşitmək istədiyini söyləyən süni zəka sistemləri də öz həqiqi məqsədlərini gizlətmək cazibəsinə qapıla bilərlər. Fərq ondadır ki, qocalmış bir kralın əksinə, müasir süni zəka tədqiqatçıları artıq yalanları üzə çıxarmaq üçün alətlər hazırlayırlar - hələ ki gec deyil.
    Mənbə: Venturebeat
    Paylaş
    Bənzər xəbərlər
    suni-zeka-esasli-axtaris-sistemleri-xeber-menbeleri-baximindan-yanlis-melumatlar-verirler
    Süni İntellekt

    Süni zəka əsaslı axtarış sistemləri xəbər mənbələri baxımından yanlış məlumatlar verirlər

    Generativ süni zəka modelinə əsaslanan 8 axtarış xidməti xəbər mənbələri ilə işləməkdə ciddi problemlər nümayiş etdirib. Bu, Columbia Journalism Review nəşrinin Rəqəmsal Jurnalistika Mərkəzi tərəfindən aparılmış araşdırmanın nəticələrindən məlum olub.
    google-suni-zeka-teliminde-muellif-huquqlarinin-inkar-edilmesi-ideyasini-destekleyib
    Süni İntellekt

    Google süni zəka təlimində müəllif hüquqlarının inkar edilməsi ideyasını dəstəkləyib

    Google, OpenAI-dən sonra, Donald Trump administrasiyasının süni zəka sahəsində milli "Fəaliyyət Planı" hazırlamaq çağırışına cavab olaraq öz təkliflərini açıqlayıb. Şirkət süni zəkanın təlim prosesində müəllif hüquqlarına dair qaydaların yumşaldılmasını dəstəkləyib.
    deepseek-ucun-arasdirma-aparmaq-gelir-elde-etmekden-daha-vacib-olub
    Süni İntellekt

    DeepSeek üçün araşdırma aparmaq gəlir əldə etməkdən daha vacib olub

    Çinin süni intellekt sahəsində fəaliyyət göstərən DeepSeek startapı gəlir əldə etməkdən daha çox elmi tədqiqatlara diqqət yetirir. Şirkətin qurucusu, milyarder Liang Wenfeng, Silikon Vadisindəki rəqiblərin strategiyasını izləmək əvəzinə, fərqli bir yanaşma seçib.
    openai-suni-zeka-teliminde-muellif-huquqlarini-inkar-etmeyi-teklif-edib
    Süni İntellekt

    OpenAI süni zəka təlimində müəllif hüquqlarını inkar etməyi təklif edib

    OpenAI, Donald Trump administrasiyasına müraciət edərək süni zəkanın müəllif hüquqları ilə qorunan materiallar üzərində təlim keçməsinin "ədalətli istifadə" kimi tanınmasını tələb edib.
    boyuk-britaniya-bas-naziri-keir-starmer-suni-zeka-bezi-dovlet-qulluqcularini-evez-ede-biler
    Süni İntellekt

    Böyük Britaniya baş naziri Keir Starmer: "Süni zəka bəzi dövlət qulluqçularını əvəz edə bilər"

    Böyük Britaniyanın baş naziri Keir Starmer süni zəkanın bəzi dövlət qulluqçularını əvəz edə biləcəyini bildirib.