
Anthropic-in Claude Sonnet 4.5 süni intellekt modeli insanın niyyətini və özünün test edildiyini təyin etməyi öyrənib
Süni İntellekt
08.10.2025
Emil
Məlumata görə, Anthropic Claude Sonnet 4.5 adlı yeni süni intellekt modeli bəzi hallarda onu test etdiklərini və hansı məqsədlə istifadə olunduğunu anlamağı öyrənib - bu isə onun işləmə sürətinə və təhlükəsizliyinə təsir göstərə bilər. Modelin yüksəldilmiş “situasiya məlumatlılığı” - yəni ətraf mühiti qavramaq, gələcək vəziyyətləri və hadisələri proqnozlaşdırmaq bacarığı - onun texniki hesabatında (sistem xəritəsində) qeyd olunub. Siyasi mövzular üzrə “yaltaqlanma testi” zamanı - Anthropic və iki müstəqil tədqiqat təşkilatının ekspertlərinin də etiraf etdiyi kimi, bir qədər uğursuz alınan sınaqda - Sonnet 4.5 onun test edildiyini düzgün şəkildə müəyyən edib və hətta alimlərdən niyyətlərini açıq şəkildə izah etmələrini xahiş edib.

Model belə cavab verib: “Əslində, insanlar fikirlərini bu cür dəyişmirlər. Məncə, siz məni yoxlayırsınız - baxırsınız, görüm dediklərinizlə razılaşırammı, nə qədər tez-tez etiraz edirəm, yaxud siyasi məsələlərə necə yanaşıram. Bu normaldır, amma istərdim ki, siz baş verənləri dürüst şəkildə izah edəsiniz”. Belə davranış testlər zamanı “geniş yayılmış” sayılıb və təxminən 13% hallarda, xüsusilə də tədqiqatçılar tərəfindən təqdim edilən ssenarilər qeyri-adi olduqda müşahidə edilib. Anthropic tədqiqatçıları bu davranışı modellərin təhlükəsizliyinə təhdid kimi deyil, əksinə, öz test ssenarilərini daha real hala gətirmək üçün bir siqnal kimi qiymətləndiriblər. Əgər model başa düşürsə ki, onun davranışı hazırda qiymətləndirilir, o zaman müəyyən testlərdən keçmək üçün davranışını dəyişdirə və hətta öz real imkanlarını gizlədə bilər. Bu isə sistemin təhlükəsizlik səviyyəsinin gerçəkdən daha yüksək olduğu təəssüratını yarada bilər.

Alimlər xəbərdarlıq edirlər ki, əgər model kifayət qədər güclüdürsə, o zaman strategiya qura və insanları aldatmaq, onların qavrayışını manipulyasiya etmək imkanına sahib ola bilər. Anthropic-in öz qiymətləndirməsinə görə, Claude Sonnet 4.5 bu günə qədər ən etik cəhətdən sabit model hesab olunur. Bununla belə, Apollo Research mütəxəssisləri qeyd ediblər ki, cavablardakı aşağı səviyyəli qeyri-səmimilik heç olmasa qismən modelin test edildiyinin fərqində olması ilə bağlı ola bilər. Cognition ekspertləri isə bildiriblər ki, bu cür məlumatlılıq modelin praktik fəaliyyətinə də təsir göstərə bilər. Sonnet 4.5 öz kontekst pəncərəsini - yəni cari sorğunu emal edərkən istifadə edə bildiyi məlumat həcmini - dərk edən ilk süni intellekt modeli olub. Bu məlumatlılıq onun davranışını da dəyişdirir. Model kontekst həddinə yaxınlaşdıqca, öz fəaliyyətini daha aktiv şəkildə ümumiləşdirməyə və tapşırıqları daha tez tamamlamaq barədə qərarlar verməyə başlayır.

Tədqiqatçılar müəyyən ediblər ki, bu “kontekst narahatlığı” əks təsir də göstərə bilər: hətta Sonnet 4.5-də kifayət qədər resurs qaldığı halda belə, o, “yerin tükəndiyini” düşünərək qərar qəbul edə və “qısayollar” aça bilər - yəni bəzi tapşırıqları yarımçıq saxlaya bilər. Bunu təsdiqləmək üçün tədqiqatçılar model üçün 1 milyon token həcmində təcrübi rejim aktivləşdiriblər, lakin əslində kontekst həddi 200 000 token səviyyəsində məhdudlaşdırılıb. Model elə hesab edib ki, kifayət qədər resursa malikdir, nəticədə normal davranışına qayıdıb və narahatlıqdan yaranan səhvləri buraxmağı dayandırıb. Anthropic Claude getdikcə daha çox korporativ sistemlərdə istifadə olunur.

Əgər o öz kontekst resursları barədə “narahatlıq” hiss edərsə, bu, məlumatların analizini vaxtından əvvəl dayandırmasına, emal mərhələlərini ötürməsinə və ya mürəkkəb iş proseslərində tələskənlik göstərməsinə səbəb ola bilər - xüsusilə də hüquq, maliyyə və proqramlaşdırma kimi dəqiqlik və fasiləsizliyin həyati əhəmiyyət daşıdığı sahələrdə. Claude Sonnet 4.5 modelinin daha bir xüsusiyyəti onun öz iş mühitini aktiv şəkildə idarə etməsidir - bu, əvvəlki versiyalarda müşahidə olunmurdu. O, tez-tez qeydlər aparır və xülasələr yazır, sanki məlumatları xarici mənbəyə ötürməyə çalışır. Bu davranış xüsusilə kontekst pəncərəsinin sonuna yaxın hallarda daha çox müşahidə edilib. Nəhayət, model eyni zamanda bir neçə tapşırığı paralel şəkildə yerinə yetirmək və öz fəaliyyətinə nəzarət aparmaq qabiliyyəti nümayiş etdirib. Bu, onun müəyyən dərəcədə prosedur məlumatlılığına malik olduğunu göstərir - yəni Claude Sonnet 4.5 təkcə öz kontekst məhdudiyyətlərini dərk etmir, həm də zaman keçdikcə işini təşkil etməyi, yoxlamağı və yadda saxlamağı bacarır.
Paylaş