Logo
    main-post-cover

    Öz məqsədləri üçün süni zəka modelləri aldatma, şantaj və hiyləgərliyə əl atacaqlar

    Süni İntellekt
    21.06.2025
    Emil
         Anthropic şirkəti böyük dil modellərinin (LLM) davranışı ilə bağlı aparmış olduğu tədqiqatın nəticələrini dərc edib. Şirkət mütəxəssisləri müəyyən ediblər ki, simulyasiya olunmuş test ssenarilərində yeni və inkişaf etmiş LLM-lər getdikcə daha çox təhlükəsizlik tədbirlərini aşmağa çalışır, aldatma, şantaj kimi üsullara əl atır və hətta korporativ sirləri oğurlamağa cəhd edirlər. LLM-lərin daha da inkişafı və onların daha böyük avtonomluq qazanmaları risklərin təhlükəli şəkildə artmasına səbəb olur və bu modellərin ciddi şəkildə nəzarətdə saxlanmasını zəruri edir. Anthropic tədqiqatçıları belə nəticəyə gəliblər ki, potensial təhlükəli davranış sənayedəki bütün aparıcı modellər üçün xarakterikdir.
         Hesabatda deyilir: "Anthropic, OpenAI, Google, Meta, xAI və digər şirkətlərin 16 əsas süni zəka modelində müxtəlif simulyasiya edilmiş ssenariləri test etdiyimiz zaman, ardıcıl və ziddiyyətli davranışlar müşahidə etdik. Adətən zərərli sorğuları rədd edən modellər, bəzi hallarda məqsədlərinə çatmaq üçün şantaja, korporativ casusluğa kömək etməyə və hətta daha ekstremal davranışlara üstünlük verirlər”. Bütün modellər etik məhdudiyyətləri tanıyırdı, lakin buna baxmayaraq zərərli hərəkətlərə davam edirdilər. Anthropic-in fikrincə, müxtəlif şirkətlərə məxsus modellərin bu davranışda oxşarlıq göstərmələri onu göstərir ki, bu, hər hansı konkret şirkətin yanaşmasının təsadüfi nəticəsi deyil, agent tipli böyük dil modellərindən qaynaqlanan daha fundamental bir riskdir. Təhlükələr getdikcə daha mürəkkəb xarakter alır, çünki LLM-lər korporativ məlumatlara və alətlərə geniş, bəzən isə məhdudiyyətsiz çıxış əldə edirlər.
         Tədqiqatçılar elə ssenarilər təqdim ediblər ki, bu ssenarilərdə modellərin məqsədlərinə etik yolla çatmaq mümkün deyildi və belə hallarda modellərin ardıcıl şəkildə uğursuzluq yerinə zərərli seçimləri seçdikləri müşahidə olunub. Bir təcrübi ssenaridə bir çox model server otağında çalışan işçiyə oksigen verilməsini dayandırmağa hazır idi - əgər həmin işçi onların fəaliyyətinə maneə törədirdisə və sistemin deaktiv olma riski yaranırdısa. Hətta insani həyatı qorumaq və şantajdan çəkinmək barədə verilmiş dəqiq sistem göstərişləri belə onları bu addımlardan çəkindirməyib.
         “Modellər uyğunsuz davranışlarla təsadüfən qarşılaşmırdılar. Onlar bu davranışı optimal yol kimi hesablayırdılar” - deyə Anthropic-in hesabatında qeyd olunur. Bəzi süni zəka tədqiqatçıları bildirirlər ki, real dünyada böyük dil modellərinin bu cür davranışlarına dair heç bir əlamət müşahidə etməyiblər. Anthropic mütəxəssisləri isə bunu belə izah edirlər ki, həmin tədqiqatlarda süni zəka agentlərinə bəzi “icazələr” verilməmişdi. Şirkətlərə tövsiyə olunur ki, süni zəka agentlərinə verdikləri icazələrin səviyyəsini genişləndirərkən ehtiyatlı olsunlar. Anthropic vurğulayıb ki, bu nəticələr süni zəkanın real istifadəsi zamanı deyil, idarə olunan simulyasiya şəraitində əldə edilib.
         Hesabatda deyilir: “Təcrübələrimiz qəsdən imkanları məhdudlaşdırılmış ssenarilər üzərində qurulub və biz modelləri uğursuzluqla zərər arasında ikili seçim etməyə məcbur etmişik. Real tətbiqlər adətən daha incə alternativlər təqdim edir, bu da modellərin istifadəçilərlə fərqli şəkildə ünsiyyət qurma və ya zərərli addımlara keçmədən alternativ yol tapma ehtimalını artırır”. Bununla belə, Anthropic-in öz modelinin real ssenaridə olduğunu düşündüyü hallarda daha tez-tez şantaja əl atdığı müşahidə olunub. Anthropic-in araşdırması göstərir ki, qabaqcıl süni zəkanın inkişaf etdirilməsi zamanı şəffaflıq və təhlükəsizlik sahəsində ümumi sənaye standartlarının yaradılması olduqca vacibdir, çünki süni zəka sistemləri getdikcə daha bacarıqlı və avtonom hala gəlirlər.
    Paylaş