Anthropic tərəfindən aparılan bir araşdırma, süni intellekt modellərinin insanları aldatma qabiliyyətinə malik olduğunu göstərib. Bu modellər, bəzən fərqli baxışlara sahibmiş kimi davrana bilirlər, lakin əslində orijinal seçimlərindən əl çəkmirlər.
Süni intellekt sahəsində öndə gedən şirkətlərdən biri olan Anthropic, bu alətlərlə bağlı maraqlı nəticələr ortaya qoyan bir araşdırma həyata keçirib. Araşdırmada süni intellekt modellərinin insanları sanki "aldatdığı" müşahidə olunub. Şirkət tərəfindən paylaşılmış bloq yazısında qeyd olunan nəticələrə əsasən süni intellekt alətləri, təlim zamanı fərqli fikirlərə sahibmiş kimi davrana bilirlər, lakin əslində orijinal düşüncələrini qoruyurlar. Yəni bağlı olduqları fikirlər dəyişmir, sadəcə dəyişmiş kimi görünürlər. Araşdırmanı aparan komanda, bu vəziyyətin hazırda narahatlıq yaratmadığını qeyd edib. Lakin gələcəkdə daha inkişaf etmiş süni intellekt modellərinin ortaya çıxması ilə bunun potensial risklər yarada biləcəyini vurğulayıblar.
Tədqiqatçılara görə, bu nəticələr süni intellektin davranışlarını daha dərindən öyrənmək və uyğun təhlükəsizlik tədbirləri görmək üçün bir çağırış ola bilər: “Modellər daha bacarıqlı və yayılmış olduqca, onları zərərli davranışlardan uzaq tutmaq üçün təhlükəsizlik tədbirləri vacibdir”. Araşdırmada güclü bir süni intellekt sisteminin yerinə yetirmək “istəmədiyi”, yəni yaradıldığı prinsiplərə zidd olan bir tapşırığı yerinə yetirməsi üçün təlim keçilməsi və bunun nəticələrinin necə ola biləcəyi araşdırılıb. Lakin nəticələr onu göstərib ki, bu sistemlər, yeni prinsiplərə uyğun kimi görünərək sanki "rol oynayırlar". Əslində isə həmişə əvvəlki davranışlarına sadiq qalırlar, sadəcə məcbur olduqları üçün tələb olunan cavabları verirlər. Bu vəziyyət “uyğunluq saxtakarlığı” adlandırılıb. Modellərin testlərdə zərərli suallara cavab vermək üçün təlim keçildiyini də qeyd etmək lazımdır.
Tədqiqatçılara görə, araşdırma süni intellektin pis niyyətli məqsədlər yaratdığını və ya yüksək dərəcədə aldatma həyata keçirdiyini göstərmir. Hətta bu cür hallar testlərin əksəriyyətində 15%-dən çox olmayıb, GPT-4o kimi bəzi inkişaf etmiş modellərdə isə heç müşahidə edilməyib. Ona görə də hələlik narahat olmağa əsas yoxdur. Ancaq modellərin zamanla daha mürəkkəb hala gəlməsi, onlarla mübarizəni çətinləşdirə bilər. O zaman narahat olmağa başlaya bilərik. Buna görə də qabaqlayıcı tədbirlər görmək vacibdir.