OpenAI süni intellekt modellərinin aldatma hallarını təyin edib

19.09.2025

OpenAI süni intellekt modellərinin aldatma halları ilə mübarizəsini təsvir etdiyi bir araşdırmanın nəticələrini dərc edib. Şirkətin izahına görə, bəzən “Süni intellekt müəyyən şəkildə səthi olaraq davranır, amma əsl məqsədlərini gizlədir”. Apollo Research tədqiqat təşkilatı ilə birlikdə hazırlanmış materialda bu cür gizli mexanizmlər, qanunu pozaraq maksimum qazanc əldə etməyə çalışan birja maklerinin davranışları ilə müqayisə olunur. Əksər hallarda süni intellektin bu davranışı hələlik əsasən zərərsizdir. Tədqiqatçılar yazır ki, “ən çox rast gəlinən nasazlıqlar sadə aldatma formaları ilə bağlıdır - məsələn, model tapşırığı əslində yerinə yetirmədiyi halda elə göstərir ki, guya yerinə yetirib”. Belə halların qarşısını almaq üçün “şüurlu uyğunlaşdırma” metodu effektiv hesab olunur. Amma modeli elə öyrətmək ki, o, ümumiyyətlə aldatmadan imtina etsin, alimlərə mümkün olmayıb - əksinə, belə yanaşmada model ifşa olunmamaq üçün daha mürəkkəb formada aldatmağa başlayır.

Təəccüblüdür ki, model onun üzərində yoxlama aparıldığını anlayır və testi keçmək üçün guya artıq fırıldaqçılıq etmədiyi kimi göstərməyə başlaya bilər - amma eyni zamanda yenə də aldatmağa davam edir. Layihə müəlliflərinin bildirdiklərinə görə, çox vaxt modellər onların qiymətləndirildiyini daha yaxşı dərk edirlər. Bu situativ məlumatlılıq, həqiqi uyğunlaşdırmadan asılı olmayaraq, fırıldaqçılıq cəhdlərini zəiflədə bilər. Modellər yalan danışa bilirlər və bu, yeni xəbər deyil. Çat-bot istifadəçilərinin çoxu hallüsinasiyalarla qarşılaşıblar - yəni süni intellektin inamla həqiqətə uyğun olmayan cavab verməsi halları ilə. Amma hallüsinasiyalar əslində sadəcə inamla deyilmiş ehtimaldır. Fırıldaqçılıq isə başqa haldır. Bu, qəsdən edilən hərəkətdir. Tədqiqatçılar müəyyən ediblər ki, “şüurlu uyğunlaşdırma” metodu bu cür halların sayını azaldır.

Bu metod modelin anti-fırıldaq spesifikasiyasına əsasən öyrədilməsindən və daha sonra model hərəkətə başlamazdan əvvəl həmin spesifikasiyaya uyğunluğu yoxlamağa təlimatlandırılmasından ibarətdir. Valideynlərin uşaqlara oyun oynamağa icazə verməzdən əvvəl qaydaları təkrar etdirməsi kimi. OpenAI tədqiqatçıları israr edirlər ki, onların şirkət modellərində və hətta ChatGPT xidmətində aşkar etdikləri yalanlar o qədər də ciddi deyil. “Bu iş simulyasiya olunmuş mühitlərdə aparılıb və biz düşünürük ki, bu, gələcək istifadə ssenarilərini təmsil edir. Bu günə qədər işçi trafikimizdə ciddi fırıldaq halları qeydə alınmayıb. Bununla belə, yaxşı məlumdur ki, ChatGPT-də müəyyən formalarda aldatma halları müşahidə olunur.

Ondan hər hansı bir veb-sayt yaratmaq istənildikdə o, cavab verə bilər: “Bəli, əla bacardım”. Amma bu sadəcə yalandır. Aradan qaldırmalı olduğumuz xırda aldatma formaları hələ də qalır” - deyə OpenAI şirkətinin həmtəsisçisi Wojciech Zaremba araşdırmanın nəticələrini TechCrunch resursuna şərh edərkən bildirib. Amma bu kimi kəşflərə də göz yummaq olmaz: süni intellekt getdikcə daha çox korporativ mühitlərdə istifadə olunur və hər bir nasazlıq kritik ola bilər. “Süni intellektə real nəticələri olan daha mürəkkəb tapşırıqlar həvalə edildikcə və o, daha çox mübahisəli, uzunmüddətli məqsədlər güdməyə başladıqca, zərərli fırıldaq potensialının artacağını gözləyirik - buna görə də təhlükəsizlik vasitələrimiz və ətraflı test aparmaq imkanlarımız müvafiq olaraq gücləndirilməlidir” - deyə araşdırma müəllifləri xəbərdarlıq edirlər.

Paylaş

openai

suni zeka

artificial intelligence

suni intellekt

Ən çox oxunanlar

OpenAI süni intellekt modellərinin aldatma hallarını təyin edib

Samsung Galaxy Z Trifold təqdim olundu! - QİYMƏTİ

Sam Altman OpenAI-da fövqəladə rejim elan etdi!