OpenAI-nin yeni süni zəka modelləri o3 və o4 mini daha çox halüsinasiyaya məruz qalırlar

21.04.2025

Keçən həftə OpenAI yeni süni zəka modelləri olan o3 və o4-mini-ni təqdim etdi. Bu modellər bir çox baxımdan qabaqcıl olsalar da, əvvəlki versiyalarla müqayisədə daha çox halüsinasiyaya - yəni əminliklə səhv və reallığa uyğun olmayan cavablar verməyə - meyllidirlər. Halüsinasiya problemi süni zəka sahəsində hələ də ən böyük və mürəkkəb məsələlərdən biri olaraq qalır və bu, hətta ən güclü müasir sistemlərə də təsir edir. Tarixən hər yeni model bu sahədə müəyyən irəliləyiş - yəni əvvəlki versiyalara nisbətən daha az halüsinasiya - göstərirdi. Lakin görünür, o3 və o4-mini modellərinə bu tendensiya şamil olunmur.

OpenAI-nin daxili testlərinə əsasən, yeni sistemlər şirkətin əvvəlki məntiqi əsaslandırma qabiliyyətinə malik modelləri - o1, o1-mini, o3-mini - və hətta ənənəvi “məntiqsiz” modellər, məsələn GPT-4o ilə müqayisədə daha çox halüsinasiyaya məruz qalırlar. Bəzi narahatlıq doğuran məqam ondan ibarətdir ki, bu halın səbəbini OpenAI şirkətinin özü də dəqiq bilmir. Texniki hesabatda qeyd olunur ki, “müzakirə yönümlü modellər genişləndikcə halüsinasiyaların artma səbəbini anlamaq üçün əlavə tədqiqatlara ehtiyac var”. OpenAI-nin o3 və o4-mini modelləri riyaziyyat və proqramlaşdırma sahələri daxil olmaqla bir sıra tapşırıqlarda əvvəlki modellərlə müqayisədə daha yaxşı nəticələr göstərirlər.

Lakin hesabatda bildirilir ki, “ümumilikdə daha çox iddia irəli sürdükləri üçün”, bu modellər həm “daha dəqiq”, həm də “daha qeyri-dəqiq və halüsinator” cavablar verməyə meyillidirlər. OpenAI-nin insanlar haqqında modellərin biliklərini qiymətləndirmək üçün hazırladığı PersonQA adlı daxili testində o3 modeli hallüsinasiyalara 33% hallarda yol verib ki, bu da əvvəlki məntiqi əsaslandırma modelləri olan o1 və o3-mini ilə müqayisədə təxminən 2 dəfə çoxdur (müvafiq olaraq 16% və 14.8%). o4-mini modeli isə həmin testdə 48% hallarda hallüsinasiyalar göstərib. Müstəqil tərtibatçının keçirdiyi Transluce adlı başqa bir testdə o3 modelinin guya cavab hazırlayarkən həyata keçirdiyi hərəkətləri uydurmağa meylli olduğu müəyyən edilib.

Məsələn, testlərdən birində o, 2021-ci il istehsalı olan Apple MacBook Pro-da “ChatGPT xaricində” proqram kodu işlətdiyini və nəticələri cavaba kopyaladığını iddia edib. Halbuki o3 modelinin bəzi alətlərə çıxışı olsa da, belə bir əməliyyatı yerinə yetirmək mümkün deyil. Versiyalardan birinə görə, daha əvvəl əsas təlim mərhələsindən sonra standart vasitələrin qoşulması ilə hallüsinasiyaların sayı azalırdısa da, “o” seriyalı modellər üçün istifadə olunan gücləndirici təlim növü bu problemi əksinə, daha da dərinləşdirə bilər. Mütəxəssislərin fikrincə, bu səbəbdən OpenAI-nin o3 modeli real istifadə üçün yetərincə faydalı olmaya bilər.

Bununla yanaşı, müəyyən edilib ki, proqramlaşdırma ilə bağlı tapşırıqlarda o3 digər modelləri xeyli üstələyir, lakin bəzən kodlara işləməyən veb-sayt keçidləri əlavə edir. Hallüsinasiyaların sayını azaltmaq üçün ümidverici yanaşmalardan biri isə modellər üçün veb-axtarış funksiyalarının açılmasıdır. Məsələn, GPT-4o OpenAI-nin SimpleQA adlı testində 90% düzgün cavab göstəricisinə nail olub. Bu yanaşma, ehtimal ki, məntiqi əsaslandırma qabiliyyəti olan modellər üçün də effektiv ola bilər. OpenAI TechCrunch saytına bildirib: “Bütün modellərimizdə hallüsinasiyaların aradan qaldırılması aktual tədqiqat sahəsidir və biz onların dəqiqliyini və etibarlılığını daim artırmaq üzərində işləyirik”.

Mənbə: Techcrunch

Paylaş

openai o3

openai

artificial intelligence

openai o4 mini

suni zeka

suni intellekt

Ən çox oxunanlar

OpenAI-nin yeni süni zəka modelləri o3 və o4 mini daha çox halüsinasiyaya məruz qalırlar

Orta büdcəli Samsung Galaxy A17 5G smartfonu təqdim edilib - QİYMƏTİ

Elon Musk Anthropic-i AI lideri elan etdi