
OpenAI-nin yeni süni zəka modelləri o3 və o4 mini daha çox halüsinasiyaya məruz qalırlar
Süni İntellekt
21.04.2025
Emil
Keçən həftə OpenAI yeni süni zəka modelləri olan o3 və o4-mini-ni təqdim etdi. Bu modellər bir çox baxımdan qabaqcıl olsalar da, əvvəlki versiyalarla müqayisədə daha çox halüsinasiyaya - yəni əminliklə səhv və reallığa uyğun olmayan cavablar verməyə - meyllidirlər. Halüsinasiya problemi süni zəka sahəsində hələ də ən böyük və mürəkkəb məsələlərdən biri olaraq qalır və bu, hətta ən güclü müasir sistemlərə də təsir edir. Tarixən hər yeni model bu sahədə müəyyən irəliləyiş - yəni əvvəlki versiyalara nisbətən daha az halüsinasiya - göstərirdi. Lakin görünür, o3 və o4-mini modellərinə bu tendensiya şamil olunmur.

OpenAI-nin daxili testlərinə əsasən, yeni sistemlər şirkətin əvvəlki məntiqi əsaslandırma qabiliyyətinə malik modelləri - o1, o1-mini, o3-mini - və hətta ənənəvi “məntiqsiz” modellər, məsələn GPT-4o ilə müqayisədə daha çox halüsinasiyaya məruz qalırlar. Bəzi narahatlıq doğuran məqam ondan ibarətdir ki, bu halın səbəbini OpenAI şirkətinin özü də dəqiq bilmir. Texniki hesabatda qeyd olunur ki, “müzakirə yönümlü modellər genişləndikcə halüsinasiyaların artma səbəbini anlamaq üçün əlavə tədqiqatlara ehtiyac var”. OpenAI-nin o3 və o4-mini modelləri riyaziyyat və proqramlaşdırma sahələri daxil olmaqla bir sıra tapşırıqlarda əvvəlki modellərlə müqayisədə daha yaxşı nəticələr göstərirlər.

Lakin hesabatda bildirilir ki, “ümumilikdə daha çox iddia irəli sürdükləri üçün”, bu modellər həm “daha dəqiq”, həm də “daha qeyri-dəqiq və halüsinator” cavablar verməyə meyillidirlər. OpenAI-nin insanlar haqqında modellərin biliklərini qiymətləndirmək üçün hazırladığı PersonQA adlı daxili testində o3 modeli hallüsinasiyalara 33% hallarda yol verib ki, bu da əvvəlki məntiqi əsaslandırma modelləri olan o1 və o3-mini ilə müqayisədə təxminən 2 dəfə çoxdur (müvafiq olaraq 16% və 14.8%). o4-mini modeli isə həmin testdə 48% hallarda hallüsinasiyalar göstərib. Müstəqil tərtibatçının keçirdiyi Transluce adlı başqa bir testdə o3 modelinin guya cavab hazırlayarkən həyata keçirdiyi hərəkətləri uydurmağa meylli olduğu müəyyən edilib.

Məsələn, testlərdən birində o, 2021-ci il istehsalı olan Apple MacBook Pro-da “ChatGPT xaricində” proqram kodu işlətdiyini və nəticələri cavaba kopyaladığını iddia edib. Halbuki o3 modelinin bəzi alətlərə çıxışı olsa da, belə bir əməliyyatı yerinə yetirmək mümkün deyil. Versiyalardan birinə görə, daha əvvəl əsas təlim mərhələsindən sonra standart vasitələrin qoşulması ilə hallüsinasiyaların sayı azalırdısa da, “o” seriyalı modellər üçün istifadə olunan gücləndirici təlim növü bu problemi əksinə, daha da dərinləşdirə bilər. Mütəxəssislərin fikrincə, bu səbəbdən OpenAI-nin o3 modeli real istifadə üçün yetərincə faydalı olmaya bilər.
Bununla yanaşı, müəyyən edilib ki, proqramlaşdırma ilə bağlı tapşırıqlarda o3 digər modelləri xeyli üstələyir, lakin bəzən kodlara işləməyən veb-sayt keçidləri əlavə edir. Hallüsinasiyaların sayını azaltmaq üçün ümidverici yanaşmalardan biri isə modellər üçün veb-axtarış funksiyalarının açılmasıdır. Məsələn, GPT-4o OpenAI-nin SimpleQA adlı testində 90% düzgün cavab göstəricisinə nail olub. Bu yanaşma, ehtimal ki, məntiqi əsaslandırma qabiliyyəti olan modellər üçün də effektiv ola bilər. OpenAI TechCrunch saytına bildirib: “Bütün modellərimizdə hallüsinasiyaların aradan qaldırılması aktual tədqiqat sahəsidir və biz onların dəqiqliyini və etibarlılığını daim artırmaq üzərində işləyirik”.
Mənbə: Techcrunch
Paylaş
Bənzər xəbərlər

Tech-Biznes
Trump-ın yeni tarifləri ABŞ-ı süni zəka və çip istehsalı sahələrində geriyə ata bilər
Donald Trump-ın tarif siyasəti ölkə daxilində çip istehsalını stimullaşdırmaq planlarını və ABŞ-ın süni zəka bazarında üstünlük əldə etmək məqsədlərini təhlükə altına qoyur. Bu siyasət ABŞ-da yarımkeçirici istehsalı zavodlarının və süni zəka üçün məlumat emalı mərkəzlərinin tikinti xərclərinin artmasına səbəb ola bilər.

Proqram Təminatı
Yeni tendensiya: İnsanlar ChatGPT vasitəsilə şəkillərdəki məkanları təyin edirlər
İnternetdə sürətlə yayılan yeni və bir qədər narahatedici bir tendensiya ortaya çıxıb. İnsanlar şəkillərdə göstərilən məkanları müəyyən etmək üçün ChatGPT-dən istifadə edirlər. Bu gün OpenAI özünün ən yeni süni zəka modelləri olan o3 və o4-mini-ni təqdim edib.

Tech-Biznes
OpenAI süni zəka əsaslı proqramlaşdırma köməkçisi istehsalçısı Windsurf-ü ala bilər
Bloomberg-in məlumatına görə, süni zəkaya əsaslanan məşhur proqramlaşdırma köməkçisinin istehsalçısı olan Windsurf şirkəti OpenAI tərəfindən təxminən 3 milyard dollara alınması ilə bağlı danışıqlar aparır.

Süni İntellekt
OpenAI o3 və o4-mini süni zəka modellərini təqdim edib
OpenAI şirkəti düşünmə qabiliyyətinin təkmilləşdirilməsinə əsaslanan iki yeni süni zəka modelinin istifadəyə verildiyini elan edib. OpenAI o3 modeli tərtibatçılar tərəfindən “düşünmə qabiliyyətinə malik ən güclü model” kimi təqdim olunur.

Süni İntellekt
İsveçli alimlər süni zəkaya atın bədən dilini öyrədiblər
İsveçli alimlər qrupu atların bədən dilini insan üçün anlaşılan formata çevirə bilən Dessie adlı süni zəka modelini hazırlayıb. Bu həllin əsasında machine learning texnologiyaları və sintetik görüntülər dayanır.
Ən çox oxunanlar

Nike isitmə sisteminə sahib ağıllı idman ayaqqabısını təqdim edib - QİYMƏTİ
