Logo
    main-post-cover

    GPT-5 və Claude Opus 4.1 tətbiqi peşələrdə ekspert səviyyəsinə çatıblar

         OpenAI müasir süni intellekt modellərinin tətbiqi peşələrdə ekspert səviyyəsinə nə dərəcədə yaxınlaşdıqlarını qiymətləndirən yeni test toplusu - GDPval təqdim edib. Sınaqlar üçün şirkət ABŞ iqtisadiyyatının əsas sahələrindən - tibbdən və maliyyədən tutmuş jurnalistika və İT-yə qədər - 44 ixtisas seçib. Tədqiqat çərçivəsində süni intellekt ən azı 14 illik iş təcrübəsinə malik mütəxəssislər tərəfindən əvvəlcədən hazırlanmış tipik tapşırıqları yerinə yetirib. Hər peşə üzrə təxminən 30 praktiki ssenari hazırlanıb.
         Məsələn, süni intellekt sifarişlərin auditini aparmalı və hesab-fakturalardakı səhvləri tapmalı, hüquqi rəy hazırlamalı və ya pasiyent üçün baxım planı tərtib etməli olub. Daha sonra həmin ekspertlər “kor” qiymətləndirmə aparıblar: iki variant arasından ən yaxşı həlli seçiblər, amma hansı cavabın insana, hansının neyroşəbəkəyə məxsus olduğunu bilməyiblər. GPT-5-high modeli halların 40.6%-də mütəxəssislərlə eyni səviyyədə və ya onlardan daha yaxşı nəticə göstərib, halbuki əvvəlki GPT-4o cəmi 12% nəticə nümayiş etdirib.
         Rəqib isə daha da yüksək göstərici əldə edib: Anthropic şirkətinin Claude Opus 4.1 modeli 49% nəticə göstərib, xüsusilə sənədlərin və təqdimatların keyfiyyətli vizual tərtibatı tələb olunan hallarda yaxşı fərqlənib. Bununla belə, OpenAI dəqiqləşdirir: söhbət, mütəxəssislərin əvəz olunmasından getmir. Ekspertlər hələ də işin əsas hissəsini yerinə yetirirlər, süni intellekt isə hələlik yalnız müəyyən rutin tapşırıqların bir hissəsini etibarlı şəkildə öz üzərinə götürə bilir. Şirkət vurğulayır ki, artıq indi belə alətlər əməkdaşların iş yükünü azalda və onların peşələrinin daha mürəkkəb və dəyərli tərəflərinə fokuslanmalarına imkan verə bilər.
    Paylaş