
Claude çat-botu istifadəçinin zərərli və ya təhqiramiz dialoqlarını avtomatik olaraq dayandıracaq
Proqram Təminatı
19.08.2025
Emil
Anthropic öz çat-botu Claude AI-ya “zərərli və ya təhqiramiz” hesab etdiyi ünsiyyətləri dayandırmağı öyrədib. Bu imkan artıq Opus 4 və 4.1 modellərində mövcuddur. Bu funksiya Claude-un istifadəçinin dəfələrlə zərərli və ya təhqiramiz məzmun yaratmağa cəhd etməsindən sonra son tədbir olaraq söhbəti sonlandırmasına imkan verir. Anthropic süni intellekt modellərinin “potensial rifahını” qorumaq məqsədilə Claude-un açıq şəkildə “narahatlıq” hiss etdiyi dialoqları dayandırmaq istədiyini bildirir. Claude-un söhbəti dayandırmasından sonra istifadəçi həmin söhbətdə yeni mesaj göndərə bilməyəcək, lakin yeni söhbətlər yaratmaq imkanı açıq qalacaq.

Anthropic qeyd edib ki, bu cür reaksiyaya səbəb olan söhbətlər “istisna hallardır” və əlavə edib ki, əksər istifadəçilər hətta mübahisəli mövzular haqqında danışsalar belə, bu məhdudiyyətlə qarşılaşmayacaqlar. Claude Opus 4-ün testləri zamanı çat-botun “zərər verməyə qarşı davamlı və ardıcıl ikrah hissi” nümayiş etdirdiyi müşahidə olunub. Bu, xüsusilə yetkinlik yaşına çatmayanların iştirakı ilə seksual məzmunun yaradılması, zorakılıq və terrorizm hallarına aiddir. Anthropic-in məlumatına görə, bu kimi hallarda Claude “aydın narahatlıq” göstərmiş və “zərərli söhbətləri dayandırmağa meyilli olmuşdur - əgər ona bu imkan verilmişdisə”.

Eyni zamanda Claude-a birbaşa göstəriş verilib ki, əgər istifadəçi özünə və ya başqalarına “qaçılmaz zərər” vermək niyyəti göstərirsə, bu zaman söhbəti dayandırmasın. Bu cür hallarda Anthropic, özünə zərər və psixi sağlamlıqla bağlı sorğulara cavab hazırlamaq üçün Throughline adlı onlayn böhran dəstək xidmətindən istifadə edir. Ötən həftə Anthropic, süni intellekt modellərinin sürətlə inkişaf etməsi fonunda artan təhlükəsizlik narahatlıqları səbəbindən öz çat-botunun istifadəsi ilə bağlı siyasətini yeniləyib. Artıq şirkət Claude-un bioloji, nüvə, kimyəvi və ya radioloji silahların hazırlanması, zərərli kodların yaradılması və ya şəbəkə boşluqlarından istifadə məqsədilə tətbiqini qadağan edir.
Paylaş