main-post-cover

    azcorpus - Azərbaycan üçün ən böyük açıq mənbəli NLP korpusu (1,9 milyon sənəd, ~ 18 milyon cümlə)

    Digər
    Reklam və Marketinq
    07.04.2023
    Farid Pardashunas
        Son zamanlar, ChatGPT başda olmaqla NLP həllərinin çox məşhurlaşdığının şahidi oluruq. Bununla belə, NLP-də əksər tədqiqat işləri ingilis dili kimi yüksək resurslu dillərə yönəlmişdir. Az resurslu dillər üçün NLP tədqiqatında əhəmiyyətli boşluq var, Azərbaycan dili də istisna deyil.  Biz öz dilimizdə GPT məhsullarını hazırlamaq istəsək, əksər dillərdə olduğu adekvat korpusun mövcud olmamağı qarşımızı kəsirdi.
        Biz NLP cəmiyyətinə töhfə vermək məqsədi ilə Azərbaycan dili üçün indiyə qədər yaradılmış ən böyük open-source NLP korpusunu  - “azcorpus”u yaratdıq.

    Korpusun xülasəsi

        Müxtəlif NLP layihələrində (text generation, chatbots) istifadə oluna biləcək “azcorpus” Azərbaycan dilində ümumilikdə 1,9 milyon mətndən və təqribən 18 milyon cümlədən ibarətdir. Mətnlər xəbər saytları, jurnallar, vikipediya məqalələri, kitablar daxil olmaqla müxtəlif mənbələrdən seçilmişdir və siyasət, iqtisadiyyat, elm, mədəniyyət, idman, tarix, cəmiyyət və s. o cümlədən bir sıra digər mövzuları əhatə edən mətnlərlə janr və mövzu üzrə əhatə olunub.
        Ən əsası isə, azcorpus təkcə bədii ədəbiyyat deyil, həm də fizika, kimya və s. kimi elmi mətnləri də əhatə edəcək şəkildə genişləndirilib. 
        Azcorpusda 3 mənbədən götürülmüş (az_books, az_wiki və az_news) və 1.876.492 təmizlənmiş sənəd var. Hazırda korpusun ümumi həcmi 23.4 GB təşkil edir. Müqayisə üçün qeyd edək ki, GPT-3 nəsil model müxtəlif mənbələrdən toplanmış 800 GB həcmli data, GPT-2 modeli isə 40 GB data üzərində öyrədilib.
        Bu korpusu geniş ictimaiyyət üçün əlçatan etməklə biz Azərbaycan dilində NLP həllərinin yaradılması üçün gələcək tədqiqat və inkişafı stimullaşdırmağa, eyni zamanda dil müxtəlifliyi və mədəni irsin təşviqi kimi daha geniş məqsədə töhfə verməyə ümid edirik.
        Korpusdan istifadə etmək üçün https://huggingface.co/datasets/azcorpus/azcorpus_v0 linkindən istifadə edə bilərsiniz.
    Linki kopyala

    Bənzər xəbərlər

    Oxşar xəbərlər