main-post-cover

    Meta mətnli təsvirlər əsasında fotoları tərtib edən sistemini anons edib

    Proqram Təminatı
    Servislər
    17.07.2023
    Farid Pardashunas
        Süni zəka alqoritmləri əsasında çalışaraq müxtəlif növ fotoların tərtib edilməsini bacaran sistemlər son 2 il ərzində artıq adi bir hala çevriliblər. Həmin sistemlərin əksəriyyəti bir-birilərindən o qədər də fərqlənmirlər. Lakin Meta şirkətinin sözlərinə əsasən onun tərtibatçıları tərəfindən yaradılmış CM3Leon adlı yeni sistem sözün əsl mənasında innovasiyalıdır. Məlumata əsasən Meta-nın CM3Leon adlı yeni sisteminin digər analoqlardan əsas üstünlüyü mətn formatında təsvirlərin fotolara çevrilməsi performansının yüksək olmasındadır. Mətn formatında təsvirlər əsasında fotoların tərtib edilməsi üçün nəzərdə tutulmuş müasir sistemlər (DALL-E, Google Imagen və Stable Diffusion) fotoların tərtib edilməsi prosesində diffuziyadan istifadə edirlər. Yəni söhbət, sistem qarşısına qoyulmuş yekun məqsədə çatma yolunda onun ilkin fotodan küyün təmizləməsindən gedir.
        Nəticə etibarilə əldə edilən foto inandırıcı görünür. Lakin bu cür tərzdə çalışan alqoritmlər müəyyən səviyyədə yüksək hesablayıcı resursları tələb edirlər. Buna görə də onların çalışması heç də ucuz başa gəlmir. Meta tərəfindən hazırlanmış CM3Leon adlı yeni sistemin çalışma prinsipi isə tamamilə fərqlidir. Onun əsasında transformer alqoritm dayanır. Transformer alqoritm öz növbəsində ilkin məlumatların (mətn və ya foto) aktuallıqlarını qiymətləndirmək üçün nəzərdə tutulub. Maraqlısı ondadır ki, OpenAI şirkəti ilkin olaraq transformer alqoritm əsaslı sistem üzərində çalışırdı. Lakin nəticədə şirkət diffuziya alqoritmlərindən istifadə etmək qərarına gəldi. CM3Leon-un təlimatlandırılmasında Shutterstock tərəfindən lisenziyalaşdırılmış 2 milyon foto istifadə edilib. Məlumatda qeyd edilib ki, CM3Leon-un ən güclü versiyası 7 milyard parametrə sahibdir.
        Müqayisə üçün qeyd etmək lazımdır ki, OpenAI şirkətinin DALL-E sistemi 2 milyard parametrə sahibdir. Bununla yanaşçı CM3Leon-da SFT (Supervised Fine-Tuning) adlı əlavə təlimatlandırma mexanizmi istifadə edilib. Adətən bu mexanizm mətnlərin tərtibatı üçün nəzərdə tutulmuş sistemlərdə istifadə edilir. SFT-nın istifadəsi sayəsində fotoların tərtibatı və tərtib edilmiş fotolara təsvirlərin hazırlanması proseslərində CM3Leon-un performansı yüksəlib. Bununla yanaşı sistem mətn formatında təsvirlər əsasında fotoların detallı şəkildə redaktə edilməsi imkanını da əldə edib. Ümumi olaraq söyləmək olar ki, CM3Leon konkret əmrləri ilkin məlumatlar kimi qəbul edir. Sistem hətta fotonun hansı hissəsindəki pikselində bu və ya digər obyektin yerləşməli olduğunu da nəzərə alır. Məsələn DALL-E bu cür detalları nəzərə almır və çox zaman fotonun müəyyən hissəsində yerləşdirilməsi tələb edilən obyekti yerləşdirməkdən imtina edir.
    Linki kopyala

    Bənzər xəbərlər

    Oxşar xəbərlər