Logo
    main-post-cover

    Google Gemini 2.5 dialoqlarda emosiyaları ötürməyi öyrənib

    Proqram Təminatı
    05.06.2025
    Emil
         Google I/O 2025 konfransında şirkət öz multimodal modeli olan Gemini 2.5-in yeni versiyasını təqdim etdi. Bu versiya artıq real vaxtda audio və dialoq generasiyasını dəstəkləyir. Sözügedən imkanlar Google AI StudioVertex AI platformaları vasitəsilə proqramçılar üçün ilkin sınaq versiyasında əlçatandır. Gemini 2.5 Flash Preview modeli süni zəka ilə səsli qarşılıqlı əlaqəni daha real edir. O, danışığın emosional tonunu tanıya, intonasiyanı və aksenti uyğunlaşdıra bilir, həmçinin 24-dən çox dil arasında keçid etməyə imkan verir.
         Model fon səslərini nəzərə almadan danışığı emal edə bilir və dialoq zamanı aktual məlumat almaq üçün Google Search kimi xarici alətlərdən istifadə edə bilir. Əlavə olaraq, Gemini 2.5 nitqin sintezi (TTS) sahəsində genişləndirilmiş funksiyalar təqdim edir - səsləndirmənin üslubu, tempi və emosional ifadəliliyi üzərində idarəetməyə imkan verir. Bir neçə səsdən ibarət dialoqların generasiyası da dəstəklənir, bu isə modeli podkastlar, audio kitablar və digər multimedia məhsullarının yaradılması üçün uyğun edir.
         Şəffaflığın təmin edilməsi məqsədilə, model tərəfindən yaradılan bütün audio materiallar SynthID texnologiyası ilə işarələnir. Bu da həmin məzmunların süni zəka tərəfindən generasiya edildiyini müəyyən etməyə imkan verir. Proqramçılar Google AI Studio platformasında Stream Generate Media bölmələri vasitəsilə bu yeni funksiyaları sınaqdan keçirə bilərlər. Gemini 2.5 multimodal süni zəka sistemləri sahəsində əhəmiyyətli bir irəliləyiş nümayiş etdirir - mətn, foto, audio və videonu vahid platformada birləşdirir. Yeni funksiyalar interaktiv tətbiqlər, virtual assistentlər və təhsil sahəsində innovasiyaların yaradılması üçün geniş imkanlar açır.
    Paylaş