
Google Gemini 2.5 dialoqlarda emosiyaları ötürməyi öyrənib
Proqram Təminatı
05.06.2025
Emil
Google I/O 2025 konfransında şirkət öz multimodal modeli olan Gemini 2.5-in yeni versiyasını təqdim etdi. Bu versiya artıq real vaxtda audio və dialoq generasiyasını dəstəkləyir. Sözügedən imkanlar Google AI Studio və Vertex AI platformaları vasitəsilə proqramçılar üçün ilkin sınaq versiyasında əlçatandır. Gemini 2.5 Flash Preview modeli süni zəka ilə səsli qarşılıqlı əlaqəni daha real edir. O, danışığın emosional tonunu tanıya, intonasiyanı və aksenti uyğunlaşdıra bilir, həmçinin 24-dən çox dil arasında keçid etməyə imkan verir.

Model fon səslərini nəzərə almadan danışığı emal edə bilir və dialoq zamanı aktual məlumat almaq üçün Google Search kimi xarici alətlərdən istifadə edə bilir. Əlavə olaraq, Gemini 2.5 nitqin sintezi (TTS) sahəsində genişləndirilmiş funksiyalar təqdim edir - səsləndirmənin üslubu, tempi və emosional ifadəliliyi üzərində idarəetməyə imkan verir. Bir neçə səsdən ibarət dialoqların generasiyası da dəstəklənir, bu isə modeli podkastlar, audio kitablar və digər multimedia məhsullarının yaradılması üçün uyğun edir.
Şəffaflığın təmin edilməsi məqsədilə, model tərəfindən yaradılan bütün audio materiallar SynthID texnologiyası ilə işarələnir. Bu da həmin məzmunların süni zəka tərəfindən generasiya edildiyini müəyyən etməyə imkan verir. Proqramçılar Google AI Studio platformasında Stream və Generate Media bölmələri vasitəsilə bu yeni funksiyaları sınaqdan keçirə bilərlər. Gemini 2.5 multimodal süni zəka sistemləri sahəsində əhəmiyyətli bir irəliləyiş nümayiş etdirir - mətn, foto, audio və videonu vahid platformada birləşdirir. Yeni funksiyalar interaktiv tətbiqlər, virtual assistentlər və təhsil sahəsində innovasiyaların yaradılması üçün geniş imkanlar açır.
Paylaş
Ən çox oxunanlar

Huawei Pura 80 smartfon seriyasının təqdimatı anons edilib
