2025. 09. 11. - 11:21

Az Alibaba létrehozta világ legpontosabb MI-alapú beszédfelismerőjét

Az Alibaba létrehozta világ legpontosabb MI-alapú beszédfelismerőjét

Az Alibaba bemutatta Qwen3-ASR-Flash modelljét, amely forradalmasíthatja a beszédfelismerést és a 6G-korszak egyik legfontosabb mesterséges intelligencia-eszközévé válhat.

Az Alibaba kutatói bejelentették legújabb fejlesztésüket, a Qwen3-ASR-Flash modellt, amely lenyűgöző pontossággal képes felismerni és leírni a beszédet. Az Artificial Intelligence News részletes beszámolója szerint a rendszer több tízmillió órányi hanganyagon lett betanítva, így különösen jól boldogul bonyolult akusztikai helyzetekben és változatos nyelvi minták mellett is. Ez az áttörés nemcsak a jelenlegi megoldásokat előzi meg, hanem egy teljesen új korszakot is nyithat a mesterséges intelligencia-alapú transzkripcióban.
 
A teszteredmények önmagukért beszélnek: kínai nyelven mindössze 3,97 százalékos hibaarányt ért el, miközben a versenytársak, például a Gemini-2.5-Pro vagy a GPT4o-Transcribe jóval magasabb hibaszázalékkal dolgoztak. Az Alibaba új modellje angol nyelven is brillírozott, 3,81 százalékos hiba aránnyal, ami szintén messze jobb az eddig megszokott szintnél. Az Artificial Intelligence News által idézett szakértők szerint a zenei szövegek feldolgozása az igazi áttörés, hiszen ezen a területen korábban a hibaszázalék sokszor drámai mértékben emelkedett.
 
 
alibaba_beszed_torzs
A mesterséges intelligencia, ami még a dalok szövegét is hibátlanul érti
 
A Qwen3-ASR-Flash nemcsak pontosabb, de rugalmasabb is. Új funkciója, a kontextus-alapú beállítás lehetővé teszi, hogy bármilyen háttérszöveg segítségével finomhangoljuk a felismerést, legyen szó kulcsszavak listájáról vagy teljes dokumentumokról. Ez a rugalmasság teszi igazán alkalmassá arra, hogy a 6G-hez kapcsolódó kommunikációs rendszerek egyik alappillére legyen, hiszen a jövő világában az emberi és gépi kommunikáció közötti átjárásnak villámgyorsnak és torzításmentesnek kell lennie.
 
Az új modell már most 11 nyelvet és számos dialektust támogat, a mandarin mellett a kantoni, a szecsuáni vagy a hokkién nyelv változatot is. Az európai nyelvek – például az angol, francia, német vagy spanyol – feldolgozása szintén kiemelkedő pontosságot mutat. Ez azt jelenti, hogy globális szinten is komoly előrelépést jelent, hiszen a mesterséges intelligencia így valóban képes lehet áthidalni a nyelvi korlátokat.
 
Az Alibaba fejlesztése egyértelmű üzenetet hordoz: a jövő beszédfelismerése nemcsak pontos, hanem kontextusban is értelmező, kulturálisan érzékeny és technológiailag minden eddiginél fejlettebb lesz. Ez a modell új mércét állíthat a 6G-korszak kommunikációs világában, ahol a mesterséges intelligencia és az emberi beszéd közötti határ végleg elmosódhat.
 
 
CS.SZ.

Hírlevél feliratkozás

Kérjük, add meg adataidat a hírlevélre történő feliratkozáshoz! A megadott adatokat bizalmasan kezeljük, azokat harmadik félnek át nem adjuk.