2023. 04. 13. - 09:00

Néma beszédet olvas a mesterséges intelligencia-szemüveg

Néma beszédfelismerő interfészt fejlesztettek ki a kutatók, mely akusztikus érzékelés és mesterséges intelligencia használatával működik.

Néma beszédet olvasó szemüveggel álltak elő a Cornell Egyetem kutatói. Olyan, néma beszéd-felismerő interfészt alkottak meg, amely akusztikus érzékelés és mesterséges intelligencia alkalmazásával akár 31 hang nélküli parancsot is folyamatosan azonosít az ajak és száj mozgása alapján.

Az interfész alacsony fogyasztású és viselhető. Az EchoSpeech elnevezésű eszköz mindössze néhány percnyi felhasználói betanítási adatot igényel, mielőtt felismeri a parancsokat és futtathatóvá válik az okostelefonon.

Az EchoSpeech vezető fejlesztője Ruidong Zhang információtudományi doktorandusz – a találmányt Hamburgban mutatják majd be 2023 áprilisában.

„Azoknak, akik nem tudnak hangot kiadni, a néma beszédtechnológia kiváló bemenetet képezhet egy hangszintetizátorhoz. Visszaadhatja a betegek hangját” - mondta Zhang a technológia további fejlesztésekkel történő felhasználásáról. Olvasd el: Jelentősen csökkentek az MI beszédfelismerési hibái

Néma beszédet olvas a mesterséges intelligencia-szemüveg

Az EchoSpeech azonban már jelenlegi formájában is alkalmazható másokkal való kommunikációra okostelefonon keresztül, olyan helyeken, ahol a beszéd kényelmetlen vagy nem megfelelő, például egy zajos étteremben vagy egy csendes könyvtárban.

Az interfész párosítható tollal, illetve olyan tervezőszoftverekkel, mint a CAD, így nincs szükség billentyűzetre és egérre.

A ceruzaradíroknál kisebb mikrofonokkal és hangszórókkal felszerelt EchoSpeech szemüveg egy mesterséges intelligenciával működtetett, hordható szonárrendszerré válik, amely hanghullámokat küld és fogad az arcon keresztül, s érzékeli a száj mozgását.

Ezután egy mély tanulási algoritmus valós időben elemzi a visszhangprofilokat, körülbelül 95 százalékos pontossággal.

A szonárt a testre helyezik – jegyezte meg Cheng Zhang információtudományi adjunktus, a Cornell Intelligens számítógépes interfészek a jövőbeli interakciókhoz (SciFi) Laboratóriumának igazgatója. Olvasd el: MI segít leküzdeni a nyilvános beszéd miatti szorongást

A néma beszédfelismerés legtöbb technológiája előre meghatározott parancsok kiválasztott készletére korlátozódik és megköveteli, hogy a felhasználó szembe nézzen vagy kamerát viseljen, ami nem praktikus és nem is kivitelezhető – hívta fel a figyelmet Cheng Zhang.

A hordható kamerákkal kapcsolatban komoly adatvédelmi aggályok is felmerülnek – mind a felhasználó, mind pedig azok számára, akikkel ő kapcsolatba lép.

Az akusztikus érzékelő technológia azonban - mint például az EchoSpeech -, megszünteti a hordható videokamerák szükségességét.

Emellett, mivel a hangadatok sokkal kisebbek, mint a kép- vagy videoadatok, feldolgozásuk nem igényel akkora sávszélességet és valós időben továbbíthatók az okostelefonra Bluetooth-on keresztül – mondta François Guimbretière, az információtudomány professzora.

További előny, hogy az adatok helyben vannak feldolgozva az okostelefonon, ahelyett, hogy a felhőbe jutnának – így az adatvédelmi szempontból érzékeny információk soha nem kerülnek ki a felhasználó irányítása alól.

Olvasd el ezt is: Mesterséges intelligencia - Halláskárosultaknak segíthetnek az algoritmusok

L.A.

Néma beszédet olvas a mesterséges intelligencia-szemüveg

Hírlevél feliratkozás

Az Amazon új rendszere úgy működik, mint az emberi agy

A generatív MI hidat épít a tudás és a siker között

A generatív MI tervez, te viseled: ilyen lesz a jövő divat világa

Nagy segítség lehet az MI az ünnepi időszakban a magyar kkv-knak

Felnőttekkel erotikusan is cseveg majd a ChatGPT - Sam Altman bedobta a bombát

Gemini Enterprise: a Google új szuperügynöke