2023. 04. 13. - 09:00

Néma beszédet olvas a mesterséges intelligencia-szemüveg

Néma beszédet olvas a mesterséges intelligencia-szemüveg

Néma beszédfelismerő interfészt fejlesztettek ki a kutatók, mely akusztikus érzékelés és mesterséges intelligencia használatával működik.

Néma beszédet olvasó szemüveggel álltak elő a Cornell Egyetem kutatói. Olyan, néma beszéd-felismerő interfészt alkottak meg, amely akusztikus érzékelés és mesterséges intelligencia alkalmazásával akár 31 hang nélküli parancsot is folyamatosan azonosít az ajak és száj mozgása alapján.
 
Az interfész alacsony fogyasztású és viselhető. Az EchoSpeech elnevezésű eszköz mindössze néhány percnyi felhasználói betanítási adatot igényel, mielőtt felismeri a parancsokat és futtathatóvá válik az okostelefonon.
 
Az EchoSpeech vezető fejlesztője Ruidong Zhang információtudományi doktorandusz – a találmányt Hamburgban mutatják majd be 2023 áprilisában.
 
„Azoknak, akik nem tudnak hangot kiadni, a néma beszédtechnológia kiváló bemenetet képezhet egy hangszintetizátorhoz. Visszaadhatja a betegek hangját” - mondta Zhang a technológia további fejlesztésekkel történő felhasználásáról. Olvasd el: Jelentősen csökkentek az MI beszédfelismerési hibái
 
Néma beszédet olvas a mesterséges intelligencia-szemüveg
Néma beszédet olvas a mesterséges intelligencia-szemüveg
 
Az EchoSpeech azonban már jelenlegi formájában is alkalmazható másokkal való kommunikációra okostelefonon keresztül, olyan helyeken, ahol a beszéd kényelmetlen vagy nem megfelelő, például egy zajos étteremben vagy egy csendes könyvtárban.
 
Az interfész párosítható tollal, illetve olyan tervezőszoftverekkel, mint a CAD, így nincs szükség billentyűzetre és egérre.
 
A ceruzaradíroknál kisebb mikrofonokkal és hangszórókkal felszerelt EchoSpeech szemüveg egy mesterséges intelligenciával működtetett, hordható szonárrendszerré válik, amely hanghullámokat küld és fogad az arcon keresztül, s érzékeli a száj mozgását. 
 
Ezután egy mély tanulási algoritmus valós időben elemzi a visszhangprofilokat, körülbelül 95 százalékos pontossággal.
 
A szonárt a testre helyezik – jegyezte meg Cheng Zhang információtudományi adjunktus, a Cornell Intelligens számítógépes interfészek a jövőbeli interakciókhoz (SciFi) Laboratóriumának igazgatója. Olvasd el: MI segít leküzdeni a nyilvános beszéd miatti szorongást
 
A néma beszédfelismerés legtöbb technológiája előre meghatározott parancsok kiválasztott készletére korlátozódik és megköveteli, hogy a felhasználó szembe nézzen vagy kamerát viseljen, ami nem praktikus és nem is kivitelezhető – hívta fel a figyelmet Cheng Zhang.
 
A hordható kamerákkal kapcsolatban komoly adatvédelmi aggályok is felmerülnek – mind a felhasználó, mind pedig azok számára, akikkel ő kapcsolatba lép.
 
Az akusztikus érzékelő technológia azonban - mint például az EchoSpeech -, megszünteti a hordható videokamerák szükségességét.
 
Emellett, mivel a hangadatok sokkal kisebbek, mint a kép- vagy videoadatok, feldolgozásuk nem igényel akkora sávszélességet és valós időben továbbíthatók az okostelefonra Bluetooth-on keresztül – mondta François Guimbretière, az információtudomány professzora.
 
További előny, hogy az adatok helyben vannak feldolgozva az okostelefonon, ahelyett, hogy a felhőbe jutnának – így az adatvédelmi szempontból érzékeny információk soha nem kerülnek ki a felhasználó irányítása alól.
 
 
L.A.

Hírlevél feliratkozás

Kérjük, add meg adataidat a hírlevélre történő feliratkozáshoz! A megadott adatokat bizalmasan kezeljük, azokat harmadik félnek át nem adjuk.

 

gyulai_vafurdo

profight_banner.