2020. 11. 20. - 08:50

100 nyelven képes fordításokat végezni a Facebook mesterséges intelligencia modellje

100 nyelven képes fordításokat végezni a Facebook mesterséges intelligencia modellje
Nyílt forráskódú, tehát bárki számára hozzáférhető és saját alkalmazásokba építhető az a mesterséges intelligencia alapú modell, amit a Facebook fejlesztett ki. Az új módszer 100 nyelvet támogat, és anélkül fordítja le a tartalmakat, hogy közbeiktatná az angol nyelvet.

Az M2M-100 nevet viselő mesterséges intelligencia modellt 7,5 milliárd mondatpárt magába foglaló adatkészleten tréningezték 100 nyelven, mely mondatokat az internetről gyűjtötték. Természetesen nem privát tartalmakról van szó, a Facebook szerint nyílt forráskódú, nyilvánosan elérhető adatokat használtak fel a folyamathoz.

A kutatók az adatbányászat során olyan nyelvfordításokra fókuszáltak, amelyeket a meglévő statisztikák szerint a leggyakrabban vettek igénybe a felhasználók. Ezzel együtt kerülték a ritkább nyelvpárokat, tehát egyelőre például a szingalézról jávaira történő fordítás nem lehetséges.


A közeljövő fordítási technológiáját készítette el a Facebook a mesterséges intelligencia segítségével


Ezt követően a nyelveket 14 különböző csoportba sorolták nyelvi, földrajzi és kulturális hasonlóságok alapján. Ez a megközelítés azért hasznos, mert azokban az országokban, ahol a beszélt nyelvek rendelkeznek ilyen közös jellemzőkkel, profitálhatnak egymás fordításaiból. Ilyen ország többek között India, ahol egyaránt hivatalosnak számít a hindi, a bengáli és a maráthi nyelv. A megalkotott csoportokon belül aztán az összes lehetséges nyelvpárt megkülönböztették.

A csoportokban szereplő nyelvek kis számú, úgynevezett hídnyelveken keresztül kapcsolódtak egymáshoz. A hindi, a bengáli és a tamil nyelvek például hídnyelvei lettek az indoárja nyelveknek. A mesterséges intelligencia tréningezése pedig ezeknek a hídnyelveknek a kombinálásával történt, így keletkezett a 7,5 milliárd párhuzamos mondatból álló adatkészlet, ami 2200 fordítási iránynak felel meg.

A minőségi fordítási adatokkal nem rendelkező nyelveknél is besegítenek a bányászott adatok, hiszen ezek támogatják a visszafordításnak nevezett módszert a szintetikus fordítások előállításakor.

Az új MI-módszer szerepe azért különösen jelentős, mert ez az első többnyelvű gépi fordítási modell, amely a 100 nyelv bármilyen párosa között képes közvetlenül fordítani anélkül, hogy először a forrásnyelvet angolra, majd az angolt a célnyelvre fordítaná le.

Jelenleg még csak egy kutatási projektet jelent az M2M-100 rendszer, viszont várhatóan a közeljövőben ezzel lehet majd a Facebook-bejegyzéseket is lefordítani. Ez nagy segítség lehet a felhasználóknak, ugyanis közel kétharmaduk nem az angol nyelvet használja a platformon.

- Varga Viktor -

Hírlevél feliratkozás

Kérjük, add meg adataidat a hírlevélre történő feliratkozáshoz! A megadott adatokat bizalmasan kezeljük, azokat harmadik félnek át nem adjuk.