100 nyelven képes fordításokat végezni a Facebook mesterséges intelligencia modellje
Az M2M-100 nevet viselő mesterséges intelligencia modellt 7,5 milliárd mondatpárt magába foglaló adatkészleten tréningezték 100 nyelven, mely mondatokat az internetről gyűjtötték. Természetesen nem privát tartalmakról van szó, a Facebook szerint nyílt forráskódú, nyilvánosan elérhető adatokat használtak fel a folyamathoz.
A kutatók az adatbányászat során olyan nyelvfordításokra fókuszáltak, amelyeket a meglévő statisztikák szerint a leggyakrabban vettek igénybe a felhasználók. Ezzel együtt kerülték a ritkább nyelvpárokat, tehát egyelőre például a szingalézról jávaira történő fordítás nem lehetséges.
A közeljövő fordítási technológiáját készítette el a Facebook a mesterséges intelligencia segítségével
Ezt követően a nyelveket 14 különböző csoportba sorolták nyelvi, földrajzi és kulturális hasonlóságok alapján. Ez a megközelítés azért hasznos, mert azokban az országokban, ahol a beszélt nyelvek rendelkeznek ilyen közös jellemzőkkel, profitálhatnak egymás fordításaiból. Ilyen ország többek között India, ahol egyaránt hivatalosnak számít a hindi, a bengáli és a maráthi nyelv. A megalkotott csoportokon belül aztán az összes lehetséges nyelvpárt megkülönböztették.
A csoportokban szereplő nyelvek kis számú, úgynevezett hídnyelveken keresztül kapcsolódtak egymáshoz. A hindi, a bengáli és a tamil nyelvek például hídnyelvei lettek az indoárja nyelveknek. A mesterséges intelligencia tréningezése pedig ezeknek a hídnyelveknek a kombinálásával történt, így keletkezett a 7,5 milliárd párhuzamos mondatból álló adatkészlet, ami 2200 fordítási iránynak felel meg.
A minőségi fordítási adatokkal nem rendelkező nyelveknél is besegítenek a bányászott adatok, hiszen ezek támogatják a visszafordításnak nevezett módszert a szintetikus fordítások előállításakor.
Az új MI-módszer szerepe azért különösen jelentős, mert ez az első többnyelvű gépi fordítási modell, amely a 100 nyelv bármilyen párosa között képes közvetlenül fordítani anélkül, hogy először a forrásnyelvet angolra, majd az angolt a célnyelvre fordítaná le.
Jelenleg még csak egy kutatási projektet jelent az M2M-100 rendszer, viszont várhatóan a közeljövőben ezzel lehet majd a Facebook-bejegyzéseket is lefordítani. Ez nagy segítség lehet a felhasználóknak, ugyanis közel kétharmaduk nem az angol nyelvet használja a platformon.
- Varga Viktor -