2025. 01. 09. - 09:15
Kimerítettük a mesterséges intelligencia képzési adatait – ismerte be Elon Musk
Elon Musk egyetért más MI-szakértőkkel abban, hogy már kimerítettük a mesterséges intelligencia-képzéshez szükséges adatokat.
Kevés valós adat maradt a mesterséges intelligencia-modellek betanításához – ismerte el Elon Musk.
A technológiai guru, aki a Space X, a Tesla alapítója és a mesterséges intelligencia-vállalat, az xAI tulajdonosa is, egyetért más mesterséges intelligencia-szakértőkkel abban, hogy kimerítettük az MI képzési adatait.
„Most alapvetően kimerítettük az emberi tudás összesített összegét a mesterséges intelligencia-képzésben. Ez alapvetően tavaly történt” - közölte Musk egy, a Stagwell elnökével, Mark Penn-el folytatott élő közvetítés során.
A millliárdos üzletember újra felemlegette azokat a témákat, amelyeket az OpenAI korábbi vezető tudósa, Ilya Sutskever érintett egy 2024 decemberében lezajlott gépi tanulási konferencián, a NeurIPS-en.
Sutskever azt mondta: a mesterséges intelligencia iparág elérte az általa „csúcsadatoknak” nevezett állapotot, s azt jósolta, hogy a képzési adatok hiánya elmozdulást fog okozni a modellek mai fejlesztésének módjától.
Elon Musk szerint a szintetikus adatok – maguk az MI-modellek által generált adatok – jelentik az előre vezető utat.
„A valós adatok kiegészítésének egyetlen módja a szintetikus adatok, ahol a mesterséges intelligencia létrehozza a képzési adatokat - mondta. - A szintetikus adatokkal… az MI önmagát minősíti és átmegy ezen az öntanulási folyamaton.”
Szintetikus adatok kora jöhet
Más cégek - köztük olyan technológiai óriások, mint a Microsoft, a Meta, az OpenAI és az Anthropic - már szintetikus adatokat használnak a sereghajtó MI-modelljeik képzéséhez. Olvasd el: Busás haszonnak ígérkezik Elon Musk xAI cége
Kimerítettük a mesterséges intelligencia képzési adatait – ismerte be Elon Musk
A Gartner becslése szerint 2024-ben a mesterséges intelligencia- és elemzési projektekhez felhasznált adatok 60 százaléka szintetikus úton jött létre.
A Microsoft Phi-4-ét, amelyet január 8-ára tettek nyílt forráskódúvá, szintetikus adatokra képezték ki a valós adatok mellett.
S ide sorolhatóak a Google Gemma modelljei is. Az Anthropic szintetikus adatokat használt fel egyik leginkább teljesítményképes rendszere, a Claude 3.5 Sonnet kifejlesztéséhez.
A Meta pedig a mesterséges intelligencia által generált adatok felhasználásával finomhangolta legújabb Llama modellsorozatát.
Szintetikus adatok és költségmegtakarítás
A szintetikus adatokkal történő képzésnek más előnyei is vannak - például költségmegtakarítás.
A Writer mesterséges intelligencia-startup azt állítja, hogy Palmyra X 004-es modellje, amelyet szinte teljesen szintetikus forrásokkal fejlesztettek ki, mindössze 700 ezer dollárba került (281.953.000 forint) – szemben a 4,6 millió dolláros becslésekkel egy hasonló méretű OpenAI modell esetében.
Vannak azonban ennek hátrányai is. Egyes kutatások azt sugallják, hogy a szintetikus adatok a modell összeomlásához vezethetnek: a modell kevésbé lesz „kreatív” és elfogultabb is lehet a kimeneteiben, ami végül komolyan veszélyezteti a funkcionalitását.
Mivel a modellek szintetikus adatokat hoznak létre, amennyiben az azok betanításához használt adatok torzításokkal és korlátokkal rendelkeznek, a kimeneteik hasonlóan szennyezettek lesznek.
B.A.