2024. 11. 29. - 08:30
Mesterséges neurális hálózatok belső működése segít az MI megértésében
A mesterséges intelligencia a neurális hálózatok felépítésének új módjával érthetőbbé tehető – a megközelítéssel könnyebben megfigyelhető, hogyan állítják elő a neurális hálózatok az általuk termelt kimeneteket – számoltak be a Massachusetts-i Technológiai Intézet (MIT) kutatói.
Érthetőbbé lehet tenni a mesterséges intelligenciát a neurális hálózatok felépítésének új módjával.
A mesterséges neuronok neurális hálózatokban történő működésének módosítása megkönnyítheti a megfejtését a Massachusetts-i Technológiai Intézet (Massachusetts Institute of Technology – MIT) kutatói szerint.
Mint cikkünk első részében írtunk róla, az egyszerűsített megközelítéssel könnyebbé válik annak a megfigyelése, miként állítják elő a neurális hálózatok az általuk termelt kimeneteket.
A neuronok kombinálásának új módjával a meglévő neuronok összetettsége leegyszerűsödik és a neuronokon kívülre kerül.
Az új neuronok beül egyszerűen összegzik a bemeneteiket és kimenetet állítanak elő, s ehhez nem kellenek extra rejtett műveletek. Az efféle neuronok hálózatait nevezik Kolmogorov-Arnold hálózatoknak (KAN).
A KAN hálózatokról előző cikkünkben adtunk részletes leírást.
A képlet megtalálása jelentős szerepet játszott abban, hogy a neurális hálózatok felépítésének új módjával érthetőbbé váljon a mesterséges intelligencia.
A képlet felfedezése
Az előrelépés akkor történt, amikor Ziming Liu a MIT laboratóriumából munkatársaival, valamint a Caltech-től és más intézetektől érkező kutatókkal megpróbálták megérteni a szabványos mesterséges neurális hálózatok belső működését.
Napjainkban a mesterséges intelligencia szinte minden típusa - beleértve a nagy nyelvi modellek és képfelismerő rendszerek felépítésére használtakat is -, tartalmaz többrétegű perceptronként (MLP) ismert alhálózatokat. Olvasd el: Nincs messze a neurális hálózatok megvalósítása IoT eszközökön?
Mesterséges neurális hálózatok belső működése segít az MI megértésében
Az MLP-ben a mesterséges neuronok sűrű, egymással összefüggő „rétegekben” helyezkednek el.
Minden idegsejtben van valami, amit úgy neveznek, aktivációs függvény – ez egy matematikai művelet, amely egy csomó bemenetet vesz fel és azokat valamilyen előre meghatározott módon kimenetté alakítja.
Az MLP-ben minden mesterséges neuron bemenetet kap az előző réteg összes neuronjától és minden bemenetet megszoroz egy megfelelő „súllyal” – ami az adott bemenet fontosságát jelző szám.
Ezeket a súlyozott bemeneteket összeadják, majd a neuronon belüli aktivációs funkcióhoz táplálják, hogy létrehozzanak egy kimenetet, amelyet aztán továbbadnak a következő réteg neuronjainak.
Az MLP megtanulja megkülönböztetni például a macskák és kutyák képeit, úgy, hogy az összes neuron bemeneti súlyához megfelelő értékeket választ. Lényeges, hogy az aktiválási funkció rögzített és nem változik a képzés közben.
A betanítást követően az MLP összes neuronja és azok kapcsolatai együtt lényegében egy másik funkcióként működnek, amely bemenetet vesz - például több tízezer pixelt egy képen -, és a kívánt kimenetet állítja elő - mondjuk 0 a macska és 1 a kutya részére.
Annak megértése, hogy ez a függvény hogyan néz ki, vagyis annak matematikai formája, fontos része annak, hogy az emberek megértsék, miért hoz létre valamilyen kimenetet.
Például miért címkéz valakit hitelképesnek, ha a pénzügyi helyzetével kapcsolatos információkat közöl?
Az MLP-k azonban fekete dobozok - a hálózat visszafejtése szinte lehetetlen olyan összetett feladatoknál, mint a képfelismerés.
Liu és munkatársai még akkor is küszködtek, amikor megpróbáltak egy MLP-t visszafejteni egyszerűbb feladatokhoz, amelyek testre szabott „szintetikus” adatokat tartalmaztak.
„Ha nem is tudjuk értelmezni ezeket a neurális hálózatokból származó szintetikus adatkészleteket, akkor reménytelen a valós adatkészletekkel foglalkozni. Igen nehéznek találtuk megérteni ezeket a neurális hálózatokat. Meg akartuk változtatni a felépítésüket” – mondta Liu.
Feltérképezni a matematikát
A fő változás az volt, hogy a kutatók eltávolították a rögzített aktiválási funkciót és bevezettek egy sokkal egyszerűbb, megtanulható függvényt, mellyel minden bejövő bemenetet átalakítottak, mielőtt azok belépnének a neuronba.
Ellentétben az MLP neuron aktiválási funkciójával, amely számos bemenetet vesz fel, a KAN neuronon kívüli minden egyszerű funkció egy számmal teszi ezt és egy másik számot ad ki.
Most azonban képzés közben - ahelyett, hogy megtanulná az egyéni súlyokat, ahogyan az MLP-ben történik -, a Kolmogorov-Arnold hálózatok csak megtanulják, hogyan ábrázolják az egyes egyszerű függvényeket.
Az ArXiv szerveren idén közzétett dokumentumban Liu és munkatársai kimutatták, hogy ezek az egyszerű, neuronokon kívüli függvények sokkal könnyebben értelmezhetők, lehetővé téve a teljes KAN által tanult függvény matematikai alakjának rekonstruálását.
A kutatócsapat azonban csak egyszerű, szintetikus adatkészleteken tesztelte a KAN-ok értelmezhetőségét, nem valós problémákkal, például képfelismerésekkel, amelyek bonyolultabbak.
„Lassan feszegetjük a határt. Az értelmezhetőség rendkívül nagy kihívást jelenthet” – mondta Liu.
Liu és munkatársai kimutatták azt is, hogy a KAN-ok gyorsabban teljesítik a feladataikat a méret növekedésével, mint az MLP-k.
A csapat elméletileg igazolta és empirikusan is bemutatta az eredményt a természettudományos feladatokhoz - például a fizikához kapcsolódó függvények közelítésének elsajátítása terén.
„Még mindig nem világos, hogy ez a megfigyelés kiterjed-e a szokásos gépi tanulási feladatokra is, de legalábbis a tudományhoz kapcsolódó feladatok esetében ígéretesnek tűnik” – jegyezte meg Ziming Liu.
A szakember elismeri, hogy a KAN-oknak van egy fontos hátránya: a a Kolmogorov-Arnold hálózatok betanítása több időt és számítási teljesítményt igényel, mint egy MLP-é.
„Ez korlátozza a KAN-ok alkalmazási hatékonyságát nagyszabású adathalmazokon és összetett feladatokon” – közölte Di Zhang, a Suzhou-i Xi'an Jiaotong-Liverpool Egyetem munkatársa.
Javaslata alapján azonban hatékonyabb algoritmusok és hardveres gyorsítók segíthetnének.
B.A.