2025. 09. 30. - 09:40

Generatív MI - Ritka figyelmes lett a DeepSeek, még pénzt is megspórol

Generatív MI - Ritka figyelmes lett a DeepSeek, még pénzt is megspórol

Előrukkolt a DeepSeek kiadta „ritka figyelem” mesterséges intelligencia-modelljével, amely a felére csökkenti az API-költségeket.

Új kísérleti modellel jelentkezett a DeepSeek: a vállalat kutatói V3.2-exp néven adták ki az új mesterséges intelligencia-modellt, amelyet úgy terveztek, hogy drámaian alacsony következtetési költségekkel járjon hosszú kontextusú műveletek során.
 
A DeepSeek a Hugging Face-en tett bejegyzésben jelentette be az MI-modellt és egy kapcsolódó tudományos cikket is közzétett róla a GitHub-on.
 
Alacsony következtetési költségek
 
A mesterséges intelligencia-modell legfontosabb jellemzője a DeepSeek Sparse Attention - bonyolult rendszerről van szó, amely egy „villámindexelő” elnevezésű modult használ a kontextusablakból származó bizonyos részletek rangsorolására.
 
Generatív MI - Ritka figyelmes lett a DeepSeek, még pénzt is megspórol
Generatív MI - Ritka figyelmes lett a DeepSeek, még pénzt is megspórol
 
Ezután egy különálló rendszer, az ún. „finomszemcsés tokenkiválasztó rendszer” választja ki a részletekből a konkrét tokeneket, hogy betöltsék azokat a modul korlátozott figyelemablakába – s együttesen lehetővé teszik a Sparse Attention modellek számára, hogy a kontextus hosszú szakaszaiban működjenek, viszonylag kis szerverterheléssel.
 
A hosszú kontextusú műveletek esetében a rendszer előnyei jelentősek.
 
A DeepSeek előzetes tesztjei azt mutatták, hogy egy egyszerű API-hívás ára akár a felére is csökkenthető hosszú kontextusú helyzetekben.
 
További tesztelésre lesz szükség ugyanakkor egy robusztusabb értékelés elkészítéséhez - ám mivel a modell nyílt súlyú és ingyenesen elérhető a Hugging Face-en, nem kell sokáig várni, hogy harmadik féltől származó tesztek is értékelhessék a cikkben tett állításokat.
 
Áttörés a költség-probléma kezelése terén
 
A DeepSeek új modellje egyike azon áttöréseknek, amelyek kezelik a következtetési költségek problémáját kezelik – lényegében egy előre betanított MI-modell működtetésének szerverköltségeit, szemben a betanítás költségével.
 
A DeepSeek esetében a kutatók olyan módszereket kerestek, amelyekkel az alapvető transzformátor-architektúra hatékonyabban működhet – s felfedezték, hogy jelentős fejlesztésekre van szükség.
 
 
B.A.

 

Hírlevél feliratkozás

Kérjük, add meg adataidat a hírlevélre történő feliratkozáshoz! A megadott adatokat bizalmasan kezeljük, azokat harmadik félnek át nem adjuk.