2025. 09. 30. - 09:40
Generatív MI - Ritka figyelmes lett a DeepSeek, még pénzt is megspórol

Előrukkolt a DeepSeek kiadta „ritka figyelem” mesterséges intelligencia-modelljével, amely a felére csökkenti az API-költségeket.
Új kísérleti modellel jelentkezett a DeepSeek: a vállalat kutatói V3.2-exp néven adták ki az új mesterséges intelligencia-modellt, amelyet úgy terveztek, hogy drámaian alacsony következtetési költségekkel járjon hosszú kontextusú műveletek során.
A DeepSeek a Hugging Face-en tett bejegyzésben jelentette be az MI-modellt és egy kapcsolódó tudományos cikket is közzétett róla a GitHub-on.
Alacsony következtetési költségek
A mesterséges intelligencia-modell legfontosabb jellemzője a DeepSeek Sparse Attention - bonyolult rendszerről van szó, amely egy „villámindexelő” elnevezésű modult használ a kontextusablakból származó bizonyos részletek rangsorolására.

Generatív MI - Ritka figyelmes lett a DeepSeek, még pénzt is megspórol
Ezután egy különálló rendszer, az ún. „finomszemcsés tokenkiválasztó rendszer” választja ki a részletekből a konkrét tokeneket, hogy betöltsék azokat a modul korlátozott figyelemablakába – s együttesen lehetővé teszik a Sparse Attention modellek számára, hogy a kontextus hosszú szakaszaiban működjenek, viszonylag kis szerverterheléssel.
A hosszú kontextusú műveletek esetében a rendszer előnyei jelentősek.
A DeepSeek előzetes tesztjei azt mutatták, hogy egy egyszerű API-hívás ára akár a felére is csökkenthető hosszú kontextusú helyzetekben.
További tesztelésre lesz szükség ugyanakkor egy robusztusabb értékelés elkészítéséhez - ám mivel a modell nyílt súlyú és ingyenesen elérhető a Hugging Face-en, nem kell sokáig várni, hogy harmadik féltől származó tesztek is értékelhessék a cikkben tett állításokat.
Áttörés a költség-probléma kezelése terén
A DeepSeek új modellje egyike azon áttöréseknek, amelyek kezelik a következtetési költségek problémáját kezelik – lényegében egy előre betanított MI-modell működtetésének szerverköltségeit, szemben a betanítás költségével.
A DeepSeek esetében a kutatók olyan módszereket kerestek, amelyekkel az alapvető transzformátor-architektúra hatékonyabban működhet – s felfedezték, hogy jelentős fejlesztésekre van szükség.
B.A.