2023. 05. 17. - 10:45
Mesterséges intelligencia - Sikeres radiológiai vizsgát tett a ChatGPT
Letette a radiológiai testületi vizsgát a ChatGPT mesterséges intelligencia legújabb verziója. Ez rávilágít a nagy nyelvi modellekben rejlő lehetőségekre.
Meghökkentő: a ChatGPT mesterséges intelligencia legújabb verziója egy radiológiai, testületi stílusú vizsgát is letett, ami rávilágított arra, milyen lehetőségek rejlenek a nagy nyelvi modellekben - de feltárta a megbízhatóságot akadályozó korlátokat is – írták meg a kutatók a Radiology című folyóiratban.
A ChatGPT egy mesterséges intelligencia (MI) chatbot, amely mély tanulási modellt használ a szavak közötti minták és kapcsolatok felismerésére óriás méretű képzési adataiban - ezzel emberszerű válaszokat generál a megadott utasítás alapján. Olvasd el: Négyesre vizsgázott az egyetemen a mesterséges intelligencia
Mivel azonban a képzési adatokban nincs igazságforrás, az eszköz olyan válaszokat generálhat, amelyek a tényeket illetően helytelenek.
„Az olyan nagy nyelvi modellek használata, mint a ChatGPT, robbanásszerűen terjed, s csak növekedni fog – vélekedett Rajesh Bhayana orvos, hasi radiológus és technológiai vezető, aki a University Medical Imaging Toronto, illetve a Torontói Általános Kórház munkatársa. - Kutatásunk betekintést nyújt a ChatGPT radiológiai kontextusban nyújtott teljesítményébe, kiemelve a nagy nyelvi modellekben rejlő hihetetlen lehetőségeket, valamint a jelenlegi korlátokat, amelyek megbízhatatlanná teszik.” Olvasd el: Veszélyben a Google keresőrendszere a ChatGPT miatt?
Mesterséges intelligencia - Sikeres radiológiai vizsgát tett a ChatGPT
A közelmúltban a ChatGPT-t a történelem leggyorsabban növekvő fogyasztói alkalmazásának nevezték, s hasonló chatbotokat építenek be olyan népszerű keresőmotorokba, mint a Google és a Bing, amelyeket az orvosok és a betegek orvosi információk keresésére használnak – jegyezte meg dr. Bhayana.
Ahhoz, hogy felmérjék a ChatGPT teljesítményét a radiológiai bizottsági vizsgakérdések során, valamint feltárják erősségeit és korlátait, dr. Bhayana és munkatársai először a jelenleg leggyakrabban használt GPT-3.5-ön alapuló ChatGPT-t tesztelték.
A kutatók 150 feleletválasztós kérdést használtak fel, hogy a felmérés megfeleljen a Kanadai Királyi Főiskola és az American Board of Radiology vizsgák stílusának, tartalmának és nehézségeinek.
A kérdések nem tartalmaztak képeket. Kérdéstípusok szerint csoportosították őket, hogy betekintést nyerjenek a teljesítménybe: alacsonyabb rendű (tudás felidézése, alapvető megértés) és magasabb rendű (alkalmazni, elemezni, szintetizálni) gondolkodás.
A magasabb rendű gondolkodást igénylő kérdéseket típusonként tovább osztályozták (a képalkotó leletek leírása, klinikai kezelés, számítás és osztályozás, betegség-asszociációk).
A kutatók a ChatGPT teljesítményét összességében, azaz kérdéstípusonként és témakörönként értékelték. A válaszok nyelvi magabiztosságát szintén górcső alá vették.
Kiderült, hogy a GPT-3.5-ön alapuló ChatGPT a kérdések 69 százalékára válaszolt helyesen, ami közel áll a kanadai Royal College által használt 70 százalékos (megfelelő) osztályzathoz.
A modell viszonylag jól teljesített az alacsonyabb rendű gondolkodást igénylő kérdésekben (84 százalékon teljesített), ugyanakkor a magasabb rendű gondolkodást igénylő kérdésekkel küszködött (60 százalékban felelt meg).
Pontosabban, küzdött a magasabb rendű kérdésekkel, beleértve a képalkotó eredmények leírását (61 százalékban felelt meg), a számítást és az osztályozást (25 százalékos teljesítmény), valamint a fogalmak alkalmazását (30 százalék).
A kutatók megjegyezték: gyenge teljesítménye nem volt meglepő a magasabb rendű gondolkodási kérdésekben, tekintettel a radiológia-specifikus előképzés hiányára.
A GPT-4 2023 márciusában jelent meg korlátozott formában, fizetős felhasználók számára, állítva, hogy a GPT-3.5-hez képest fejlettebb érvelési képességekkel rendelkezik.
Egy nyomon követéses vizsgálatban a GPT-4 ugyanazon kérdések 81 százalékára válaszolt helyesen, felülmúlva a GPT-3.5-öt - és túllépte a 70 százalékos megfelelési küszöböt.
A GPT-4 sokkal jobban teljesített, mint a GPT-3.5 a magasabb rendű gondolkodási kérdésekben (81 százalék), pontosabban a képalkotó eredmények leírásával (85 százalék) és a fogalmak alkalmazásával (90 százalék).
Az eredmények arra utalnak, hogy a GPT-4 állítólagos továbbfejlesztett fejlett érvelési képességei jobb teljesítményt eredményeznek radiológiai összefüggésben. A kutatók javasolják, hogy a radiológia-specifikus terminológia kontextus szerinti megértését javítsák, beleértve a képalkotó leírásokat is, ami kritikus fontosságú a jövőbeni alkalmazásokhoz.
L.A.