Språkmodeller som ChatGPT, Claude og Copilot kan virke overbevisende, men de finner på ting som ikke er sant. Dette kaller vi gjerne hallusinering – og det er én av årsakene til at mennesker blir viktigere, ikke mindre viktige.
Språkmodeller som ChatGPT, Claude og Copilot kan lage forskningsartikler med både forfatter, tittel og lenker som ser helt ekte ut – men som er fullstendig diktet opp.
En av hovedutfordringene ved generativ AI er at den finner på ting som ikke er sant. Dette kaller man gjerne hallusinering – og det kan få alvorlige konsekvenser.
I 2023 gjorde advokaten Steven Schwartz i New York en kostbar feil. Han brukte ChatGPT til å samle inn juridisk informasjon til en brief, men det viste seg at kildene han siterte var helt oppdiktet. Dommeren kunne raskt avsløre at sakene ikke eksisterte, og saken fikk bred internasjonal oppmerksomhet.
Derfor hallusinerer generativ AI- Men hvorfor skjer det?
I bunn og grunn handler det om at språkmodeller mangler reell forståelse for virkeligheten og dataen de er trent på. De vet ikke forskjell på fakta og feil.
– Kjernen i en agent er en stor språkmodell, men rundt den bygger man et system av komponenter, forklarer Martin Jensen, Head of AI and Transformation i TRY.
I TRYs nye AI-rapport beskrives det blant annet hvordan store språkmodeller – såkalte LLM-er – fungerer:
– En språkmodell som GPT-5 kan gi gode svar på spørsmål. Men den er utformet for å generere det som er mest sannsynlig basert på treningsdata, ikke nødvendigvis det som er mest presist.
Kan høres sant ut, men være helt feil
Når språkmodeller er trent på omtrent hele internett – med en blanding av riktig, uriktig og tvilsom informasjon – oppstår muligheter for at det de genererer ikke stemmer. Usannheter er rett og slett en del av grunnmuren.
Generative AI-systemer kan presentere informasjon på en måte som ser autentisk ut – eksempelvis en forskningsartikkel med navn på forfatter, artikkeltittel, dato, journal og hyperlenke – men dette kan være fullstendig diktet opp.
Denne upåliteligheten har festet seg i nordmenns holdninger til AI. Ifølge TRYs rapport synes 55 prosent av nordmenn det er vanskelig å kvalitetssikre informasjon de får via AI, og omtrent halvparten stoler mindre på redaksjonelt innhold laget ved hjelp av AI.
Dette er ikke uten grunn. I 2024 rapporterte Bloomberg at ChatGPT viste tegn til rasistisk bias når den ble brukt til å skanne CV-er, noe som viser at hallusinering ikke bare handler om fakta, men også om skjeve verdivurderinger.
Bekymringen deles av organisasjoner verden over. Ifølge McKinsey-rapporter er usann eller unøyaktig output den AI-relaterte risikoen som organisasjoner er mest bevisste på. Mange selskaper sjekker enten all AI-output eller svært lite – det er sjelden noe midt imellom.
Det finnes AI som ikke hallusinerer
Det er viktig å huske at ikke alle typer kunstig intelligens har dette problemet. Regelbaserte systemer, ekspertsystemer og deterministiske modeller gir forutsigbare og pålitelige resultater. Men det er språkmodellene som ChatGPT folk flest møter og bruker – og der er hallusineringsproblemet reelt.
Derfor blir mennesker viktigere
Agenten må ha mulighet til å handle i verdenen den skal jobbe i, ikke bare skrive svar, påpeker Jensen i rapporten.
Men selv de mest avanserte AI-agentene trenger menneskelig kvalitetssikring. Kan problemet løses ved å spørre AI-modellen om å dobbeltsjekke det den har generert? I noen tilfeller ja, men i de fleste tilfeller nei. Det er uansett mennesker som til slutt må stå til ansvar.
Hallusinering er ikke en bug som kan fikses i språkmodeller – det er en iboende egenskap ved hvordan disse systemene fungerer. Derfor blir menneskelig kvalitetssikring mer viktig enn noensinne.
Denne artikkelen er basert på TRYs rapport «AI anno 2025 – Et dypdykk i kreativitet, ringvirkninger og lønnsomhet», som gir en grundig oversikt over AI-teknologiens muligheter og fallgruver.
Kontaktpersoner
-
Martin Jensen
TRY Dig
Leder for AI & Transformasjon