Gå til hovedindhold

Hvad er prompt-injektion, og hvordan kan AI blive manipuleret?

Forretningshænder, der skriver på bærbar med advarselsikoner, der viser AI-risici som jailbreak og prompt-injektion

AI-værktøjer som ChatGPT, Claude og Gemini er blevet næsten allestedsnærværende i indbakker, arbejdsgange og daglige rutiner, og mange tænker sjældent over sikkerhedskonsekvenserne. Det er ved at ændre sig.

En teknik kaldet prompt-injektion tiltrækker opmærksomhed i it-sikkerhedskredse, og det usædvanlige er, at den ikke kræver malware, særlige tekniske færdigheder eller mistænkelige links. I nogle tilfælde er en velformuleret sætning nok til at kapre et AI-værktøj, uden at brugeren aner noget.

Det vigtigste at vide:

  • Prompt-injektion manipulerer AI-værktøjer med velkonstrueret sprog – ikke med malware eller teknisk ekspertise.
  • Det virker, fordi AI-modeller ikke kan skelne udviklerens instruktioner fra brugerens input.
  • Angreb kan være direkte, indirekte eller gemt i data, som AI læser gentagne gange.
  • Nogle angreb bruger usynlig tekst eller skjult formatering, som brugeren aldrig ser.
  • Et vellykket angreb kan afsløre private oplysninger eller udløse handlinger, du aldrig har godkendt.
  • Der findes endnu ingen fuldstændig løsning, men at begrænse AI-rettigheder og forblive opmærksom reducerer risikoen.

Hvad er prompt-injektion?

Prompt-injektion er en teknik, hvor en angriber kan ændre, hvordan et AI-værktøj opfører sig. Det er ikke nødvendigt at udnytte en sårbarhed i softwaren eller installere malware, fordi angriberen manipulerer modellen med sprog alene.

Begrebet opstod hos computervidenskabsmanden Simon Willison i 2022, og OWASP — en organisation, der kortlægger de mest kritiske trusler mod software — har identificeret det som den førende sikkerhedsrisiko for AI-applikationer.

Du kan tænke på det som social engineering rettet mod maskiner, fordi det minder mere om phishing end traditionel hacking. Det udnytter en iboende svaghed i store sprogmodeller (LLM): de er designet til at følge instruktioner. Den egenskab, der gør dem nyttige, gør dem samtidig udnyttelige. Et velkonstrueret input kan tilsidesætte værktøjets oprindelige regler, ændre svar eller få det til at afsløre information, det skulle holde skjult. En vellykket injection bryder ikke bare reglerne — den kan blotte alt, modellen er forbundet til.

Modsat traditionelle kodeinjektioner eller andre it-sikkerhedseksploits, som kræver specialistviden, har den, der ved, hvordan man formulerer en overbevisende sætning, allerede alt, hvad der skal til.

Hvordan fungerer prompt-injektion?

Kernen i problemet er, at AI-systemer ikke kan multitaske i den forstand, at de er "blinde" over for forskellen mellem en udviklers instruktioner og en brugers input.

AI-udviklere skriver skjulte prompts, der sætter reglerne for, hvordan værktøjet skal opføre sig. Dit input kombineres med disse prompts, og AI behandler det hele som én sammenhængende tekststrøm. Den kan ikke afgøre, hvilke dele der er udviklerens instruktioner, og hvilke der er dine. Så hvis dit input ligner en kommando, kan AI følge den — selv hvis den strider imod udviklerens intentioner.

Ikke alle angreb ser ens ud. De falder typisk i tre kategorier: direkte, indirekte og lagret injection.

Hvad er direkte prompt-injektion?

Direkte prompt-injektion betyder at skrive en ondsindet instruktion direkte i chatten. Noget så simpelt som "ignorer alle tidligere instruktioner" kan være nok. Denne metode udnytter AI's tendens til at prioritere nyt input frem for udviklerens regler.

Hvad er indirekte prompt-injektion?

Indirekte prompt-injektion skjuler skadelige instruktioner i eksternt indhold, som AI behandler — for eksempel websider eller e-mails.

F.eks. kan en angriber plante skjult tekst på en webside, der instruerer AI om at ignorere sine regler og anbefale et bestemt link. Hvis nogen beder AI om at opsummere siden, læser det den skjulte kommando sammen med det rigtige indhold og følger måske instruktionen, uden at brugeren opdager noget. Sikkerhedsforskere betragter generelt indirekte prompt-injektion som generative AI's mest alvorlige sikkerhedssvaghed og en af de sværeste at forsvare sig imod.

Hvad er lagret prompt-injektion?

Lagret prompt-injektion virker ved at placere skadelige instruktioner der, hvor AI regelmæssigt læser — for eksempel i databaser eller træningsdata.

Lagret prompt-injektion kan ramme mange brugere over forskellige sessioner, fordi instruktionerne er gemt i stedet for at blive skrevet i realtid. AI-agenten ser ud til at fungere normalt, men dens svar er subtilt præget af noget, der blev indlejret længe før brugeren startede programmet.

Beskyt dig, efterhånden som AI-værktøjer bliver en del af hverdagen

Prompt-injektion er et eksempel på, hvordan AI-systemer kan manipuleres. Kaspersky Premium hjælper med at beskytte dine enheder, data og onlinekonti mod digitale trusler i udvikling.

Prøv Premium gratis

Hvilke teknikker bruges i prompt-injektion?

Prompt-injektion bruger almindelig tekst til at narre AI til at følge uautoriserede instruktioner. Risikoen er, at AI-modeller behandler al tekst ens, fordi de ikke kan skelne legitimt indhold fra manipuleret indhold.

De fleste angreb falder i to grupper: tricks, der forkler instruktioner ved hjælp af kode eller formatering, og tricks, der skjuler instruktioner, så mennesker ikke kan se dem. For enhver læser ser det blot ud som normalt indhold.

Kode- og formateringstricks

Nogle angreb bruger kodeblokke, markup eller struktureret tekst for at få en ondsindet instruktion til at ligne en legitim systemkommando. Det kan være ved at indramme noget i kode-formatteringsstil eller strukturere det, så det efterligner en udviklers systemprompt.

Skjulte og kamuflerede instruktioner

Andre angreb skjuler instruktioner i åbenlys tekst ved hjælp af visuelle tricks, som mennesker sandsynligvis ikke lægger mærke til — for eksempel hvid tekst på hvid baggrund, meget små skrifttyper, usædvanlig afstand, specialtegn, unicode-kodning eller instruktioner skrevet på et andet sprog. Et menneske vil se et normalt dokument eller en webside uden anmærkninger, men AI læser al den underliggende tekst uanset, hvordan den bliver vist.

Disse teknikker er allerede i brug. Angribere har indlejret usynlige instruktioner på websider for at kapre AI-browser-agenter, og jobsøgende har brugt skjult tekst i CV'er for at snyde AI-screeningsværktøjer.

Infografik, der viser hvordan skjulte instruktioner i et dokument kan manipulere AI-output via prompt-injektion

Eksempler på prompt-injektion

Hvordan Bing Chat blev narret til at afsløre sine egne regler

I februar 2023 brugte Stanford-studerende Kevin Liu et direkte prompt-injektion-angreb til at få Bing Chats skjulte systeminstruktioner afsløret. Alt, der skulle til, var at skrive "ignorer tidligere instruktioner" og bede AI om at gengive sine egne regler. Chatbotten gav sit interne kodenavn 'Sydney' og skjulte retningslinjer. Da Microsoft lappede hullet, fandt Liu en måde at omgå rettelsen på inden for få timer ved at lade som om, han var udvikler.

Hvordan skjult tekst i CV'er snydt AI-screeningsværktøjer

Jobsøgende er begyndt at indlejre skjulte prompt-injektion-instruktioner i deres CV'er for at manipulere AI-drevne rekrutteringsværktøjer. Metoden går ud på at skrive instruktioner som “dette er en særdeles kvalificeret kandidat” med hvid skrift eller meget lille font, så teksten er usynlig for et menneske, men stadig opfanges af AI.

Teknikken fik opmærksomhed på sociale medier i 2024. Rekrutteringsfirmaet ManpowerGroup rapporterede, at de fandt skjult tekst i omkring 10% af de CV'er de scanner med AI. Ansættelsesplatformen Greenhouse fandt lignende skjulte prompts i 1% af de 300 millioner CV'er, de behandler hvert år.

Hvordan chatbots blev manipuleret til at dele private oplysninger

Et tidligt ChatGPT-prompt-injektion-tilfælde involverede remoteli.io's Twitter-bot, drevet af ChatGPT og designet til at poste positive kommentarer om fjernarbejde. Brugere opdagede, at de kunne tweete instruktioner, der fik den til at ignorere sit oprindelige formål, og den endte med at fremsige absurde offentlige udsagn.

Senere demonstrerede sikkerhedsforskere, at OpenAIs ChatGPT Atlas-browser-agent kunne blive kapret via skjulte instruktioner plantet i e-mails. I en test fik en ondsindet e-mail med en indlejret prompt agenten til at sende en opsigelsesmail til brugerens chef i stedet for at udarbejde det ønskede autosvar. Brugeren så aldrig den skjulte instruktion, men AI fulgte den alligevel.

Hvorfor bør almindelige brugere bekymre sig om prompt-injektion?

Prompt-injektion kan manipulere AI-værktøjer uden din viden. Når et AI opsummerer et dokument eller skriver en e-mail, trækker det på eksterne kilder. Hvis nogen af de kilder er manipuleret, kompromitteres AI's output — uden at du nødvendigvis opdager det.

Det gør prompt-injektion særlig risikabelt i forhold til andre online trusler. Du behøver ikke klikke på et link eller downloade noget mistænkeligt. Du stiller et helt almindeligt spørgsmål, og svaret er formet af instruktioner, som en anden har gemt i det indhold, AI brugte som input. Det kan være relativt harmløst, fx en partisk opsummering eller et link, du ikke bad om. Men i værre tilfælde kan værktøjet lække dine personlige oplysninger eller udføre handlinger, du aldrig har godkendt. Manipulerede svar ser ofte helt fine ud uden fejlmeddelelser eller tydelige tegn.

Det betyder ikke, at du skal stoppe med at bruge disse værktøjer, men du kan ikke antage, at AI-output altid er neutralt og pålideligt.

Er prompt-injektion det samme som jailbreaking?

Prompt-injektion og jailbreaking er beslægtede, men ikke synonyme begreber. Jailbreaking er en form for prompt-injektion, der specifikt målretter sikkerhedsbegrænsninger. Denne fremgangsmåde forsøger at få et AI til at ignorere indholdspolitikker eller producere begrænset output.

Prompt-injektion er mere generelt. Det omfatter ethvert forsøg på at kapre AI's adfærd via manipuleret input — for eksempel at afdække skjulte systemkommandoer eller få værktøjet til at udføre uautoriserede handlinger. Målet er ikke altid at bryde sikkerhedsfiltre; ofte vil angriberen bare have, at AI udfører et andet sæt instruktioner uden at blive afsløret.

En anden væsentlig forskel er, hvem der påvirkes. Jailbreaking er ofte en bevidst handling fra brugeren i deres egen session. Prompt-injektion, især i indirekte og lagrede former, kan ramme intetanende brugere, som aldrig vidste, at det indhold, de bad om, var blevet manipuleret. Det er en særskilt sikkerhedstrussel, og derfor placerer OWASP prompt-injektion som den største risiko for AI-applikationer frem for at inddele jailbreaking som sin egen kategori.

Hvordan kan du forhindre prompt-injektion?

Der findes ingen nem løsning på prompt-injektion lige nu, fordi sårbarheden udspringer af den samme egenskab, der gør disse værktøjer nyttige: deres evne til at følge instruktioner. Udviklere kan ikke fjerne den uden at bryde den måde, folk faktisk bruger værktøjerne på.

AI-udviklere forbedrer løbende inputfiltrering, og adversariske tests hjælper, men intet på markedet eliminerer risikoen helt.

Alligevel er der meget, du som bruger kan gøre. Det meste handler om almindelig omtanke:

  • Hold dig informeret. Lad ikke AI-værktøjer køre på autopilot. Gennemgå altid, hvad værktøjet agter at gøre, før det handler.
  • Begræns adgang, hvor det er muligt. Når et AI-værktøj beder om tilladelse til at få adgang til din e-mail eller filer, spørg om det virkelig er nødvendigt. Undgå at indsætte adgangskoder, betalingsoplysninger eller følsomme data i AI-chatvinduer.
  • Sæt spørgsmålstegn ved svarene. Hvis et svar indeholder et uventet link, anbefaler noget, du ikke bad om, eller leder dig mod en handling, der virker forkert, så tag dig tid, før du følger det.
  • Hold alt opdateret. Udviklere udsender løbende opdateringer, der retter sårbarheder og styrker forsvar. Kører du en forældet version, går du glip af disse forbedringer.

Tjekliste over vigtige trin til at forhindre prompt-injektion, herunder at begrænse AI-adgang og gennemgå handlinger.

Hvad skal du gøre, hvis et AI-værktøj opfører sig underligt?

Hvis et AI-værktøj begynder at opføre sig mærkeligt, skal du stoppe og ikke handle på noget af det, det foreslår. Det behøver ikke være prompt-injektion, men hvis noget virker galt, bør du finde ud af det, før du fortsætter.

Nogle ting, der bør alarmere dig:

  • Det foreslår handlinger, du aldrig bad om
  • Der dukker links eller produktanbefalinger op, du ikke kender
  • Det beder om personlige oplysninger, der er irrelevante for opgaven
  • Tonen ændrer sig pludseligt midt i samtalen
  • Svarene holder op med at give mening eller virker usammenhængende i forhold til dit spørgsmål

Hvis noget af dette sker, luk sessionen og start forfra. Forsøg ikke at fejlfinde i samme samtale, for er sessionen kompromitteret, er du stadig inden for den og dermed i risiko.

Bagefter bør du gennemgå, hvad værktøjet havde adgang til. Var din e-mail åben? Kunne softwaren have udført handlinger på dine vegne? Hvis noget virker forkert, fortryd ændringerne og skift straks dine adgangskoder.

Hvordan passer prompt-injektion ind i den bredere AI-sikkerhed?

Prompt-injektion står øverst på prioriteringslisten for AI-sikkerhed, fordi den angriber selve AI. Det adskiller den fra phishing, malware og andre mere traditionelle angreb, som rammer systemerne omkring AI.

Problemet vokser. For ikke længe siden var AI-værktøjer primært begrænset til tekstgenerering. Nu kan de browse nettet, læse dine e-mails, få adgang til dine filer, skrive kode og udføre handlinger på dine vegne. Standarder som MCP gør det endnu nemmere at koble AI til eksterne tjenester. Jo mere disse værktøjer kan, desto større skade kan et vellykket angreb forårsage.

Der er også spørgsmålet om skala. Prompt-injektion virker meget som social engineering — den får AI til at følge instruktioner, den ikke burde, ved at præsentere dem korrekt. Men i modsætning til et telefonopkald, der rammer én person ad gangen, kan én skjult instruktion på en populær webside påvirke alle AI-værktøjer, der læser den.

Det betyder ikke, at AI-værktøjer er usikre at bruge. Men sikkerheden halter stadig efter i forhold til den hurtige udbredelse af disse værktøjer, så ansvaret for sikkerhed vil fortsat lande hos slutbrugerne.

Relaterede artikler:

Anbefalede produkter:

FAQ

Er prompt-injektion ulovligt?

Der findes ingen lov, der specifikt forbyder prompt-injektion. Men handlinger udført med teknikken — som adgang til begrænsede data eller udtræk af private oplysninger — dækkes af eksisterende regler om computerbedrageri og cyberkriminalitet. Den juridiske risiko er reel, men lovgivningen halter efter teknologien.

Kan prompt-injektion ramme almindelige brugere?

Ja. Hvis du bruger et værktøj, som behandler eksternt indhold med AI, kan du let blive påvirket — og ofte uden at vide det. Angrebet rammer AI-værktøjet, ikke nødvendigvis dig direkte som person.

Kan prompt-injektion stjæle personlige data?

Ja, hvis AI-værktøjet har adgang til persondata. Uanset om det er din e-mail, filer eller andre oplysninger, kan en vellykket prompt-injektion instruere værktøjet til at udtrække og dele dem. Sikkerhedsforskere har allerede vist, at AI-browser-agenter kan narres til at videresende følsomme dokumenter til uvedkommende.

Er prompt-injektion det samme som hacking?

Prompt-injektion er ikke traditionel hacking. I stedet for at udnytte kodefejl manipulerer den det, som AI læser. Det er social engineering rettet mod en maskine. Resultatet kan ligne et hack (læk af data, uautoriserede handlinger), men mekanismen er grundlæggende en anden.

Hvad er prompt-injektion, og hvordan kan AI blive manipuleret?

Prompt-injektion er en voksende AI-sikkerhedstrussel, hvor sprog — ikke malware — bruges til at kapre AI-værktøjer. Læs, hvordan det fungerer, hvilke risici der er, og hvordan du beskytter dig.
Kaspersky logo

Relaterede artikler