Introduction

Forestil dig

At en angriber får adgang til den præcise prompt, der bruges til at generere følsomme data som personlige oplysninger eller sikkerhedsprotokoller – hvordan kunne det blive udnyttet mod dig? Og hvordan vil en sådan prompt se ud?

Prompt-hacking er et begreb, der bruges til at beskrive angreb, som udnytter sårbarheder i store sprogmodeller (LLM'er) ved at manipulere deres input eller prompts. I modsætning til traditionel hacking, der typisk udnytter software-sårbarheder, er prompt-hacking baseret på nøje udformede prompts for at narre LLM'en til at udføre utilsigtede handlinger.

Der er tre typer af prompt-hacking: prompt-injektion, prompt-leak og jailbreaking. Hver type relaterer sig til lidt forskellige sårbarheder og angrebsmetoder, men de har alle det samme grundprincip, nemlig at manipulere LLM'ens prompt for at fremkalde uønsket output.

For at beskytte mod prompt-hacking skal der træffes defensive foranstaltninger. Disse omfatter implementering af prompt-baserede forsvar, regelmæssig overvågning af LLM'ens adfærd og output for unormal aktivitet samt brug af finjustering eller andre teknikker. Alt i alt er prompt-hacking en voksende bekymring for sikkerheden af LLM'er og det er vigtigt at forblive opmærksom og tage proaktive skridt for at beskytte mod denne type angreb.

File	Title
Prompt Leaking	Prompt Leaking

Kilder

Prompt hacking

Tilgængelig på: learnprompting

The Rise of a New Threat: Prompt Hacking

Tilgængelig på: promptengineering.org

Decoding Prompt Hacking: Unveiling the Hidden Power of AI

Tilgængelig på: medium.com

How to Protect Against Prompt Hacking

Tilgængelig på: prompthub.us