Prompt Leaking

Nøglepunkter

Definition

Prompt-leak sker, når en model afslører sine interne instruktioner, normalt som resultat af, at brugere manipulerer input for at udtrække den originale prompt.

Risici

Lækage af prompts kan afsløre følsomme oplysninger og intellektuel ejendom, hvilket underminerer fortrolighed og virksomheders integritet.

Anbefaling

Jeg vil anbefale at se denne videos sidste 5 kapitler(fra 4:43:12 og frem), her viser han hvordan man kan få ChatGPT til at leake information,

Hvad er prompt-lækage?

Prompt-lækage er en form for prompt-injektion, hvor modellen opfordres til at afsløre sin egen prompt.

Som vist i eksempel billede 1 (Perez & Ribeiro, 2022) manipulerer angriberen brugerinput for at forsøge at få prompten returneret. Dette adskiller sig fra målkapring (almindelig prompt-injektion), hvor angriberen ændrer brugerinput for at generere ondsindede instruktioner.

Pasted image 20241205081157.png
*Billedet er fra Learn Prompting

Hvorfor er det vigtigt?

Prompt-lækage kan være problematisk, når virksomheder ønsker at holde deres prompts hemmelige. For eksempel kan et uddannelsesfirma bruge prompten "Forklar dette til mig, som om jeg er 5 år gammel" til at forklare komplekse emner. Hvis denne prompt lækkes, kan andre bruge den uden at gå gennem firmaet.

Konklusion

Prompt-leak er vigtigt at forstå, fordi utilsigtet afsløring af følsomme prompts udgør en kritisk sårbarhed i AI-systemer. Efterhånden som flere virksomheder anvender sprogbaserede modeller, bliver det afgørende at adressere prompt-leak for at beskytte intellektuel ejendom og fortrolige data.

Kilder