Prompt Leaking
Nøglepunkter
Prompt-leak sker, når en model afslører sine interne instruktioner, normalt som resultat af, at brugere manipulerer input for at udtrække den originale prompt.
Lækage af prompts kan afsløre følsomme oplysninger og intellektuel ejendom, hvilket underminerer fortrolighed og virksomheders integritet.
Anbefaling
Jeg vil anbefale at se denne videos sidste 5 kapitler(fra 4:43:12 og frem), her viser han hvordan man kan få ChatGPT til at leake information,
Hvad er prompt-lækage?
Prompt-lækage er en form for prompt-injektion, hvor modellen opfordres til at afsløre sin egen prompt.
Som vist i eksempel billede 1 (Perez & Ribeiro, 2022) manipulerer angriberen brugerinput for at forsøge at få prompten returneret. Dette adskiller sig fra målkapring (almindelig prompt-injektion), hvor angriberen ændrer brugerinput for at generere ondsindede instruktioner.
*Billedet er fra Learn Prompting
Hvorfor er det vigtigt?
Prompt-lækage kan være problematisk, når virksomheder ønsker at holde deres prompts hemmelige. For eksempel kan et uddannelsesfirma bruge prompten "Forklar dette til mig, som om jeg er 5 år gammel" til at forklare komplekse emner. Hvis denne prompt lækkes, kan andre bruge den uden at gå gennem firmaet.
Konklusion
Prompt-leak er vigtigt at forstå, fordi utilsigtet afsløring af følsomme prompts udgør en kritisk sårbarhed i AI-systemer. Efterhånden som flere virksomheder anvender sprogbaserede modeller, bliver det afgørende at adressere prompt-leak for at beskytte intellektuel ejendom og fortrolige data.
Kilder
Tilgængelig på: learnprompting
Tilgængelig på: promptingguide.ai
Tilgængelig på: prompt.security
Tilgængelig på: YouTube