ITU-forsker udvikler software til at sikre store sprogmodeller
Når store sprogmodeller (LLM'er) implementeres i tusindvis af applikationer, vokser behovet for skalerbare måder at evaluere, hvordan modeller reagerer på hackerangreb. Lektor på ITU, Leon Derczynski, har udviklet det hidtil mest omfattende værktøj til opgaven.
Skrevet 26. september 2024 11:14 af Theis Duelund Jensen
Store sprogmodeller (LLM'er), komplekse algoritmer trænet på enorme datasæt til at generere tekst, vender op og ned på vores interaktion med teknologi. Disse kraftfulde AI-systemer finder vej ind i utallige applikationer, men med teknologiens udbredelse opstår et kritisk spørgsmål: Hvor sikre er LLM'er?
Leon Derczynski, der arbejder med maskinlæring og cybersikkerhed på ITU, er i frontlinjen, når det handler om at løse dette problem. Han har udviklet Garak, det mest omfattende værktøj til evaluering af LLM-sårbarheder, der i øjeblikket er tilgængeligt.
Sikkerhedsrisici ved LLM'er
"LLM'er kan opføre sig på måder, vi ikke forventer," siger Leon Derczynski. "I nogle tilfælde kan denne adfærd være bevidst udløst, hvilket skaber en sikkerhedsrisiko."
Disse sårbarheder kan udnyttes af hackere til at opnå forskellige mål. Hackere kan stjæle privat chathistorik eller andre følsomme data, der er gemt af LLM'er. En hacker kan kopiere hele LLM'en og potentielt bruge dens redskaber til ondsindede formål. En hacker kan læse kode ind i LLM'en, hvilket kan give angriberen adgang til det underliggende system.
Her kommer Garak ind i billedet. Programmet, som Derczynski udviklede under sin barselsorlov og nu vedligeholder med et team på NVIDIA, hvor forskeren også er ansat, står som et af de mest avancerede værktøjer til LLM-sikkerhedsvurdering. "Det er i bund og grund en one-stop shop til test af LLM-sårbarheder," siger Leon Derczynski.
"Garak samler hundredvis af sikkerhedsbrister fundet via onlinefora og i forskningsartikler, hvilket muliggør et omfattende batteri af tests med ensartet rapportering."
Betydningen af Garak ligger i værktøjets evne til at give udviklere og organisationer, der bruger LLM'er, et stærkere fundament. "Enhver, der kører et dialogbaseret system eller en LLM, kan udnytte Garak til at identificere svagheder og måle deres systems sårbarhed," siger Leon Derczynski.
Forhøjer sikkerhedsfattigdomsgrænsen
Derczynski understreger vigtigheden af proaktive sikkerhedsforanstaltninger i LLM-landskabet. "Vi sigter mod at hæve 'sikkerhedsfattigdomsgrænsen' med Garak," siger han med henvisning til et koncept, der fremhæver behovet for et grundlæggende niveau af cybersikkerhed i alle teknologier. "Ligesom al anden software bør LLM-producenter bestræbe sig på en god score med sikkerhedsvurderingsværktøjer."
Transparens og åbenhed er nøgleaspekter ved tilgangen. "Garaks kildekode er open-source, og alle de sikkerhedsbrister, den bruger, er tidligere offentliggjorte," forklarer han. "Vi mener, at åben viden giver alle mulighed for at rette op på sårbarheder og opbygge et mere sikkert AI-økosystem. Ved at arbejde sammen kan vi opbygge tillid og sikre, at LLM'er fortsætter med at bidrage positivt til samfundet."
Leon Derczynski og hans kolleger har dokumenteret Garaks resultater i en videnskabelig artikel med titlen garak: A Framework for Security Probing Large Language Models, som er tilgængelig her.
Theis Duelund Jensen, Presseansvarlig, telefon +45 2555 0447, email