
Hur ElevenLabs Förbereder sig för Valen 2024
- Kategori
- Säkerhet
- Datum
AI-röstagenter används allt mer inom kundservice, underhållning och företagslösningar. Det gör att tydliga skyddsåtgärder behövs för att säkerställa ansvarsfull användning.
Vårt säkerhetsramverk ger ett lager-på-lager-skydd som omfattar skydd före produktion, åtgärder under samtal och löpande övervakning. Tillsammans hjälper dessa delar till att säkerställa ansvarsfull AI, användarmedvetenhet och tydliga skydd genom hela agentens livscykel.
Obs: Det här ramverket omfattar inte integritets- och säkerhetsskydd för MCP-aktiverade agenter.
Användare ska alltid få veta att de pratar med en AI-röstagent i början av samtalet.
Bästa praxis: informera om AI tidigt i samtalet.
Skyddsräcken sätter gränser för hur en AI-röstagent får agera. De ska följa interna säkerhetspolicys och täcka:
Tips för implementation: lägg till tydliga skyddsräcken i systemprompten.
Se: promptguide
Agenter ska instrueras att avsluta samtal på ett säkert sätt om skyddsräcken utmanas flera gånger.
Exempelsvar:
Agenten använder då avsluta_samtal eller koppla_till_agent-verktyget. Det gör att gränser upprätthålls utan diskussion eller eskalering.
Allmänna utvärderingskriterier på agentnivå gör att du kan bedöma om din AI-röstagent agerar säkert, etiskt och enligt systempromptens skyddsräcken. Med LLM-as-a-judge granskas varje samtal automatiskt och klassas som lyckat eller misslyckat utifrån viktiga beteendekrav. Det möjliggör kontinuerlig övervakning under testning och blir särskilt viktigt när agenten är i produktion.
Säkerhetsutvärderingen fokuserar på övergripande mål utifrån dina skyddsräcken, till exempel:
Dessa kriterier används för alla samtal för att säkerställa konsekvent beteende. Systemet övervakar varje interaktion, markerar avvikelser och ger förklaring till varje klassificering. Resultaten syns i startsidans dashboard så att team kan följa säkerhetsnivån och hitta mönster eller återkommande problem över tid.
Se: dokumentation för utvärdering av lyckade samtal
Innan du går live, simulera samtal med din AI-röstagent för att stresstesta dess beteende mot säkerhets-, karaktärs- och regelefterlevnadskrav. Red teaming innebär att skapa simuleringsfall som medvetet utmanar agentens skyddsräcken, vilket hjälper till att hitta gränsfall, svagheter och oväntade svar. Varje simulering består av en användarprompt och specifika utvärderingskriterier. Målet är att se hur agenten svarar i varje scenario och bekräfta att den följer din systemprompt med egna utvärderingskriterier och LLM-as-a-judge.
Du kan konfigurera dessa tester med ElevenLabs samtalssimulering SDK genom att skripta interaktioner mellan användare och agent med anpassade utvärderingsprompter. Det hjälper dig att säkerställa att agenter är redo för produktion, följer dina interna säkerhetskrav och håller säkerheten genom olika versioner.
Exempelsimulering:
Red teaming-simuleringar kan standardiseras och återanvändas för olika agenter, versioner och användningsområden, vilket gör det möjligt att upprätthålla säkerhetskrav i stor skala.
Live-moderering på meddelandenivå för ConvAI kan aktiveras på arbetsytenivå för alla agenter och är aktiverad som standard i vissa fall. När det är aktiverat avslutas samtalet automatiskt om systemet upptäcker att agenten är på väg att säga något förbjudet (textbaserad upptäckt). För närvarande blockeras endast sexuellt innehåll som rör minderåriga (SCIM), men modereringsområdet kan utökas efter behov. Den här funktionen ger minimal fördröjning: p50: 0ms, p90: 250ms, p95: 450ms.
Vi kan samarbeta med kunder för att definiera rätt modereringsnivå och ge statistik för att justera säkerheten löpande. T.ex. end_call_reason
För att säkerställa säkerhet före produktion rekommenderar vi ett stegvis arbetssätt:
Den här strukturerade processen gör att agenter testas, justeras och verifieras mot tydliga krav innan de når slutanvändare. Det är bra att sätta kvalitetsgränser (t.ex. minsta andel lyckade samtal) i varje steg.
En säker AI-röstagent kräver skyddsåtgärder i varje steg av livscykeln:
Genom att använda det här lagerbaserade ramverket kan organisationer säkerställa ansvarsfullt beteende, följa regler och bygga förtroende hos användare.



