Høyttalergjenkjenning - Speaker recognition

Høyttalergjenkjenning er identifikasjon av en person ut fra kjennetegn ved stemmer. Det brukes til å svare på spørsmålet "Hvem snakker?" Begrepet stemmegjenkjenning kan referere til høyttalergjenkjenning eller talegjenkjenning . Høyttalerbekreftelse (også kalt høyttalerautentisering ) står i kontrast til identifikasjon, og høyttalergjenkjenning skiller seg fra høyttalerdiarisering (gjenkjenner når den samme høyttaleren snakker).

Å gjenkjenne høyttaleren kan forenkle oppgaven med å oversette tale i systemer som har blitt trent på bestemte stemmer, eller den kan brukes til å autentisere eller verifisere identiteten til en høyttaler som en del av en sikkerhetsprosess. Høyttalergjenkjenning har en historie som går tilbake til rundt fire tiår fra 2019 og bruker de akustiske egenskapene til tale som har vist seg å variere mellom individer. Disse akustiske mønstrene gjenspeiler både anatomi og innlærte atferdsmønstre.

Verifikasjon kontra identifikasjon

Det er to hovedapplikasjoner for høyttalergjenkjenningsteknologier og -metoder. Hvis høyttaleren hevder å ha en viss identitet og stemmen brukes til å bekrefte denne påstanden, kalles dette verifisering eller autentisering . På den annen side er identifikasjon oppgaven med å bestemme en ukjent talers identitet. På en måte er høyttalerkontroll en 1: 1 -kamp der en høyttalers stemme matches med en bestemt mal, mens høyttaleridentifikasjon er en 1: N -kamp der stemmen sammenlignes med flere maler.

Fra et sikkerhetsperspektiv er identifikasjon annerledes enn verifisering. Høyttalerbekreftelse brukes vanligvis som en "portvakt" for å gi tilgang til et sikkert system. Disse systemene opererer med brukernes kunnskap og krever vanligvis deres samarbeid. Høyttaleridentifikasjonssystemer kan også implementeres skjult uten brukerens kunnskap for å identifisere snakkere i en diskusjon, varsle automatiserte systemer om høyttalerendringer, sjekke om en bruker allerede er registrert i et system, etc.

I rettsmedisinske applikasjoner er det vanlig å først utføre en høyttaleridentifikasjonsprosess for å lage en liste over "beste treff" og deretter utføre en rekke bekreftelsesprosesser for å avgjøre en avgjørende match. Å jobbe for å matche prøvene fra høyttaleren til listen over beste kamper hjelper deg med å finne ut om de er den samme personen basert på mengden likheter eller forskjeller. Påtalemyndigheten og forsvaret bruker dette som bevis for å avgjøre om den mistenkte faktisk er lovbryteren.

Opplæring

En av de tidligste treningsteknologiene for å kommersialisere ble implementert i Worlds of Wonders Julie -dukke fra 1987. På det tidspunktet var høyttaleruavhengighet et tilsiktet gjennombrudd, og systemer krevde en opplæringsperiode. En annonse for dukken fra 1987 hadde overskriften "Endelig dukken som forstår deg." - til tross for at det ble beskrevet som et produkt "som barn kunne lære å svare på stemmen deres." Begrepet stemmegjenkjenning, selv et tiår senere, refererte til høyttalers uavhengighet.

Varianter av høyttalergjenkjenning

Hvert høyttalergjenkjenningssystem har to faser: Registrering og verifisering. Under registrering registreres talerens stemme og vanligvis trekkes en rekke funksjoner ut for å danne en stemmeutskrift, mal eller modell. I verifiseringsfasen blir en taleeksempel eller "ytring" sammenlignet med et tidligere opprettet taleutskrift. For identifikasjonssystemer blir ytringen sammenlignet med flere taleutskrifter for å bestemme den eller de beste matchene, mens verifikasjonssystemer sammenligner en ytring mot en enkelt stemmeutskrift. På grunn av den involverte prosessen er verifisering raskere enn identifikasjon.

Høyttalergjenkjenningssystemer faller i to kategorier: tekstavhengig og tekstuavhengig.

Tekstavhengig:

Hvis teksten må være den samme for registrering og verifisering, kalles dette tekstavhengig gjenkjenning. I et tekstavhengig system kan meldinger enten være vanlige på alle høyttalere (f.eks. En vanlig passord) eller unike. I tillegg kan bruk av delte hemmeligheter (f.eks. Passord og PIN-koder) eller kunnskapsbasert informasjon brukes for å lage et flerfaktorautentiseringsscenario .

Uavhengig av tekst:

Tekstuavhengige systemer brukes oftest for identifikasjon av høyttalere, ettersom de krever svært lite om mulig samarbeid fra høyttaleren. I dette tilfellet er teksten under påmelding og test annerledes. Faktisk kan registreringen skje uten brukerens kunnskap, som for mange rettsmedisinske applikasjoner. Ettersom tekstuavhengige teknologier ikke sammenligner det som ble sagt ved registrering og verifisering, har verifikasjonsprogrammer en tendens til også å bruke talegjenkjenning for å avgjøre hva brukeren sier på autentiseringspunktet.

I tekstuavhengige systemer brukes både akustikk og taleanalyse teknikker.

Teknologi

Høyttalergjenkjenning er et mønstergjenkjenningsproblem . De forskjellige teknologiene som brukes til å behandle og lagre stemmeutskrifter inkluderer frekvensestimering , skjulte Markov -modeller , gaussiske blandingsmodeller , mønstermatchingsalgoritmer , nevrale nettverk , matrisepresentasjon , vektorkvantisering og beslutningstrær . For å sammenligne ytringer mot stemmeutskrifter brukes tradisjonelt mer grunnleggende metoder som cosinuslikhet for deres enkelhet og ytelse. Noen systemer bruker også "anti-speaker" teknikker som kohortmodeller og verdensmodeller. Spektrale funksjoner brukes hovedsakelig for å representere høyttalerkarakteristikker. Lineær prediktiv koding (LPC) er en talekodingsmetode som brukes i høyttalergjenkjenning og taleverifisering .

Omgivende støynivåer kan hindre begge samlingene av de første og påfølgende stemmeprøvene. Støyreduksjonsalgoritmer kan brukes for å forbedre nøyaktigheten, men feil applikasjon kan ha motsatt effekt. Forringelse av ytelsen kan skyldes endringer i stemmeens atferdsmessige egenskaper og registrering ved bruk av en telefon og verifikasjon på en annen telefon. Integrasjonen med tofaktorautentiseringsprodukter forventes å øke. Stemmeendringer på grunn av aldring kan påvirke systemytelsen over tid. Noen systemer tilpasser høyttalermodellene etter hver vellykket bekreftelse for å fange slike langsiktige endringer i stemmen, selv om det er debatt om den generelle sikkerhetspåvirkningen som følge av automatisert tilpasning

Juridiske implikasjoner

På grunn av innføringen av lovgivning som General Data Protection Regulation i EU og California Consumer Privacy Act i USA, har det vært mye diskusjon om bruk av høyttalergjenkjenning på arbeidsplassen. I september 2019 advarte den irske talegjenkjenningsutvikleren Soapbox Labs om de juridiske implikasjonene som kan være involvert.

applikasjoner

Det første internasjonale patentet ble innlevert i 1983, som kom fra telekommunikasjonsforskningen i CSELT (Italia) av Michele Cavazza og Alberto Ciaramella som grunnlag for både fremtidige teletjenester til sluttkunder og for å forbedre støyreduksjonsteknikkene på tvers av nettverket.

Mellom 1996 og 1998 ble teknologi for høyttalergjenkjenning brukt ved grenseovergangen Scobey - Coronach for å gjøre det mulig for registrerte lokale innbyggere å ikke ha noe å erklære for å krysse grensen mellom Canada og USA når inspeksjonsstasjonene var stengt for natten. Systemet ble utviklet for US Immigration and Naturalization Service av Voice Strategies i Warren, Michigan.

I mai 2013 ble det kunngjort at Barclays Wealth skulle bruke passiv høyttalergjenkjenning for å bekrefte identiteten til telefonkunder innen 30 sekunder etter normal samtale. Systemet som ble brukt var blitt utviklet av stemmegjenkjenningsselskapet Nuance (som i 2011 kjøpte selskapet Loquendo , spin-off fra CSELT selv for taleteknologi), selskapet bak Apples Siri- teknologi. En bekreftet taleprint skulle brukes til å identifisere innringere til systemet, og systemet ville i fremtiden bli rullet ut over selskapet.

Private banking -avdelingen i Barclays var det første finanstjenestefirmaet som distribuerte tale -biometri som det viktigste middelet for å autentisere kunder til deres telefonsentre . 93% av kundens brukere hadde vurdert systemet til "9 av 10" for hastighet, brukervennlighet og sikkerhet.

Høyttalergjenkjenning kan også brukes i kriminelle etterforskninger, for eksempel de som ble henrettet i 2014 av blant annet James Foley og Steven Sotloff .

I februar 2016 kunngjorde den britiske high-street banken HSBC og den internettbaserte detaljbanken First Direct at den ville tilby 15 millioner kunder sin biometriske bankprogramvare for å få tilgang til online- og telefonkontoer ved hjelp av fingeravtrykk eller stemme.

Se også

Lister

Merknader

Referanser

Eksterne linker

Programvare