Vapnik - Chervonenkis teori - Vapnik–Chervonenkis theory

Vapnik - Chervonenkis teori (også kjent som VC teori ) ble utviklet i løpet av 1960–1990 av Vladimir Vapnik og Alexey Chervonenkis . Teorien er en form for beregningslæringsteori , som forsøker å forklare læringsprosessen fra et statistisk synspunkt.

VC -teori er relatert til statistisk læringsteori og til empiriske prosesser . Richard M. Dudley og Vladimir Vapnik , blant andre, har brukt VC-teori på empiriske prosesser .

Introduksjon

VC -teorien dekker minst fire deler (som forklart i The Nature of Statistical Learning Theory ):

  • Teori om konsistens av læringsprosesser
  • Nonasymptotic teori om graden av konvergens av læringsprosesser
    • Hvor fort er læringsprosessens konvergenshastighet?
  • Teori om å kontrollere generaliseringsevnen til læringsprosesser
  • Teori om konstruksjon av læringsmaskiner
    • Hvordan kan man konstruere algoritmer som kan kontrollere generaliseringsevnen?

VC Theory er en viktig undergren av statistisk læringsteori . En av hovedapplikasjonene i statistisk læringsteori er å gi generaliseringsbetingelser for læringsalgoritmer. Fra dette synspunktet er VC -teori knyttet til stabilitet , som er en alternativ tilnærming for å karakterisere generalisering.

I tillegg er VC -teori og VC -dimensjon avgjørende for teorien om empiriske prosesser , når det gjelder prosesser indeksert av VC -klasser. Dette er uten tvil de viktigste anvendelsene av VC -teorien, og brukes for å bevise generalisering. Flere teknikker vil bli introdusert som er mye brukt i den empiriske prosessen og VC -teorien. Diskusjonen er hovedsakelig basert på boken Weak Convergence and Empirical Processes: With Applications to Statistics .

Oversikt over VC -teori i empiriske prosesser

Bakgrunn om empiriske prosesser

La være tilfeldige elementer definert på et målbart mellomrom . For ethvert mål på og eventuelle målbare funksjoner , definer

Målbarhetsproblemer vil bli ignorert her, for mer teknisk detalj se. La oss være en klasse med målbare funksjoner og definere:

Definer det empiriske målet

hvor δ her står for Dirac -mål . Det empiriske tiltaket induserer et kart gitt av:

Anta nå at P er den underliggende sanne fordelingen av dataene, som er ukjent. Empiriske prosesser teori tar sikte på å identifisere klasser som utsagn som følgende holder:

  • ensartet lov med store tall :

Det er, som ,

jevnt for alle .

I det tidligere tilfellet kalles Glivenko -Cantelli -klassen, og i det siste tilfellet (under forutsetning ) kalles klassen Donsker eller P -Donsker. En Donsker-klasse er Glivenko-Cantelli i sannsynlighet ved bruk av Slutskys teorem .

Disse utsagnene er sanne for et enkelt , med standard LLN , CLT -argumenter under regelmessighetsbetingelser, og vanskeligheten i empiriske prosesser kommer inn fordi det blir fremsatt felles uttalelser for alle . Intuitivt da kan settet ikke være for stort, og som det viser seg at geometrien til spiller en veldig viktig rolle.

En måte å måle hvor stort funksjonssettet er å bruke de såkalte dekkende tallene . Dekningsnummeret

er det minimale antallet baller som trengs for å dekke settet (her antas det åpenbart at det er en underliggende norm på ). Entropien er logaritmen til dekknummeret.

To tilstrekkelige betingelser er gitt nedenfor, under hvilke det kan bevises at settet er Glivenko-Cantelli eller Donsker.

En klasse er P -Glivenko -Cantelli hvis den er P -målbar med konvolutt F slik at den tilfredsstiller:

Den neste betingelsen er en versjon av den berømte Dudleys teorem . Hvis er en klasse med funksjoner slik at

da er P -Donsker for hvert sannsynlighetsmål P slik at . I den siste integralen betyr notasjonen

.

Symmetrisering

Flertallet av argumentene om hvordan den empiriske prosessen skal bindes, er avhengige av symmetrisering, maksimal ulikhet og konsentrasjon og ulikhet. Symmetrisering er vanligvis det første trinnet i bevisene, og siden det brukes i mange maskinlæringsbevis om begrensende empiriske tapfunksjoner (inkludert beviset på VC -ulikheten som diskuteres i neste avsnitt), presenteres det her.

Vurder den empiriske prosessen:

Det viser seg at det er en sammenheng mellom den empiriske og den følgende symmetriserte prosessen:

Den symmetriiserte prosessen er en Rademacher -prosess , betinget av dataene . Derfor er det en sub-gaussisk prosess av Hoeffdings ulikhet .

Lemma (symmetrisering). For hver nedadgående, konvekse Φ: RR og klasse målbare funksjoner ,

Beviset på Symmetrization -lemmaet er avhengig av å introdusere uavhengige kopier av de originale variablene (noen ganger referert til som et spøkelseseksempel ) og erstatte den indre forventningen til LHS med disse kopiene. Etter en anvendelse av Jensens ulikhet kunne forskjellige tegn innføres (derav navnet symmetrisering) uten å endre forventningen. Beviset finner du nedenfor på grunn av dets lærerike natur.

Bevis  -

Introduser "spøkelsesprøven" for å være uavhengige kopier av . For faste verdier av en har:

Derfor ved Jensens ulikhet :

Å ta forventning med hensyn til gir:

Vær oppmerksom på at det å legge et minustegn foran et begrep ikke endrer RHS, fordi det er en symmetrisk funksjon av og . Derfor forblir RHS den samme under "tegnforstyrrelse":

for noen . Derfor:

Til slutt bruker du den første trekanten ulikhet og deretter konveksiteten til gir:

Hvor de to siste uttrykkene på RHS er de samme, noe som avslutter beviset.

En typisk måte å bevise empiriske CLT på, bruker først symmetrisering for å overføre den empiriske prosessen til og deretter argumentere betinget om dataene, ved å bruke det faktum at Rademacher -prosesser er enkle prosesser med fine egenskaper.

VC -tilkobling

Det viser seg at det er en fascinerende sammenheng mellom visse kombinatoriske egenskaper til settet og entropintallene. Uniform dekknummer kan styres av forestillingen om Vapnik -Chervonenkis -sett med sett - eller kort tid VC -sett .

Vurder en samling undersett av prøveområdet . sies å velge en bestemt delmengde av det endelige settet hvis for noen . sies å knuse S hvis den plukker ut hver av sine 2 n undersett. Den VC-indeks (tilsvarende VC dimensjon + 1 for et riktig valgt klassifiseringsenhet sett) av er den minste n som ingen sett av størrelse n er knust av .

Sauer's lemma sier da at antall undersett valgt av en VC-klasse tilfredsstiller:

Som er et polynomisk antall undersett i stedet for et eksponentielt tall. Intuitivt betyr dette at en endelig VC-indeks innebærer at den har en tilsynelatende enkel struktur.

En lignende grense kan vises (med en annen konstant, samme hastighet) for de såkalte VC-subgrafklassene . For en funksjon av subgraf er en delmengde av slik at: . En samling kalles en VC-subgrafklasse hvis alle undergrafer danner en VC-klasse.

Betrakt et sett av indikatorfunksjoner i for diskrete empirisk type tiltak Q (eller ekvivalent for enhver sannsynlighet tiltak Q ). Det kan da vises det ganske bemerkelsesverdig, for :

Vurder videre det symmetriske konvekse skroget til et sett : å være samlingen av funksjoner i skjemaet med . Så hvis

følgende gjelder for det konvekse skroget på :

Den viktige konsekvensen av dette faktum er det

som er akkurat nok til at entropi -integralet skal konvergere, og derfor kommer klassen til å være P -Donsker.

Til slutt vurderes et eksempel på en VC-subgrafklasse. Enhver endelig-dimensjonal vektorrom med målbare funksjoner er VC-subgraf av indeksen mindre enn eller lik .

Bevis: Ta poeng . Vektorene:

er i et n - 1 dimensjonalt underrom av R n . Ta en ≠ 0 , en vektor som er ortogonal til dette underrommet. Derfor:

Vurder settet . Dette settet kan ikke plukkes ut siden hvis det er noe slikt som kan antyde at LHS er strengt positivt, men RHS er ikke-positivt.

Det er generaliseringer av begrepet VC-subgrafklasse, f.eks. Er det forestillingen om pseudodimensjon. Den interesserte leseren kan se nærmere på.

VC ulikhet

En lignende setting vurderes, noe som er mer vanlig for maskinlæring . Let er et funksjonsrom og . En funksjon kalles en klassifikator. La oss være et sett med klassifiseringer. På samme måte som den forrige delen, definer knusekoeffisienten (også kjent som vekstfunksjon):

Legg merke til her at det er en 1: 1 gå mellom hver av funksjonene i og settet som funksjonen er 1. Vi kan dermed definere å være samlingen av undersett hentet fra ovennevnte kartlegging for hver . Derfor, i forhold til forrige seksjon, er splintringskoeffisienten presis

.

Denne ekvivalensen sammen med Sauer's Lemma innebærer at det kommer til å være polynom i n , for tilstrekkelig stort n forutsatt at samlingen har en endelig VC-indeks.

Let er et observert datasett. Anta at dataene genereres av en ukjent sannsynlighetsfordeling . Definer det som forventet tap på 0/1 . Selvfølgelig siden det er ukjent generelt, har man ingen tilgang til . Imidlertid er den empiriske risikoen gitt av:

kan absolutt evalueres. Da har man følgende teorem:

Teorem (VC ulikhet)

For binær klassifisering og 0/1 tapfunksjonen har vi følgende generaliseringsgrenser:

Med ord sier VC -ulikheten at når prøven øker, forutsatt at den har en begrenset VC -dimensjon, blir den empiriske 0/1 risikoen en god proxy for den forventede 0/1 risikoen. Vær oppmerksom på at begge RHS av de to ulikhetene vil konvergere til 0, forutsatt at det vokser polynomt i n .

Sammenhengen mellom dette rammeverket og det empiriske prosessrammeverket er tydelig. Her har man å gjøre med en modifisert empirisk prosess

men ikke overraskende er ideene de samme. Beviset på (første del av) VC -ulikhet, er avhengig av symmetrisering, og argumenterer deretter betinget med dataene ved å bruke konsentrasjonsulikheter (spesielt Hoeffdings ulikhet ). Den interesserte leseren kan sjekke boken Theorems 12.4 og 12.5.

Referanser

  • ^ Vapnik, Vladimir N (2000). Naturen til statistisk læringsteori . Informasjonsvitenskap og statistikk. Springer-Verlag . ISBN 978-0-387-98780-4.
  • Vapnik, Vladimir N (1989).Statistisk læringsteori. Wiley-Interscience . ISBN 978-0-471-03003-4.
  • ^ van der Vaart, Aad W .; Wellner, Jon A. (2000). Svak konvergens og empiriske prosesser: Med applikasjoner til statistikk (2. utg.). Springer. ISBN 978-0-387-94640-5.
  • ^ Gyorfi, L .; Devroye, L .; Lugosi, G. (1996). En sannsynlighetsteori om mønstergjenkjenning (1. utg.). Springer. ISBN 978-0387946184.
  • Se referanser i artikler: Richard M. Dudley , empiriske prosesser , Shattered set .
  • ^ Pollard, David (1990).Empiriske prosesser: Teori og applikasjoner. NSF-CBMS Regional Conference Series in Probability and Statistics Volume 2. ISBN 978-0-940600-16-4.
  • Bousquet, O .; Boucheron, S .; Lugosi, G. (2004). "Introduksjon til statistisk læringsteori". I O. Bousquet; U. von Luxburg; G. Ratsch (red.). Avanserte forelesninger om maskinlæring . Forelesningsnotater i kunstig intelligens. 3176 . Springer. s. 169–207.
  • Vapnik, V .; Chervonenkis, A. (2004). "Om den enhetlige konvergensen av relative frekvenser av hendelser til deres sannsynligheter". Teori Probab. Appl . 16 (2): 264–280. doi : 10.1137/1116025 .