Prinsippet om maksimal entropi - Principle of maximum entropy

Den prinsippet om maksimal entropi sier at sannsynlighetsfordelingen som best representerer den nåværende tilstand av kunnskap om et system er den med største entropi , i forbindelse med nettopp nevnt tidligere data (for eksempel et forslag som uttrykker testbar informasjon ).

En annen måte å si dette på: Ta presise oppgitte tidligere data eller testbar informasjon om en sannsynlighetsfordelingsfunksjon. Vurder settet med alle prøvesannsynlighetsfordelinger som vil kode for tidligere data. I henhold til dette prinsippet er distribusjon med maksimal informasjonsentropi det beste valget.

Siden distribusjonen med maksimal entropi er den som gir færrest antakelser om den sanne distribusjonen av data, kan prinsippet om maksimal entropi sees på som en anvendelse av Occams barberhøvel .

Historie

Prinsippet ble først forklart av ET Jaynes i to papirer i 1957 hvor han la vekt på en naturlig samsvar mellom statistisk mekanikk og informasjonsteori . Spesielt ga Jaynes en ny og veldig generell begrunnelse for hvorfor den gibbsiske metoden for statistisk mekanikk fungerer. Han hevdet at entropien til statistisk mekanikk og informasjonsteorien til informasjonsteorien i utgangspunktet er den samme. Derfor bør statistisk mekanikk sees på som en bestemt anvendelse av et generelt verktøy for logisk slutning og informasjonsteori.

Oversikt

I de fleste praktiske tilfeller er de oppgitte tidligere data eller testbar informasjon gitt av et sett med konserverte størrelser (gjennomsnittsverdier for noen momentfunksjoner), assosiert med den aktuelle sannsynlighetsfordelingen . Dette er måten det maksimale entropiprinsippet oftest brukes i statistisk termodynamikk . En annen mulighet er å foreskrive noen symmetrier av sannsynlighetsfordelingen. Ekvivalensen mellom konserverte størrelser og tilsvarende symmeturgrupper innebærer en tilsvarende ekvivalens for disse to måtene å spesifisere den testbare informasjonen i den maksimale entropimetoden.

Det maksimale entropiprinsippet er også nødvendig for å garantere unikhet og konsistens av sannsynlighetsoppgaver oppnådd ved forskjellige metoder, statistisk mekanikk og logisk inferens spesielt.

Det maksimale entropiprinsippet gir uttrykk for vår frihet til å bruke forskjellige former for tidligere data . Som et spesielt tilfelle kan en ensartet tidligere sannsynlighetstetthet (Laplaces likegyldighetsprinsipp , noen ganger kalt prinsippet om utilstrekkelig grunn), bli vedtatt. Dermed er det maksimale entropiprinsippet ikke bare en alternativ måte å se de vanlige inferansemetodene for klassisk statistikk, men representerer en betydelig konseptuell generalisering av disse metodene.

Disse uttalelsene innebærer imidlertid ikke at termodynamiske systemer ikke trenger å være ergodiske for å rettferdiggjøre behandling som et statistisk ensemble .

På vanlig språk kan prinsippet om maksimal entropi sies å uttrykke et krav om epistemisk beskjedenhet, eller om maksimal uvitenhet. Den valgte distribusjonen er den som hevder minst å være informert utover de oppgitte tidligere data, det vil si den som innrømmer mest uvitenhet utover de oppgitte tidligere data.

Testbar informasjon

Prinsippet om maksimal entropi er bare eksplisitt nyttig når det brukes på testbar informasjon . Testbar informasjon er en uttalelse om en sannsynlighetsfordeling hvis sannhet eller falskhet er veldefinert. For eksempel uttalelsene

den forventning av den variable er 2,87

og

(hvor og er sannsynlighet for hendelser) er utsagn om testbar informasjon.

Gitt testbar informasjon, består den maksimale entropiprosedyren av å søke sannsynlighetsfordelingen som maksimerer informasjonsentropi , med forbehold om begrensningene for informasjonen. Dette begrensede optimaliseringsproblemet løses vanligvis ved hjelp av metoden til Lagrange-multiplikatorer .

Entropimaksimering uten testbar informasjon respekterer den universelle "begrensningen" at summen av sannsynlighetene er en. Under denne begrensningen er den maksimale entropi diskrete sannsynlighetsfordelingen den ensartede fordelingen ,

applikasjoner

Prinsippet om maksimal entropi brukes ofte på to måter for inferensielle problemer:

Tidligere sannsynligheter

Prinsippet om maksimal entropi brukes ofte for å oppnå tidligere sannsynlighetsfordelinger for Bayesian-inferens . Jaynes var en sterk talsmann for denne tilnærmingen, og hevdet at den maksimale entropifordelingen representerte den minst informative fordelingen. En stor mengde litteratur er nå viet til fremkalling av maksimal entropi priors og koblinger med kanalkoding .

Bakre sannsynligheter

Maksimal entropi er en tilstrekkelig oppdateringsregel for radikal sannsynlighet . Richard Jeffrey 's sannsynlighets kinematikk er et spesialtilfelle av maksimal entropi slutning. Imidlertid er maksimal entropi ikke en generalisering av alle slike tilstrekkelige oppdateringsregler.

Maksimale entropimodeller

Alternativt blir prinsippet ofte påkalt for modellspesifikasjon: i dette tilfellet antas selve de observerte dataene å være den testbare informasjonen. Slike modeller er mye brukt i naturlig språkbehandling . Et eksempel på en slik modell er logistisk regresjon , som tilsvarer den maksimale entropiklassifisereren for uavhengige observasjoner.

Anslag for sannsynlighetstetthet

En av hovedapplikasjonene for maksimum entropiprinsippet er i diskret og kontinuerlig tetthetsestimering . I likhet med støttevektormaskinestimatorer kan det maksimale entropiprinsippet kreve løsningen på et kvadratisk programmeringsproblem , og dermed gi en sparsom blandingsmodell som den optimale tetthetsestimatoren. En viktig fordel med metoden er dens evne til å innlemme tidligere informasjon i tetthetsestimeringen.

Generell løsning for maksimal entropifordeling med lineære begrensninger

Diskret sak

Vi har en del testbar informasjon I om en mengde x som tar verdier i { x 1 , x 2 , ..., x n }. Vi antar at denne informasjonen har form av m begrensninger på forventningene til funksjonene f k ; det vil si at vi krever vår sannsynlighetsfordeling for å tilfredsstille øyeblikkets ulikhets- / likhetsbegrensninger:

der det er observerbare. Vi krever også at sannsynlighetstettheten oppsummeres til en, som kan sees på som en primitiv begrensning for identitetsfunksjonen og en observerbar lik 1 som gir begrensningen

Sannsynlighetsfordelingen med maksimal informasjonsentropi underlagt disse ulikhets- / likhetsbegrensningene er av formen:

for noen . Det kalles noen ganger Gibbs-distribusjonen . Normaliseringskonstanten bestemmes av:

og kalles konvensjonelt partisjonsfunksjonen . ( Pitman – Koopman-teoremet sier at den nødvendige og tilstrekkelige forutsetningen for en samplingsfordeling for å tillate tilstrekkelig statistikk av avgrenset dimensjon er at den har den generelle formen for en maksimal entropifordeling.)

Λ k- parameterne er Lagrange-multiplikatorer. I tilfelle av likhetsbegrensninger bestemmes deres verdier ut fra løsningen av de ikke-lineære ligningene

I tilfelle av ulikhetsbegrensninger bestemmes Lagrange-multiplikatorene fra løsningen av et konveks optimaliseringsprogram med lineære begrensninger. I begge tilfeller er det ingen løsning med lukket form , og beregningen av Lagrange-multiplikatorene krever vanligvis numeriske metoder .

Kontinuerlig sak

For kontinuerlige distribusjoner kan ikke Shannon-entropien brukes, da den bare er definert for diskrete sannsynlighetsrom. I stedet ga Edwin Jaynes (1963, 1968, 2003) følgende formel, som er nært knyttet til den relative entropien (se også differensial entropi ).

der q ( x ), som Jaynes kalte "det uforanderlige målet", er proporsjonalt med den begrensende tettheten til diskrete punkter . For nå skal vi anta at q er kjent; vi vil diskutere det videre etter at løsningsligningene er gitt.

En nært beslektet størrelse, den relative entropien, blir vanligvis definert som Kullback-Leibler-divergensen av p fra q (selv om det noen ganger, forvirrende, er definert som det negative av dette). Slutningsprinsippet om å minimere dette, på grunn av Kullback, er kjent som prinsippet om minimumsdiskrimineringsinformasjon .

Vi har en del testbar informasjon I om en størrelse x som tar verdier i et intervall av de reelle tallene (alle integraler nedenfor er over dette intervallet). Vi antar at denne informasjonen har form av m begrensninger på forventningene til funksjonene f k , dvs. at vi krever vår sannsynlighetstetthetsfunksjon for å tilfredsstille øyeblikksbegrensningene for ulikhet (eller rent likhet):

der det er observerbare. Vi krever også at sannsynlighetstettheten integreres til en, som kan sees på som en primitiv begrensning på identitetsfunksjonen og en observerbar lik 1 som gir begrensningen

Sannsynlighetstetthetsfunksjon med maksimal H c i henhold til disse begrensninger er:

med partisjonsfunksjonen bestemt av

Som i det diskrete tilfellet, i tilfelle hvor alle momentbegrensninger er likheter, bestemmes parameterverdiene av systemet med ikke-lineære ligninger:

I tilfelle med ulikhetsmomentbegrensninger bestemmes Lagrange-multiplikatorene ut fra løsningen på et konveks optimaliseringsprogram .

Den uforanderlige målefunksjonen q ( x ) kan forstås best ved å anta at x er kjent for å ta verdier bare i det avgrensede intervallet ( a , b ), og at ingen annen informasjon er gitt. Da er maksimum entropi sannsynlighets tetthetsfunksjon

der A er en normaliseringskonstant. Den uforanderlige målefunksjonen er faktisk den tidligere tetthetsfunksjonen som koder for 'mangel på relevant informasjon'. Det kan ikke bestemmes av prinsippet om maksimal entropi, og må bestemmes av en annen logisk metode, slik som prinsippet om transformasjonsgrupper eller marginaliseringsteori .

Eksempler

For flere eksempler på maksimale entropifordelinger, se artikkelen om maksimale sannsynlighetsfordelinger for entropi .

Begrunnelser for prinsippet om maksimal entropi

Tilhengere av prinsippet om maksimal entropi rettferdiggjør bruken av den ved å tildele sannsynligheter på flere måter, inkludert følgende to argumenter. Disse argumentene tar bruk av Bayesians sannsynlighet som gitt, og er således underlagt de samme postulatene.

Informasjonsentropi som et mål for 'uinformativitet'

Vurder en diskret sannsynlighetsfordeling blant gjensidig utelukkende proposisjoner . Den mest informative distribusjonen ville oppstå når et av forslagene var kjent for å være sant. I så fall vil informasjonsentropien være lik null. Den minst informative distribusjonen vil skje når det ikke er grunn til å favorisere noen av forslagene fremfor de andre. I så fall ville den eneste rimelige sannsynlighetsfordelingen være ensartet, og da ville informasjonsentropien være lik den maksimale mulige verdien . Informasjonsentropien kan derfor sees på som et numerisk mål som beskriver hvor uinformativ en bestemt sannsynlighetsfordeling er, alt fra null (helt informativ) til (helt uinformativ).

Ved å velge å bruke distribusjonen med den maksimale entropien tillatt av informasjonen vår, går argumentet, vi velger en mest uinformativ distribusjon mulig. Å velge en distribusjon med lavere entropi ville være å anta informasjon vi ikke har. Dermed er den maksimale entropifordelingen den eneste rimelige fordelingen. Den avhengigheten av løsningen på den dominerende tiltaket representert ved er imidlertid en kilde til kritikk av tilnærmingen siden dette dominerende tiltaket er faktisk tilfeldig.

Wallis-avledningen

Følgende argument er resultatet av et forslag fra Graham Wallis til ET Jaynes i 1962. Det er egentlig det samme matematiske argumentet som ble brukt for Maxwell – Boltzmann-statistikken i statistisk mekanikk , selv om konseptuell vektlegging er ganske annerledes. Det har fordelen av å være strengt kombinatorisk, og refererer ikke til informasjonsentropi som et mål for "usikkerhet", "uinformativitet" eller noe annet presist definert begrep. Informasjonsentropifunksjonen antas ikke a priori , men blir snarere funnet i løpet av argumentet; og argumentet fører naturlig til prosedyren for å maksimere informasjonsentropien, i stedet for å behandle den på en annen måte.

Anta at en person ønsker å foreta en sannsynlighetsoppgave blant gjensidig utelukkende proposisjoner. Han har noe testbar informasjon, men er ikke sikker på hvordan han skal ta med denne informasjonen i sin sannsynlighetsvurdering. Han tenker derfor på følgende tilfeldige eksperiment. Han vil fordele sannsynlighetskvantiteter (hver verdi ) tilfeldig blant mulighetene. (Man kan forestille seg at han vil kaste baller i bøtter med bind for øynene. For å være så rettferdig som mulig, må hvert kast være uavhengig av alle andre, og hver bøtte skal være av samme størrelse.) Når eksperimentet er gjort, han vil sjekke om sannsynlighetsoppgaven som er oppnådd slik er i samsvar med hans informasjon. (For at dette trinnet skal lykkes, må informasjonen være en begrensning gitt av et åpent sett i rommet for sannsynlighetstiltak). Hvis det er inkonsekvent, vil han avvise det og prøve på nytt. Hvis det er konsekvent, vil hans vurdering være

hvor er sannsynligheten for th- proposisjonen, mens n i er antall kvanta som ble tildelt th- proposisjonen (dvs. antall kuler som havnet i bøtte ).

Nå, for å redusere "kornetheten" i sannsynlighetsoppgaven, vil det være nødvendig å bruke et stort antall kvantiteter av sannsynlighet. I stedet for å faktisk utføre, og muligens måtte gjenta det ganske lange tilfeldige eksperimentet, bestemmer hovedpersonen seg for å bare beregne og bruke det mest sannsynlige resultatet. Sannsynligheten for et bestemt resultat er multinomial fordeling ,

hvor

er noen ganger kjent som mangfoldet av utfallet.

Det mest sannsynlige resultatet er det som maksimerer mangfoldet . I stedet for å maksimere direkte, kunne hovedpersonen like fullt maksimere enhver monoton økende funksjon av . Han bestemmer seg for å maksimere

For å forenkle uttrykket tar hovedpersonen på dette punktet grensen som , dvs. når sannsynlighetsnivåene går fra kornete diskrete verdier til glatte kontinuerlige verdier. Ved å bruke Stirlings tilnærming , finner han

Alt som gjenstår for hovedpersonen å gjøre er å maksimere entropi under begrensningene av hans testbare informasjon. Han har funnet at maksimal entropifordeling er den mest sannsynlige av alle "rettferdige" tilfeldige fordelinger, i grensen ettersom sannsynlighetsnivåene går fra diskret til kontinuerlig.

Kompatibilitet med Bayes teorem

Giffin og Caticha (2007) hevder at Bayes 'teorem og prinsippet om maksimal entropi er fullstendig kompatible og kan sees på som spesielle tilfeller av "metoden for maksimal relativ entropi". De sier at denne metoden gjengir alle aspekter av ortodokse bayesiske inferensmetoder. I tillegg åpner denne nye metoden døren for å takle problemer som hverken kunne håndteres av det maksimale entropiprinsippet eller ortodokse bayesiske metoder. Videre viser nylige bidrag (Lazar 2003 og Schennach 2005) at hyppige relativ-entropi-baserte inferenstilnærminger (som empirisk sannsynlighet og eksponentielt vippet empirisk sannsynlighet - se f.eks. Owen 2001 og Kitamura 2006) kan kombineres med tidligere informasjon for å utføre Bayesian bakre analyse.

Jaynes uttalte at Bayes-setningen var en måte å beregne en sannsynlighet på, mens maksimal entropi var en måte å tildele en tidligere sannsynlighetsfordeling.

Det er imidlertid mulig i konseptet å løse en posterior fordeling direkte fra en angitt tidligere fordeling ved å bruke prinsippet om minimum kryssentropi (eller prinsippet om maksimal entropi er et spesielt tilfelle av å bruke en jevn fordeling som gitt tidligere), uavhengig av noen bayesiske betraktninger ved å behandle problemet formelt som et begrenset optimaliseringsproblem, der Entropy-funksjonaliteten er den objektive funksjonen. For gitte gjennomsnittsverdier som testbar informasjon (gjennomsnitt over den etterspurte sannsynlighetsfordelingen), er den ettertraktede fordelingen formelt Gibbs (eller Boltzmann) -fordelingen hvis parametere må løses for å oppnå minimum kryssentropi og tilfredsstille den gitte testbare informasjonen.

Relevans for fysikk

Prinsippet om maksimal entropi har et forhold til en sentral antagelse om kinetisk teori om gasser kjent som molekylær kaos eller Stosszahlansatz . Dette hevder at distribusjonsfunksjonen som karakteriserer partikler som kommer inn i en kollisjon, kan faktoriseres. Selv om denne påstanden kan forstås som en strengt fysisk hypotese, kan den også tolkes som en heuristisk hypotese angående den mest sannsynlige konfigurasjonen av partikler før de kolliderer.

Se også

Merknader

Referanser

Videre lesning