Sentral tendens - Central tendency

I statistikk er en sentral tendens (eller mål på sentral tendens ) en sentral eller typisk verdi for en sannsynlighetsfordeling . Det kan også kalles et senter eller sted for distribusjonen. I daglig tale kalles ofte mål for sentral tendens gjennomsnitt . Begrepet sentral tendens stammer fra slutten av 1920 -tallet.

De vanligste målene for sentral tendens er det aritmetiske gjennomsnittet , medianen og modusen . En middels tendens kan beregnes for enten et begrenset sett med verdier eller for en teoretisk fordeling, for eksempel normalfordelingen . Noen ganger bruker forfattere sentral tendens til å betegne "tendensen til kvantitative data til å samle seg rundt en sentral verdi."

Den sentrale tendensen til en distribusjon står vanligvis i kontrast til dens spredning eller variabilitet ; spredning og sentral tendens er fordelingenes ofte karakteriserte egenskaper. Analyse kan vurdere om data har en sterk eller svak sentral tendens basert på spredning.

målinger

Følgende kan brukes på endimensjonale data. Avhengig av omstendighetene kan det være aktuelt å transformere dataene før du beregner en sentral tendens. Eksempler er kvadrering av verdiene eller logaritmer. Hvorvidt en transformasjon er hensiktsmessig og hva den bør være, avhenger sterkt av dataene som analyseres.

Aritmetisk gjennomsnitt eller ganske enkelt, gjennomsnittlig
summen av alle målinger dividert med antall observasjoner i datasettet.
Median
den mellomste verdien som skiller den øvre halvdelen fra den nedre halvdelen av datasettet. Medianen og modusen er de eneste målene for sentral tendens som kan brukes for ordinære data , der verdier er rangert i forhold til hverandre, men ikke måles absolutt.
Modus
den hyppigste verdien i datasettet. Dette er det eneste sentrale tendensmål som kan brukes med nominelle data , som har rent kvalitative kategorioppgaver.
Geometrisk gjennomsnitt
den n- te rot av produktet av dataverdiene, der det er n av disse. Dette tiltaket gjelder bare for data som måles absolutt på en strengt positiv skala.
Harmonisk middel
det gjensidige av det aritmetiske gjennomsnittet av gjensidighetene til dataverdiene. Dette tiltaket er også gyldig bare for data som måles absolutt på en strengt positiv skala.
Vektet aritmetisk gjennomsnitt
et aritmetisk gjennomsnitt som inkluderer vekting for visse dataelementer.
Avkortet gjennomsnitt eller trimmet gjennomsnitt
det aritmetiske gjennomsnittet av dataverdier etter at et visst antall eller andel av de høyeste og laveste dataverdiene er forkastet.
Mellomkvartil betyr
et avkortet gjennomsnitt basert på data innenfor interkvartilområdet .
Mellomklasse
det aritmetiske gjennomsnittet av maksimums- og minimumsverdiene for et datasett.
Midhinge
det aritmetiske gjennomsnittet av de første og tredje kvartilene .
Trimean
det veide aritmetiske gjennomsnittet av medianen og to kvartiler.
Winsorized gjennomsnitt
et aritmetisk gjennomsnitt der ekstreme verdier erstattes av verdier nærmere medianen.

Enhver av de ovennevnte kan brukes på hver dimensjon av flerdimensjonale data, men resultatene er ikke nødvendigvis uendelige for rotasjoner av det flerdimensjonale rommet. I tillegg er det

Geometrisk median
som minimerer summen av avstander til datapunktene. Dette er det samme som medianen når det brukes på endimensjonale data, men det er ikke det samme som å ta medianen for hver dimensjon uavhengig. Det er ikke ufravikelig for forskjellig omskalering av de forskjellige dimensjonene.
Kvadratisk gjennomsnitt (ofte kjent som roten gjennomsnittlig firkant )
nyttig i ingeniørfag, men ikke ofte brukt i statistikk. Dette er fordi det ikke er en god indikator på fordelingssenteret når fordelingen inkluderer negative verdier.
Enkel dybde
sannsynligheten for at en tilfeldig valgt simplex med hjørner fra den gitte fordelingen vil inneholde det gitte senteret
Tukey median
et punkt med egenskapen at hvert halvrom som inneholder det også inneholder mange prøvepunkter

Løsninger på variasjonsproblemer

Flere mål på sentral tendens kan karakteriseres som å løse et variasjonsproblem, i betydningen av variasjonens beregning , nemlig å minimere variasjon fra sentrum. Det vil si, gitt et mål på statistisk spredning , ber man om et mål på sentral tendens som minimerer variasjon: slik at variasjon fra sentrum er minimal blant alle valg av senter. I et quip, "spredning foregår plassering". Disse målene er opprinnelig definert i en dimensjon, men kan generaliseres til flere dimensjoner. Dette senteret kan være unikt eller ikke. I betydningen av L p mellomrom , er korrespondansen:

L s spredning sentral tendens
L 0 variasjonsforhold modus
L 1 gjennomsnittlig absolutt avvik median ( geometrisk median )
L 2 standardavvik gjennomsnitt ( sentroid )
L maksimal avvik mellomtone

De tilhørende funksjonene kalles p -normer : henholdsvis 0- "norm", 1-norm, 2-norm og ∞-norm. Funksjonen som tilsvarer L 0- rommet er ikke en norm, og blir derfor ofte referert til i anførselstegn: 0- "norm".

I ligninger, for et gitt (endelig) datasett X , tenkt som en vektor x = ( x 1 ,…, x n ) , er spredningen om et punkt c "avstanden" fra x til den konstante vektoren c = ( c ,…, c ) i p -normen (normalisert med antall punkter n ):

For p = 0 og p = ∞ er disse funksjonene definert ved å ta grenser, henholdsvis p → 0 og p → ∞ . For p = 0 er grenseverdiene 0 0 = 0 og a 0 = 0 eller a ≠ 0 , så forskjellen blir rett og slett likhet, så 0-normen teller antall ulik poeng. For p = ∞ dominerer det største tallet, og dermed er ∞-normen maksimal forskjell.

Unikhet

Middel ( L 2 senter) og mellomtone ( L senter) er unike (når de eksisterer), mens medianen ( L 1 senter) og modus ( L 0 senter) generelt ikke er unike. Dette kan forstås i form av konveksitet av de tilhørende funksjonene ( tvangsfunksjoner ).

2-normen og ∞-normen er strengt konvekse , og dermed (ved konveks optimalisering) er minimizeren unik (hvis den eksisterer), og eksisterer for begrensede fordelinger. Dermed er standardavviket om gjennomsnittet lavere enn standardavviket for et hvilket som helst annet punkt, og maksimalavviket om mellomområdet er lavere enn maksimumsavviket for et hvilket som helst annet punkt.

1-normen er ikke strengt konveks, mens streng konveksitet er nødvendig for å sikre unikheten til minimizer. Tilsvarende er medianen (i denne betydningen av minimering) generelt ikke unik, og faktisk et hvilket som helst punkt mellom de to sentrale punktene i en diskret fordeling minimerer gjennomsnittlig absolutt avvik.

0- "normen" er ikke konveks (derfor ikke en norm). Tilsvarende er modusen ikke unik - for eksempel i en jevn fordeling er et hvilket som helst punkt modusen.

Gruppering

I stedet for et enkelt sentralt punkt kan man be om flere punkter slik at variasjonen fra disse punktene minimeres. Dette fører til klyngeanalyse , hvor hvert punkt i datasettet er gruppert med nærmeste "sentrum". Vanligvis generaliserer bruk av 2 -normen gjennomsnittet til k -midler , mens bruk av 1 -normen generaliserer (geometrisk) median til k -medianer . Å bruke 0-normen generaliserer ganske enkelt modusen (vanligste verdien) til å bruke de k vanligste verdiene som sentre.

I motsetning til enkeltsenterstatistikken kan denne flersenterklyngen generelt ikke beregnes i et uttrykk med lukket form , og må i stedet beregnes eller tilnærmes med en iterativ metode ; en generell tilnærming er forventnings -maksimeringsalgoritmer .

Informasjonsgeometri

Forestillingen om et "senter" som minimerende variasjon kan generaliseres i informasjonsgeometri som en fordeling som minimerer divergens (en generalisert avstand) fra et datasett. Det vanligste tilfellet er maksimal sannsynlighetsestimering , der maksimal sannsynlighetsestimat (MLE) maksimerer sannsynligheten (minimerer forventet overraskelse ), som kan tolkes geometrisk ved å bruke entropi for å måle variasjon: MLE minimerer kryssentropi (ekvivalent, relativ entropi , Kullback– Leibler divergens).

Et enkelt eksempel på dette er for sentrum av nominelle data: i stedet for å bruke modusen (det eneste enkeltverdige "senteret") bruker man ofte det empiriske målet ( frekvensfordelingen dividert med prøvestørrelsen ) som et "senter" . For eksempel gitt binære data , si hoder eller haler, hvis et datasett består av 2 hoder og 1 haler, er modusen "hoder", men det empiriske målet er 2/3 hoder, 1/3 haler, noe som minimerer kryssentropi (total overraskelse) fra datasettet. Dette perspektivet brukes også i regresjonsanalyse , der minst kvadrater finner løsningen som minimerer avstandene fra det, og analogt i logistisk regresjon minimerer et maksimal sannsynlighetsestimat overraskelsen (informasjonsavstand).

Forholdet mellom gjennomsnittet, medianen og modusen

For unimodale fordelinger er følgende grenser kjent og skarpe:

der μ er gjennomsnittet, ν er medianen, θ er modusen, og σ er standardavviket.

For hver distribusjon,

Se også

Merknader

Referanser