Median absolutt avvik - Median absolute deviation

I statistikk er median absolutt avvik ( MAD ) et robust mål på variabiliteten til et univariat utvalg av kvantitative data . Det kan også referere til populasjonen parameter som er beregnet ved den MAD beregnet fra en prøve.

For et univariat datasett X 1X 2 , ...,  X n , er MAD definert som medianen for de absolutte avvikene fra datas median :

det vil si at startende med restene (avvik) fra datas median, er MAD medianen til deres absolutte verdier .

Eksempel

Tenk på dataene (1, 1, 2, 2 , 4, 6, 9). Den har en medianverdi på 2. De absolutte avvikene rundt 2 er (1, 1, 0, 0, 2, 4, 7) som igjen har en medianverdi på 1 (fordi de sorterte absolutte avvikene er (0, 0, 1, 1 , 2, 4, 7)). Så median absolutt avvik for disse dataene er 1.

Bruker

Median absolutt avvik er et mål på statistisk spredning . Videre er MAD en robust statistikk som er mer motstandsdyktig mot avvikere i et datasett enn standardavviket . I standardavviket er avstandene fra gjennomsnittet kvadrat, så store avvik vektes tyngre, og dermed kan avvikere sterkt påvirke det. I MAD er avvikene til et lite antall outliers irrelevante.

Fordi MAD er en mer robust skalaestimator enn prøvevariansen eller standardavviket , fungerer den bedre med distribusjoner uten gjennomsnitt eller varians, for eksempel Cauchy-fordelingen .

Forhold til standardavvik

MAD kan brukes på samme måte som hvordan man bruker avviket for gjennomsnittet. For å bruke MAD som en konsekvent estimator for estimering av standardavvik , tar man

hvor er en konstant skaleringsfaktor , som avhenger av fordelingen.

For normalt distribuerte data blir tatt for å være

dvs. gjensidigheten av kvantilfunksjonen (også kjent som den inverse av den kumulative fordelingsfunksjonen ) for standard normalfordeling . Argumentet 3/4 er slik at dekker 50% (mellom 1/4 og 3/4) av standard normal kumulativ fordelingsfunksjon , dvs.

Derfor må vi ha det

Legg merke til det

vi har det , hvorfra vi oppnår skaleringsfaktoren .

En annen måte å etablere forholdet på, er å merke seg at MAD er lik medianen for normalfordelingsfordeling :

Dette skjemaet brukes i for eksempel den sannsynlige feilen .

Geometrisk median absolutt avvik

På samme måte som hvordan medianen generaliserer til den geometriske medianen i multivariate data, kan en geometrisk MAD konstrueres som generaliserer MAD. Gitt et todimensjonalt paret datasett (X 1 , Y 1 ), (X 2 , Y 2 ), ..., (X n , Y n ) og en passende beregnet geometrisk median , er den geometriske medianenes absolutte avvik gitt av :

Dette gir det samme resultatet som den univariate MAD i 1 dimensjon og strekker seg lett til høyere dimensjoner. Når det gjelder komplekse verdier ( X + i Y ), er forholdet mellom MAD og standardavviket uendret for normalt distribuerte data.

Befolkningen MAD

Populasjonen MAD er definert analogt med prøven MAD, men er basert på fullstendig fordeling i stedet for på et utvalg. For en symmetrisk fordeling med null gjennomsnitt er populasjonen MAD den 75. persentilen av fordelingen.

I motsetning til variansen , som kan være uendelig eller udefinert, er populasjonen MAD alltid et endelig antall. For eksempel har standard Cauchy-distribusjon udefinert varians, men MAD er 1.

Den tidligste kjente omtale av MAD-begrepet skjedde i 1816, i et papir av Carl Friedrich Gauss om bestemmelsen av nøyaktigheten av numeriske observasjoner.

Se også

Merknader

Referanser