Median - Median

Finne medianen i datasett med et oddetall og partall

I statistikk og sannsynlighetsteori er medianen verdien som skiller den høyere halvdelen fra den nedre halvdelen av et dataprøve , en populasjon eller en sannsynlighetsfordeling . For et datasett kan det tenkes som "den midterste" verdien. Medianens grunnleggende trekk ved beskrivelse av data sammenlignet med gjennomsnittet (ofte ganske enkelt beskrevet som "gjennomsnittet") er at det ikke er skjevt av en liten andel ekstremt store eller små verdier, og gir derfor en bedre representasjon av en "typisk" "verdi. Medianinntekt , for eksempel, kan være en bedre måte å foreslå hva en "typisk" inntekt er, fordi inntektsfordelingen kan være veldig skjev. Medianen er av sentral betydning i robust statistikk , ettersom den er den mest motstandsdyktige statistikken , med et nedbrytningspunkt på 50%: så lenge ikke mer enn halvparten av dataene er forurenset, er medianen ikke et vilkårlig stort eller lite resultat.

Endelig datasett med tall

Medianen for en endelig liste over tall er det "midtre" tallet, når disse tallene er oppført i rekkefølge fra minste til største.

Hvis datasettet har et oddetall av observasjoner, velges det midterste. For eksempel følgende liste med syv tall,

1, 3, 3, 6 , 7, 8, 9

har medianen 6 , som er den fjerde verdien.

Generelt, for et sett med elementer, kan dette skrives som:

Et sett med et like antall observasjoner har ingen distinkt mellomverdi, og medianen er vanligvis definert som det aritmetiske gjennomsnittet av de to mellomverdiene. For eksempel datasettet

1, 2, 3, 4, 5 , 6, 8, 9

har en medianverdi på 4,5 , det vil si . (I mer tekniske termer tolker dette medianen som det fullt trimmede mellomområdet ). Med denne konvensjonen kan medianen defineres som følger (for jevnt antall observasjoner):

Sammenligning av vanlige gjennomsnitt av verdier [1, 2, 2, 3, 4, 7, 9]
Type Beskrivelse Eksempel Resultat
Aritmetisk gjennomsnitt Summen av verdier for et datasett delt på antall verdier: (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Median Middels verdi som skiller de større og mindre halvdelene av et datasett 1, 2, 2, 3 , 4, 7, 9 3
Modus Hyppigste verdi i et datasett 1, 2 , 2 , 3, 4, 7, 9 2

Formell definisjon

Formelt sett er en median av en befolkning en hvilken som helst verdi slik at høyst halvparten av befolkningen er mindre enn den foreslåtte medianen og høyst halvparten er større enn den foreslåtte medianen. Som sett ovenfor er medianer kanskje ikke unike. Hvis hvert sett inneholder mindre enn halvparten av befolkningen, er noen av befolkningen nøyaktig lik den unike medianen.

Medianen er godt definert for alle ordnede (endimensjonale) data, og er uavhengig av avstandsmåling . Medianen kan dermed brukes på klasser som er rangert, men ikke numeriske (f.eks. Å regne ut en mediankarakter når elevene får karakter fra A til F), selv om resultatet kan være halvveis mellom klassene hvis det er et jevnt antall tilfeller.

En geometrisk median er derimot definert i et hvilket som helst antall dimensjoner. Et beslektet konsept, der utfallet er tvunget til å svare til et medlem av prøven, er medoid .

Det er ingen allment akseptert standard notasjon for medianen, men noen forfattere representerer medianen av en variabel x enten som x eller som μ 1/2 ganger også M . I noen av disse tilfellene må bruken av disse eller andre symboler for medianen eksplisitt defineres når de blir introdusert.

Medianen er et spesielt tilfelle av andre måter å oppsummere de typiske verdiene knyttet til en statistisk fordeling : det er 2. kvartil , 5. desil og 50. persentil .

Bruker

Median kan brukes som et mål på sted når en fester redusert vekt på ekstremverdier, vanligvis fordi en fordeling er skjev , ekstremverdier er ikke kjent, eller utliggere er upålitelige, dvs. kan være måling / transkripsjon feil.

Vurder for eksempel multisettet

1, 2, 2, 2, 3, 14.

Medianen er 2 i dette tilfellet, (som er modusen ), og det kan sees på som en bedre indikasjon på senteret enn det aritmetiske gjennomsnittet på 4, som er større enn alt-men-én av verdiene. Imidlertid er det mye siterte empiriske forholdet om at gjennomsnittet er forskjøvet "lenger inn i halen" av en fordeling enn medianen generelt ikke sant. På det meste kan man si at de to statistikkene ikke kan være "for langt" fra hverandre; se § Ulikhet knyttet til midler og medianer nedenfor.

Siden en median er basert på de midterste dataene i et sett, er det ikke nødvendig å vite verdien av ekstreme resultater for å beregne det. For eksempel, i en psykologitest som undersøkte tiden som trengs for å løse et problem, hvis et lite antall mennesker ikke klarte å løse problemet i det hele tatt på den gitte tiden, kan en median fortsatt beregnes.

Fordi medianen er enkel å forstå og lett å beregne, men også en robust tilnærming til gjennomsnittet , er medianen en populær oppsummeringsstatistikk i beskrivende statistikk . I denne sammenhengen er det flere valg for et mål på variabilitet : intervallet , interkvartilområdet , gjennomsnittlig absolutt avvik og median absolutt avvik .

For praktiske formål blir ofte forskjellige målinger av plassering og spredning sammenlignet på grunnlag av hvor godt de tilsvarende befolkningsverdiene kan estimeres ut fra et utvalg av data. Medianen, beregnet ved hjelp av prøvens median, har gode egenskaper i denne forbindelse. Selv om det vanligvis ikke er optimalt hvis en gitt befolkningsfordeling antas, er egenskapene alltid rimelig gode. For eksempel viser en sammenligning av effektiviteten til kandidatestimatorer at gjennomsnittet av prøven er mer statistisk effektivt når-og bare når- data er uforurenset av data fra kraftige fordelinger eller blandinger av fordelinger. Selv da har medianen en 64% effektivitet sammenlignet med gjennomsnittsvariansen (for store normale prøver), det vil si at medianens varians vil være ~ 50% større enn variansen av gjennomsnittet.

Sannsynlighetsfordelinger

Geometrisk visualisering av modus, median og gjennomsnitt for en vilkårlig sannsynlighetstetthetsfunksjon

For enhver reell verdsatt sannsynlighetsfordeling med kumulativ fordelingsfunksjon  F , er en median definert som et reelt tall  m som tilfredsstiller ulikhetene

.

En ekvivalent formulering bruker en tilfeldig variabel X fordelt i henhold til F :

Vær oppmerksom på at denne definisjonen ikke krever at X har en absolutt kontinuerlig fordeling (som har en sannsynlighetstetthetsfunksjon ƒ ), og den krever heller ikke en diskret . I det tidligere tilfellet kan ulikhetene oppgraderes til likhet: en median tilfredsstiller

.

Enhver sannsynlighetsfordelingR har minst en median, men i patologiske tilfeller kan det være mer enn en median: hvis F er konstant 1/2 på et intervall (slik at ƒ = 0 der), så er verdien av det intervallet en median.

Medianer for bestemte fordelinger

Medianene for visse typer fordelinger kan enkelt beregnes ut fra parameterne; Videre eksisterer de selv for noen distribusjoner som mangler et veldefinert middel, for eksempel Cauchy-fordelingen :

  • Medianen for en symmetrisk unimodal fordeling faller sammen med modusen.
  • Medianen for en symmetrisk fordeling som har en gjennomsnittlig μ , tar også verdien μ .
    • Medianen for en normalfordeling med gjennomsnittlig μ og varians σ 2 er μ. Faktisk, for en normalfordeling, gjennomsnitt = median = modus.
    • Medianen for en jevn fordeling i intervallet [ ab ] er ( a  +  b ) / 2, som også er gjennomsnittet.
  • Medianen for en Cauchy -fordeling med posisjonsparameter x 0 og skala parameter y er  x 0 , posisjonsparameteren.
  • Medianen for en kraftlovsfordeling x - a , med eksponent a  > 1 er 2 1/( a  - 1) x min , hvor x min er minimumsverdien som kraftloven holder
  • Medianen for en eksponensiell fordeling med hastighetsparameter λ er den naturlige logaritmen til 2 dividert med hastighetsparameteren: λ −1 ln 2.
  • Medianen for en Weibull -fordeling med formparameter k og skala parameter λ er  λ (ln 2) 1/ k .

Befolkning

Optimalitetseiendom

Den gjennomsnittlige absolutte feilen til en reell variabel c med hensyn til den tilfeldige variabelen  X er

Forutsatt at sannsynlighetsfordelingen for X er slik at den ovennevnte forventning eksisterer, så m er en median på X hvis og bare hvis m er et minimizer av den midlere absolutte feilen med hensyn til X . Spesielt er m en prøve median hvis og bare hvis m minimerer det aritmetiske gjennomsnittet av de absolutte avvikene.

Mer generelt er en median definert som et minimum av

som diskutert nedenfor i avsnittet om multivariate medianer (spesifikt den romlige medianen ).

Denne optimaliseringsbaserte definisjonen av medianen er nyttig i statistisk dataanalyse, for eksempel i k- medianer-klynger .

Ulikhet knyttet til midler og medianer

Sammenligning av gjennomsnitt , median og modus for to log-normalfordelinger med forskjellig skjevhet

Hvis fordelingen har begrenset varians, er avstanden mellom medianen og gjennomsnittet begrenset av ett standardavvik .

Denne grensen ble bevist av Mallows, som brukte Jensens ulikhet to ganger, som følger. Bruke | · | for den absolutte verdien har vi

Den første og tredje ulikheten kommer fra Jensens ulikhet som brukes på absoluttverdifunksjonen og kvadratfunksjonen, som hver er konveks. Den andre ulikheten kommer fra det faktum at en median minimerer absolutte avvik funksjon .

Mallows bevis kan generaliseres for å få en multivariat versjon av ulikheten ved å erstatte den absolutte verdien med en norm :

hvor m er en romlig median , det vil si en minimizer av funksjonen Den romlige medianen er unik når datasettets dimensjon er to eller flere.

Et alternativt bevis bruker den ensidige Chebyshev-ulikheten; det vises i en ulikhet på plassering og skala parametere . Denne formelen følger også direkte fra Cantellis ulikhet .

Unimodale distribusjoner

For unimodale fordelinger kan man oppnå en skarpere grense for avstanden mellom medianen og gjennomsnittet:

.

Et lignende forhold gjelder mellom medianen og modusen:

Jensens ulikhet for medianere

Jensens ulikhet sier at for enhver tilfeldig variabel X med en begrenset forventning E [ X ] og for enhver konveks funksjon f

Denne ulikheten generaliserer også til medianen. Vi sier at en funksjon f: ℝ → ℝ er en C -funksjon hvis for noen t ,

er et lukket intervall (tillater degenererte tilfeller av et enkelt punkt eller et tomt sett ). Hver C -funksjon er konveks, men det motsatte holder ikke. Hvis f er en C -funksjon, så

Hvis medianene ikke er unike, gjelder utsagnet for det tilsvarende suprema.

Medianer for prøver

Utvalget median

Effektiv beregning av prøvens median

Selv om sammenligningssortering n elementer krever Ω ( n log n ) operasjoner, kan seleksjonsalgoritmer beregne de k th-minste av n elementene med bare Θ ( n ) operasjoner. Dette inkluderer medianen, som er n/2ordensstatistikk (eller for et jevnt antall prøver, det aritmetiske gjennomsnittet av de to mellomordensstatistikkene).

Utvelgelsesalgoritmer har fortsatt ulempen ved å kreve Ω ( n ) minne, det vil si at de må ha hele prøven (eller en lineær størrelse av den) i minnet. Fordi dette, så vel som det lineære tidskravet, kan være uoverkommelig, har flere estimeringsprosedyrer for medianen blitt utviklet. En enkel er medianen til tre-regelen, som anslår medianen som medianen for en tre-elementers delprøve; Dette brukes ofte som en delrutine i kvicksort -sorteringsalgoritmen, som bruker et estimat av inputens median. En mer robust estimator er Tukey 's ninther , som er medianen til tre regler som brukes med begrenset rekursjon: hvis A er prøven som er lagt ut som en matrise , og

med3 ( A ) = median ( A [1], A [n/2], A [ n ]) ,

deretter

ninther ( A ) = med3 (med3 ( A [1 ...1/3n ]), med3 ( A [1/3n ...2/3n ]), med3 ( A [2/3n ... n ]))

Den remedian er en estimator for median som krever lineær tids men sub-lineære hukommelse, som opererer ved en enkel passering over prøven.

Prøvetaking fordeling

Fordelingene av både prøvens gjennomsnitt og prøvens median ble bestemt av Laplace . Fordelingen av prøvens median fra en populasjon med tetthetsfunksjon er asymptotisk normal med gjennomsnitt og varians

hvor er medianen av og er prøvestørrelsen. Et moderne bevis følger nedenfor. Laplaces resultat blir nå forstått som et spesielt tilfelle av den asymptotiske fordelingen av vilkårlige kvantiler .

For normale prøver er tettheten , og dermed for store prøver variansen av medianen lik (Se også avsnitt #Effektivitet nedenfor.)

Avledning av den asymptotiske fordelingen

Vi tar prøvestørrelsen som et oddetall og antar variabelen vår kontinuerlig; formelen for tilfellet med diskrete variabler er gitt nedenfor i § Empirisk lokal tetthet . Utvalget kan oppsummeres som "under median", "ved median" og "over median", som tilsvarer en trinomial fordeling med sannsynligheter , og . For en kontinuerlig variabel er sannsynligheten for at flere prøveverdier er nøyaktig lik medianen 0, så man kan beregne tettheten til på punktet direkte fra trinomialfordelingen:

.

Nå introduserer vi betafunksjonen. For heltallargumenter og kan dette uttrykkes som . Husk det også . Ved å bruke disse relasjonene og sette begge og lik, kan det siste uttrykket skrives som

Derfor er tetthetsfunksjonen til medianen en symmetrisk beta -fordeling presset frem av . Gjennomsnittet, som vi forventer, er 0,5 og variansen er . Etter kjederegelen er den tilsvarende variansen til prøvens median

.

De 2 ekstra er ubetydelige i grensen .

Empirisk lokal tetthet

I praksis er funksjonene og ofte ikke kjent eller antatt. Imidlertid kan de anslås ut fra en observert frekvensfordeling. I denne delen gir vi et eksempel. Tenk på følgende tabell, som representerer et utvalg av 3800 (diskrete verdier) observasjoner:

v 0 0,5 1 1.5 2 2.5 3 3.5 4 4.5 5
f (v) 0,000 0,008 0,010 0,013 0,083 0,108 0,328 0,220 0,202 0,023 0,005
F (v) 0,000 0,008 0,018 0,031 0,114 0,222 0,550 0,770 0,972 0,995 1.000

Fordi observasjonene er diskrete verdier, er det ikke en umiddelbar oversettelse av uttrykket ovenfor for å konstruere den nøyaktige fordelingen av medianen ; man kan (og vanligvis gjør) ha flere forekomster av medianen i ens prøve. Så vi må oppsummere alle disse mulighetene:

Her er jeg antall poeng som er strengt mindre enn medianen og k tallet som er strengt større.

Ved å bruke disse forberedelsene er det mulig å undersøke effekten av prøvestørrelse på standardfeilene i gjennomsnittet og medianen. Det observerte gjennomsnittet er 3,16, den observerte rå medianen er 3 og den observerte interpolerte medianen er 3,144. Tabellen nedenfor gir noen sammenligningsstatistikker.

Prøvestørrelse
Statistikk
3 9 15 21
Forventet verdi av median 3.198 3.191 3.174 3.161
Standard medianfeil (formel ovenfor) 0,482 0,305 0,257 0,239
Standard medianfeil (asymptotisk tilnærming) 0,879 0,508 0,393 0,332
Standard feil med gjennomsnitt 0,421 0,243 0,188 0,159

Den forventede verdien av medianen faller noe når prøvestørrelsen øker, mens, som forventet, er standardfeilene til både medianen og gjennomsnittet proporsjonal med den inverse kvadratroten til prøvestørrelsen. Den asymptotiske tilnærmingen tar feil på siden av forsiktighet ved å overvurdere standardfeilen.

Estimering av varians fra prøvedata

Verdien av - den asymptotiske verdien av hvor er befolkningsmedianen - har blitt studert av flere forfattere. Standard "delete one" jackknife -metode gir inkonsekvente resultater. Et alternativ - "slett k" -metoden - der det vokser med prøvestørrelsen, har vist seg å være asymptotisk konsistent. Denne metoden kan være beregningsmessig dyr for store datasett. Et bootstrap -estimat er kjent for å være konsistent, men konvergerer veldig sakte ( rekkefølge på ). Andre metoder har blitt foreslått, men deres oppførsel kan variere mellom store og små prøver.

Effektivitet

Den effektivitet av prøven median, målt som forholdet mellom variansen av middelverdien til variansen av median, avhengig av prøvestørrelsen og på den underliggende populasjonen fordeling. For et utvalg av størrelser fra normalfordelingen er effektiviteten for store N

Effektiviteten har en tendens til som har en tendens til uendelig.

Med andre ord vil den relative variansen til medianen være , eller 57% større enn gjennomsnittets varians - den relative standardfeilen til medianen vil være , eller 25% større enn standardfeilen i gjennomsnittet , (se også avsnitt #Samplingsfordeling ovenfor.).

Andre estimatorer

For univariate fordelinger som er symmetriske om en median, er Hodges - Lehmann -estimatoren en robust og svært effektiv estimator av populasjonsmedianen.

Hvis data er representert ved en statistisk modell som spesifiserer en bestemt familie av sannsynlighetsfordelinger , kan estimater av medianen oppnås ved å tilpasse denne familien av sannsynlighetsfordelinger til dataene og beregne den teoretiske medianen for den tilpassede fordelingen. Pareto -interpolasjon er en anvendelse av dette når befolkningen antas å ha en Pareto -fordeling .

Multivariat median

Tidligere diskuterte denne artikkelen den univariate medianen, da utvalget eller populasjonen hadde en dimensjon. Når dimensjonen er to eller høyere, er det flere begreper som utvider definisjonen av den univariate medianen; hver slik multivariat median er enig med den univariate medianen når dimensjonen er nøyaktig en.

Marginal median

Den marginale medianen er definert for vektorer definert i forhold til et fast sett med koordinater. En marginal median er definert som vektoren hvis komponenter er univariate medianer. Den marginale medianen er lett å beregne, og egenskapene ble studert av Puri og Sen.

Geometrisk median

Den geometriske medianen til et diskret sett med prøvepunkter i et euklidisk rom er punktet som minimerer summen av avstander til prøvepunktene.

I motsetning til den marginale medianen, er den geometriske medianen ekvariant med hensyn til euklidiske likhetstransformasjoner som oversettelser og rotasjoner .

Median i alle retninger

Hvis marginalmedianene for alle koordinatsystemer sammenfaller, kan deres felles plassering kalles "medianen i alle retninger". Dette konseptet er relevant for avstemningsteorien på grunn av medianstemmerens setning . Når den eksisterer, sammenfaller medianen i alle retninger med den geometriske medianen (i hvert fall for diskrete fordelinger).

Midtpunkt

En alternativ generalisering av medianen i høyere dimensjoner er midtpunktet .

Andre medianrelaterte konsepter

Interpolert median

Når det gjelder en diskret variabel, er det noen ganger nyttig å betrakte de observerte verdiene som midtpunkter for underliggende kontinuerlige intervaller. Et eksempel på dette er en Likert -skala, der meninger eller preferanser uttrykkes på en skala med et angitt antall mulige svar. Hvis skalaen består av de positive heltallene, kan en observasjon på 3 betraktes som å representere intervallet fra 2,50 til 3,50. Det er mulig å estimere medianen til den underliggende variabelen. Hvis for eksempel 22% av observasjonene er av verdi 2 eller lavere og 55,0% er av 3 eller under (så 33% har verdien 3), så er medianen 3 siden medianen er den minste verdien for hvilken er større enn en halv. Men den interpolerte medianen er et sted mellom 2,50 og 3,50. Først legger vi til halvparten av intervallbredden til medianen for å få den øvre grensen for medianintervallet. Deretter trekker vi den andelen av intervallbredden som tilsvarer andelen av 33% som ligger over 50% -merket. Med andre ord deler vi opp intervallbredden pro rata til antall observasjoner. I dette tilfellet er 33% delt inn i 28% under medianen og 5% over det, så vi trekker 5/33 av intervallbredden fra den øvre grensen på 3,50 for å gi en interpolert median på 3,35. Mer formelt, hvis verdiene er kjent, kan den interpolerte medianen beregnes ut fra

Alternativt, hvis det i en observert prøve er score over mediankategorien, score i den og score under den, blir interpolert median gitt av

Pseudomedian

For univariate fordelinger som er symmetriske om en median, er Hodges - Lehmann -estimatoren en robust og svært effektiv estimator av populasjonsmedianen; for ikke-symmetriske fordelinger, er det Hodges-Lehmann estimatoren en robust og svært effektiv estimator av populasjonen pseudo-median , som er medianen av en symmetrized fordeling og som er i nærheten av befolkningen medianen. Hodges - Lehmann -estimatoren har blitt generalisert til multivariate distribusjoner.

Varianter av regresjon

Den Theil-Sen estimatoren er en metode for robust lineær regresjon basert på å finne medianer av bakker .

Median filter

I forbindelse med bildebehandling av monokrome rasterbilder er det en type støy, kjent som salt- og pepperstøyen , når hver piksel uavhengig blir svart (med en liten sannsynlighet) eller hvit (med en liten sannsynlighet), og er uendret ellers (med sannsynligheten nær 1). Et bilde konstruert av medianverdier i nabolag (som 3 × 3 kvadrat) kan effektivt redusere støy i dette tilfellet.

Klyngeanalyse

I klyngeanalyse gir k-medians-klyngealgoritmen en måte å definere klynger på, der kriteriet for å maksimere avstanden mellom klynge-midler som brukes i k-betyr klynger , erstattes av å maksimere avstanden mellom klyngemedianer.

Median -median linje

Dette er en metode for robust regresjon. Ideen stammer fra Wald i 1940 som foreslo å dele et sett med bivariate data i to halvdeler avhengig av verdien til den uavhengige parameteren : en venstre halvdel med verdier mindre enn medianen og en høyre halvdel med verdier større enn medianen. Han foreslo å ta midlene til de avhengige og uavhengige variablene til venstre og høyre halvdel og estimere skråningen på linjen som forbinder disse to punktene. Linjen kan deretter justeres for å passe til de fleste punktene i datasettet.

Nair og Shrivastava i 1942 foreslo en lignende idé, men tok i stedet til orde for å dele prøven i tre like deler før de beregnet midlene til delprøvene. Brown and Mood i 1951 foreslo ideen om å bruke medianene til to delprøver i stedet for midlene. Tukey kombinerte disse ideene og anbefalte å dele prøven i tre like store delprøver og estimere linjen basert på medianene til delprøvene.

Median-upartiske estimatorer

Enhver gjennomsnittlig -upartisk estimator minimerer risikoen ( forventet tap ) med hensyn til funksjonen for tap av kvadratfeil , som observert av Gauss . En median -upartisk estimator minimerer risikoen med hensyn til absolutt avvikstapfunksjon , som observert av Laplace . Andre tapfunksjoner brukes i statistisk teori , spesielt i robust statistikk .

Teorien om median-upartiske estimatorer ble gjenopplivet av George W. Brown i 1947:

Et estimat av en endimensjonal parameter θ sies å være median-upartisk hvis, for fast θ, medianen for fordelingen av estimatet er på verdien θ; dvs. estimatet undervurderer like ofte som det overvurderer. Dette kravet synes for de fleste formål å oppnå like mye som det gjennomsnittlige, upartiske kravet og har den ekstra egenskapen at det er invariant under en-til-en-transformasjon.

-  side 584

Ytterligere egenskaper til median-upartiske estimatorer har blitt rapportert. Median-upartiske estimatorer er uforanderlige under en-til-en-transformasjoner .

Det er metoder for å konstruere median-upartiske estimatorer som er optimale (på en måte analog med egenskapen minimum-varians for gjennomsnitt-upartiske estimatorer). Slike konstruksjoner eksisterer for sannsynlighetsfordelinger med monotone sannsynlighetsfunksjoner . En slik prosedyre er en analog av Rao-Blackwell-prosedyren for gjennomsnittlige upartiske estimatorer: Prosedyren gjelder for en mindre klasse sannsynlighetsfordelinger enn Rao-Blackwell-prosedyren, men for en større klasse med tapfunksjoner .

Historie

Vitenskapelige forskere i det gamle nærøsten ser ut til ikke å ha brukt sammendragsstatistikk helt, i stedet for å velge verdier som ga maksimal konsistens med en bredere teori som integrerte et bredt spekter av fenomener. Innen Middelhavet (og senere, europeisk) vitenskapelig samfunn er statistikk som gjennomsnittet grunnleggende en middelaldersk og tidlig moderne utvikling. (Historien til medianen utenfor Europa og forgjengerne er fortsatt relativt ustudert.)

Ideen om medianen dukket opp på 1200 -tallet i Talmud , for å kunne analysere divergerende vurderinger på en rimelig måte . Konseptet spredte seg imidlertid ikke til det bredere vitenskapelige samfunnet.

I stedet er den nærmeste medfaren til den moderne medianen mellomklassen , oppfunnet av Al-Biruni . Overføring av Al-Birunis arbeid til senere forskere er uklart. Al-Biruni brukte teknikken sin for å analysere metaller, men etter at han publiserte arbeidet sitt, tok de fleste analyserne fremdeles den mest ugunstige verdien ut av resultatene sine, for ikke å se ut til å jukse . Økt navigasjon til sjøs under oppdagelsestiden betydde imidlertid at skipets navigatører i økende grad måtte prøve å bestemme breddegraden i ugunstig vær mot fiendtlige kyster, noe som førte til fornyet interesse for oppsummerende statistikk. Enten det er gjenoppdaget eller uavhengig oppfunnet, anbefales mellomklassen til nautiske navigatører i Harriot's "Instructions for Raleigh's Voyage to Guiana, 1595".

Ideen om medianen kan ha dukket opp først i Edward Wrights bok fra 1599 Certaine Errors in Navigation på en seksjon om kompassnavigasjon . Wright var motvillig til å forkaste måleverdier, og kan ha følt at medianen-som inneholder en større andel av datasettet enn mellomområdet- mer sannsynlig var riktig. Imidlertid ga Wright ikke eksempler på teknikkens bruk, noe som gjorde det vanskelig å bekrefte at han beskrev den moderne forestillingen om median. Medianen (i sammenheng med sannsynlighet) dukket absolutt opp i korrespondansen til Christiaan Huygens , men som et eksempel på en statistikk som var upassende for aktuarmessig praksis .

Den tidligste anbefalingen av medianen stammer fra 1757, da Roger Joseph Boscovich utviklet en regresjonsmetode basert på L 1 -normen og derfor implisitt på medianen. I 1774 gjorde Laplace dette ønsket eksplisitt: han foreslo at medianen ble brukt som standardestimator for verdien av en bakre PDF . Det spesifikke kriteriet var å minimere den forventede størrelsen på feilen; hvor er estimatet og er den sanne verdien. For dette formål bestemte Laplace fordelingen av både prøvens gjennomsnitt og prøvens median på begynnelsen av 1800 -tallet. Et tiår senere utviklet imidlertid Gauss og Legendre metoden for minst kvadrater , noe som minimerer for å oppnå gjennomsnittet. Innenfor regresjonssammenheng tilbyr Gauss og Legendres innovasjon langt lettere beregning. Følgelig ble Laplaces forslag generelt avvist til fremveksten av dataenheter 150 år senere (og er fremdeles en relativt uvanlig algoritme).

Antoine Augustin Cournot i 1843 var den første som brukte begrepet median ( valeur médiane ) for verdien som deler en sannsynlighetsfordeling i to like halvdeler. Gustav Theodor Fechner brukte medianen ( Centralwerth ) i sosiologiske og psykologiske fenomener. Den hadde tidligere bare blitt brukt i astronomi og relaterte felt. Gustav Fechner populariserte medianen til den formelle analysen av data, selv om den tidligere hadde blitt brukt av Laplace, og medianen dukket opp i en lærebok av FY Edgeworth . Francis Galton brukte det engelske uttrykket median i 1881, etter å ha brukt begrepene midt-mest verdi i 1869, og mediet i 1880.

Statistikere oppmuntret til bruk av medianere intenst gjennom 1800 -tallet for sin intuitive klarhet og enkle manuelle beregning. Imidlertid er begrepet median ikke egnet til teorien om høyere øyeblikk så vel som det aritmetiske gjennomsnittet gjør, og er mye vanskeligere å beregne med datamaskin. Som et resultat ble medianen stadig erstattet som en forestilling om generisk gjennomsnitt av det aritmetiske gjennomsnittet i løpet av 1900 -tallet.

Se også

Merknader

Referanser

Eksterne linker

Denne artikkelen inneholder materiale fra Median fra en distribusjon på PlanetMath , som er lisensiert under Creative Commons Attribution/Share-Alike-lisensen .