Hodges – Lehmann estimator - Hodges–Lehmann estimator

I statistikken er Hodges – Lehmann-estimatoren en robust og ikke-parametrisk estimator av befolkningens plasseringsparameter . For populasjoner som er symmetriske om en median , for eksempel (Gaussisk) normalfordeling eller Student t- fordeling, er estimatoren Hodges – Lehmann et konsistent og median-objektiv estimat av populasjonsmedianen. For ikke-symmetriske populasjoner estimerer estimatoren Hodges – Lehmann " pseudo-medianen ", som er nært knyttet til populasjonsmedianen.

Hodges – Lehmann-estimatoren ble opprinnelig foreslått for å estimere plasseringsparameteren til endimensjonale populasjoner, men den har blitt brukt til mange flere formål. Det har blitt brukt til å estimere forskjellene mellom medlemmene i to populasjoner. Det har blitt generalisert fra univariate populasjoner til multivariate populasjoner , som produserer prøver av vektorer .

Den er basert på Wilcoxon signert-rang statistikk . I statistisk teori var det et tidlig eksempel på en rangbasert estimator , en viktig klasse av estimatorer både i ikke-parametrisk statistikk og i robust statistikk. Hodges – Lehmann-estimatoren ble foreslått i 1963 uavhengig av Pranab Kumar Sen og av Joseph Hodges og Erich Lehmann , og så kalles den også " Hodges – Lehmann – Sen estimator ".

Definisjon

I det enkleste tilfellet estimerer statistikken "Hodges – Lehmann" plasseringsparameteren for en univariat populasjon. Dens beregning kan beskrives raskt. For et datasett med n målinger har settet med alle mulige toelementundersett av det n ( n  - 1) / 2 elementer. For hvert slikt delmengde beregnes gjennomsnittet; endelig er medianen av disse n ( n  - 1) / 2 gjennomsnittene definert til å være Hodges – Lehmann estimatoren for beliggenhet.

Statistikken Hodges – Lehmann estimerer også forskjellen mellom to populasjoner. For to datasett med m- og n- observasjoner er settet med to-elementssett laget av dem deres kartesiske produkt, som inneholder m  ×  n parpunkter (ett fra hvert sett); hvert slikt par definerer en forskjell i verdier. Hodges – Lehmann-statistikken er medianen for m  ×  n- forskjellene.

Estimering av befolkningsmedianen til en symmetrisk populasjon

For en populasjon som er symmetrisk estimerer Hodges – Lehmann-statistikken befolkningens median. Det er en robust statistikk som har et nedbrytingspunkt på 0,29, noe som betyr at statistikken forblir avgrenset selv om nesten 30 prosent av dataene har blitt forurenset. Denne robustheten er en viktig fordel i forhold til prøvenes gjennomsnitt, som har et null nedbrytingspunkt, og er proporsjonal med en hvilken som helst observasjon, og kan derfor bli villedet av enda en outlier . Den prøven median er enda mer robust, har et sammenbrudd punkt på 0,50. Hodges – Lehmann-estimatoren er mye bedre enn gjennomsnittet av prøven når man estimerer blandinger av normalfordelinger.

For symmetriske fordelinger har statistikken Hodges – Lehmann større effektivitet enn medianen på prøven. For normalfordelingen er Hodges-Lehmann-statistikken nesten like effektiv som prøvenes gjennomsnitt. For Cauchy-fordelingen (Student t-distribusjon med en grad av frihet) er Hodges-Lehmann uendelig mer effektiv enn gjennomsnittet av prøven, som ikke er en konsekvent estimator av medianen.

For ikke-symmetriske populasjoner estimerer Hodges-Lehmann-statistikken befolkningens "pseudo-median", en plasseringsparameter som er nært knyttet til medianen . Forskjellen mellom median og pseudo-median er relativt liten, og derfor skilles dette skillet i elementære diskusjoner. I likhet med den romlige medianen er pseudo-medianen godt definert for alle fordelinger av tilfeldige variabler som har dimensjon to eller større; for endimensjonale distribusjoner eksisterer det noe pseudo-median, som imidlertid ikke trenger å være unikt. I likhet med medianen er pseudo-medianen definert for til og med tung-tailed distribusjoner som mangler noe (endelig) middel .

En-prøven Hodges-Lehmann-statistikken trenger ikke å estimere noe populasjonsmiddel, som for mange distribusjoner ikke eksisterer. To-prøven Hodges – Lehmann estimator trenger ikke å estimere forskjellen på to midler eller forskjellen på to (pseudo-) medianer; det estimerer heller forskjellene mellom populasjonen til de sammenkoblede tilfeldige variablene som er trukket fra populasjonene.

Generell statistikk

Hodges – Lehmann univariate statistikk har flere generaliseringer i multivariat statistikk :

  • Multivariate rekker og tegn
  • Romtegnstester og romlige medianer
  • Romlige tester med signert rang
  • Sammenligning av tester og estimater
  • Flere eksempler på lokaliseringsproblemer

Se også

Merknader

Referanser