Konfidensintervall - Confidence interval

I statistikk er et konfidensintervall ( CI ) en type estimat beregnet ut fra de observerte dataene. Dette gir en rekke verdier for en ukjent parameter (for eksempel et populasjonsmiddel). Intervallet har et tilhørende konfidensnivå valgt av etterforskeren. For en gitt estimering i en gitt prøve, genererer bruk av et høyere konfidensnivå et bredere (dvs. mindre presist) konfidensintervall. Generelt er et konfidensintervall for en ukjent parameter basert på prøvetaking av fordelingen av en tilsvarende estimator .

Dette betyr at konfidensnivået representerer den teoretiske langsiktige frekvensen (dvs. andelen) av konfidensintervaller som inneholder den sanne verdien av den ukjente populasjonsparameteren. Med andre ord inneholder 90% av konfidensintervallene beregnet på 90% konfidensnivå parameteren, 95% av konfidensintervallene beregnet på 95% konfidensnivå inneholder parameteren, 99% av konfidensintervallene som er beregnet på konfidensnivået på 99% inneholder parameter osv.

Konfidensnivået er angitt før du undersøker dataene. Vanligvis brukes 95% konfidensnivå. Imidlertid brukes andre konfidensnivåer, for eksempel 90% eller 99%, noen ganger.

Faktorer som påvirker bredden på konfidensintervallet inkluderer størrelsen på prøven, konfidensnivået og variabiliteten i utvalget. Et større utvalg har en tendens til å gi et bedre estimat av populasjonsparameteren, når alle andre faktorer er like. Et høyere konfidensnivå vil ha en bredere konfidensintervall.

En annen måte å uttrykke formen på konfidensintervall på er et sett med to parametere: (punktestimat - feilbundet, punktestimat + feilbundet ) , eller symbolsk uttrykt som (–EBM, + EBM) , hvor (punktestimat) fungerer som en estimat for m (populasjonsgjennomsnittet) og EBM er feilgrensen for et populasjonsgjennomsnitt.

Feilmarginen (EBM) avhenger av konfidensnivået.

En streng generell definisjon:

Anta at et datasett er gitt, modellert som realisering av tilfeldige variabler . La oss være parameteren av interesse, og et tall mellom 0 og 1. Hvis det finnes eksempelstatistikk og slik at:

for hver verdi av

deretter , hvor og , kalles et konfidensintervall for . Tallet kalles konfidensnivået .

Konseptuelt grunnlag

I dette stolpediagrammet indikerer de øverste endene av de brune stolpene observerte midler, og de røde linjestykkene ("feillinjer") representerer konfidensintervallene rundt dem. Selv om feillinjene er vist symmetriske rundt middelene, er det ikke alltid tilfelle. I de fleste grafer representerer feilfeltene ikke konfidensintervaller (f.eks. Representerer de ofte standardfeil eller standardavvik )

Introduksjon

Intervallestimering kan stå i kontrast med punktestimering . Et punktestimat er en enkelt verdi gitt som estimatet av en populasjonsparameter som er av interesse, for eksempel gjennomsnittet av en viss mengde. Et intervallestimat angir i stedet et område som parameteren anslås å ligge innenfor. Konfidensintervaller rapporteres ofte i tabeller eller grafer sammen med punktestimater for de samme parameterne, for å vise påliteligheten til estimatene.

For eksempel kan et konfidensintervall brukes til å beskrive hvor pålitelige undersøkelsesresultater er. I en meningsmåling av intensjoner mellom valg og avstemning kan resultatet være at 40% av respondentene har tenkt å stemme på et bestemt parti. Et konfidensintervall på 99% for andelen i hele befolkningen som har samme intensjon i undersøkelsen, kan være 30% til 50%. Fra de samme dataene kan man beregne et 90% konfidensintervall, som i dette tilfellet kan være 37% til 43%. En viktig faktor som bestemmer lengden på et konfidensintervall er størrelsen på prøven som brukes i estimeringsprosedyren, for eksempel antall personer som deltar i en undersøkelse.


Betydning og tolkning

Ulike tolkninger av et konfidensintervall kan gis (med 90% konfidensintervall som et eksempel i det følgende).

  • Konfidensintervallet kan uttrykkes i prøver (eller gjentatte prøver ): " Skulle denne prosedyren gjentas på mange prøver, ville brøkdelen av beregnede konfidensintervaller (som vil variere for hver prøve) som omfatter den sanne populasjonsparameteren 90%. "
  • Konfidensintervallet kan uttrykkes i form av en enkelt prøve: " Det er en 90% sannsynlighet for at det beregnede konfidensintervallet fra et fremtidig eksperiment omfatter den sanne verdien av populasjonsparameteren." Dette er en sannsynlighetserklæring om konfidensintervallet, ikke populasjonsparameteren. Dette vurderer sannsynligheten knyttet til et konfidensintervall fra et synspunkt før eksperiment, i samme kontekst som argumenter for tilfeldig tildeling av behandlinger til studieelementer blir fremført. Her beskriver eksperimentatoren måten de har til hensikt å beregne et konfidensintervall og å vite, før de gjør selve eksperimentet, at intervallet de vil ende opp med å beregne har en spesiell sjanse til å dekke den sanne, men ukjente verdien. Dette ligner veldig på den "gjentatte prøven" -tolkningen ovenfor, bortsett fra at den unngår å stole på å vurdere hypotetiske gjentakelser av en prøvetakingsprosedyre som kanskje ikke kan gjentas i noen meningsfull forstand. Se Neyman konstruksjon .
  • Forklaringen på et konfidensintervall kan være omtrent som: " Konfidensintervallet representerer verdier for populasjonsparameteren som forskjellen mellom parameteren og det observerte estimatet ikke er statistisk signifikant på 10% -nivået ". Denne tolkningen er vanlig i vitenskapelige artikler som bruker konfidensintervaller for å validere eksperimentene sine, selv om overdreven tillit til konfidensintervaller også kan forårsake problemer .

I hvert av de ovennevnte gjelder følgende: Hvis den sanne verdien til parameteren ligger utenfor 90% konfidensintervallet, har det skjedd en samplingshendelse (nemlig å få et punktestimat på parameteren i det minste så langt fra den sanne parameterverdien ) som hadde en sannsynlighet på 10% (eller mindre) for å skje ved en tilfeldighet.

Misforståelser

Tillitsintervaller og nivåer blir ofte misforstått, og publiserte studier har vist at selv profesjonelle forskere ofte tolker dem feil.

  • Et konfidensnivå på 95% betyr ikke at for et gitt realisert intervall er det en 95% sannsynlighet for at populasjonsparameteren ligger innenfor intervallet (dvs. en 95% sannsynlighet for at intervallet dekker populasjonsparameteren). I følge den strenge hyppige tolkningen, når et intervall er beregnet, dekker dette intervallet enten parameterverdien eller ikke. det er ikke lenger et spørsmål om sannsynlighet. Sannsynligheten på 95% gjelder påliteligheten til estimeringsprosedyren, ikke et spesifikt beregnet intervall. Neyman selv (den opprinnelige talsmannen for konfidensintervaller) kom med dette i sitt originale papir:

    "Det vil bli lagt merke til at i beskrivelsen ovenfor refererer sannsynlighetsutsagnene til estimeringsproblemene som statistikeren vil bekymre seg for i fremtiden. Faktisk har jeg gjentatte ganger uttalt at frekvensen av riktige resultater vil ha en tendens til å α . Tenk på nå tilfellet når en prøve allerede er trukket, og beregningene har gitt [bestemte grenser]. Kan vi si at i dette spesielle tilfellet er sannsynligheten for at den sanne verdien [faller mellom disse grensene] lik α ? Svaret er åpenbart i det negative. Parameteren er en ukjent konstant, og det kan ikke gis noen sannsynlighetserklæring angående verdien ... "

Deborah Mayo utvider dette ytterligere som følger:

"Det må imidlertid understrekes at etter å ha sett verdien [av dataene], lar Neyman - Pearson -teorien aldri slutte at det spesifikke konfidensintervallet som dannes dekker den sanne verdien av 0 med enten (1 -  α ) 100% sannsynlighet eller (1 -  α ) 100% grad av tillit. Seidenfelds bemerkning synes forankret i et (ikke uvanlig) ønske om at Neyman - Pearson -konfidensintervaller skal gi noe som de ikke legitimt kan gi; nemlig et mål på graden av sannsynlighet, tro, eller støtte at en ukjent parameterverdi ligger i et bestemt intervall. Etter Savage (1962) kan sannsynligheten for at en parameter ligger i et spesifikt intervall bli referert til som et mål for endelig presisjon. Selv om et mål på endelig presisjon kan virke ønskelig, og selv om tillitsnivåer ofte (feil) tolkes som å gi et slikt mål, er ingen slik tolkning berettiget. Riktignok oppmuntres en slik feiltolkning av ordet "tillit". "

  • Et konfidensnivå på 95% betyr ikke at 95% av eksempeldataene ligger innenfor konfidensintervallet.
  • Et konfidensintervall er ikke et definitivt område av plausible verdier for prøveparameteren, selv om det kan forstås som et estimat av plausible verdier for populasjonsparameteren.
  • Et bestemt konfidensnivå på 95% beregnet fra et eksperiment betyr ikke at det er en 95% sannsynlighet for en prøveparameter fra en gjentagelse av eksperimentet som faller innenfor dette intervallet.

Historie

Tillitsintervaller ble introdusert for statistikk av Jerzy Neyman i et papir publisert i 1937. Imidlertid tok det lang tid før konfidensintervaller ble brukt nøyaktig og rutinemessig.

I den tidligste moderne kontrollerte kliniske studien av en medisinsk behandling for akutt hjerneslag , publisert av Dyken og White i 1959, var etterforskerne ikke i stand til å avvise nullhypotesen om ingen effekt av kortisol på hjerneslag. Likevel konkluderte de med at deres forsøk "tydelig indikerte ingen mulig fordel med behandling med kortison". Dyken og White beregnet ikke konfidensintervaller, som var sjeldne på den tiden innen medisin. Da Peter Sandercock revurderte dataene i 2015, fant han ut at 95% konfidensintervallet strakte seg fra en 12% reduksjon i risiko til en 140% økning i risiko. Derfor ble ikke forfatterens uttalelse støttet av deres eksperiment. Sandercock konkluderte med at, spesielt innen medisinsk vitenskap, der datasett kan være små, er konfidensintervaller bedre enn hypotesetester for å kvantifisere usikkerhet rundt størrelsen og retningen på en effekt.

Det var ikke før på 1980-tallet at tidsskrifter krevde konfidensintervaller og p-verdier for å bli rapportert i aviser. I 1992 var upresise estimater fremdeles vanlige, selv for store forsøk. Dette forhindret en klar beslutning om nullhypotesen. For eksempel kom en studie av medisinsk behandling for akutt hjerneslag til at slagbehandlingene kan redusere dødeligheten eller øke den med 10%–20%. Streng adgang til studien innførte uforutsette feil, noe som ytterligere økte usikkerheten i konklusjonen. Studier fortsatte, og det var først i 1997 at en prøve med et massivt utvalg av prøver og akseptabelt konfidensintervall var i stand til å gi et definitivt svar: kortisolbehandling reduserer ikke risikoen for akutt hjerneslag.

Filosofiske spørsmål

Prinsippet bak konfidensintervaller ble formulert for å gi et svar på spørsmålet som ble reist i statistisk slutning om hvordan man skal håndtere usikkerheten i resultatene fra data som i seg selv bare er en tilfeldig valgt delmengde av en populasjon. Det er andre svar, særlig det som Bayesian slutning gir i form av troverdige intervaller . Konfidensintervaller tilsvarer en valgt regel for å bestemme tillitsgrensene, der denne regelen i hovedsak bestemmes før data blir innhentet, eller før et eksperiment utføres. Regelen er definert slik at over alle mulige datasett som kan oppnås, er det stor sannsynlighet ("høy" er spesifikt kvantifisert) for at intervallet som er bestemt av regelen vil inkludere den sanne verdien av mengden som er vurdert. Den bayesianske tilnærmingen ser ut til å tilby intervaller som, med forbehold for aksept av en tolkning av "sannsynlighet" som bayesisk sannsynlighet , kan tolkes som at det spesifikke intervallet beregnet fra et gitt datasett har en spesiell sannsynlighet for å inkludere den sanne verdien, betinget av data og annen tilgjengelig informasjon. Konfidensintervall -tilnærmingen tillater ikke dette siden i denne formuleringen og på dette samme stadiet er både grensene for intervallet og de sanne verdiene faste verdier, og det er ingen tilfeldighet involvert. På den annen side er den bayesianske tilnærmingen bare like gyldig som den tidligere sannsynligheten som ble brukt i beregningen, mens konfidensintervallet ikke er avhengig av forutsetninger om den tidligere sannsynligheten.

Spørsmålene om hvordan et intervall som uttrykker usikkerhet i et estimat kan formuleres, og hvordan slike intervaller kan tolkes, er ikke strengt matematiske problemer og er filosofisk problematiske. Matematikk kan ta over når de grunnleggende prinsippene for en tilnærming til 'slutning' er etablert, men det har bare en begrenset rolle i å si hvorfor en tilnærming skal foretrekkes fremfor en annen: For eksempel brukes et konfidensnivå på 95% ofte i de biologiske fag , men dette er et spørsmål om konvensjon eller voldgift. I fysikk kan et mye høyere nivå brukes.

Forholdet til andre statistiske emner

Statistisk hypotesetesting

Konfidensintervaller er nært knyttet til testing av statistisk signifikans . For eksempel, hvis man for en estimert parameter θ ønsker å teste nullhypotesen at θ  = 0 mot alternativet som θ  ≠ 0, kan denne testen utføres ved å bestemme om konfidensintervallet for θ inneholder 0.

Mer generelt, gitt tilgjengeligheten av en hypotesetestprosedyre som kan teste nullhypotesen θ  =  θ 0 mot alternativet som θ  ≠  θ 0 for en hvilken som helst verdi på θ 0 , kan et konfidensintervall med konfidensnivå  γ  = 1 -  α være definert som inneholdende et hvilket som helst tall θ 0 som den tilsvarende nullhypotesen ikke blir avvist på signifikansnivå  α .

Hvis estimatene for to parametere (for eksempel gjennomsnittsverdiene til en variabel i to uavhengige grupper) har konfidensintervaller som ikke overlapper hverandre, er forskjellen mellom de to verdiene mer signifikant enn den som indikeres av de individuelle verdiene av α . Så denne "testen" er for konservativ og kan føre til et resultat som er mer signifikant enn de individuelle verdiene til α ville indikere. Hvis to konfidensintervaller overlapper hverandre, kan de to midlene fortsatt være vesentlig forskjellige. Følgelig, og i samsvar med Mantel-Haenszel Chi-kvadrat-testen , er en foreslått løsning der man reduserer feilgrensene for de to midlene ved å multiplisere dem med kvadratroten på ½ (0,707107) før sammenligningen foretas.

Selv om formuleringene av forestillingene om konfidensintervaller og statistisk hypotesetesting er forskjellige, er de på noen måter relatert og til en viss grad komplementære. Selv om ikke alle konfidensintervaller er konstruert på denne måten, er en generell tilnærming til konstruksjon av konfidensintervaller å definere et 100 (1 -  α )% konfidensintervall for å bestå av alle de verdiene θ 0 som en test av hypotesen θ  =  θ 0 blir ikke avvist på et signifikansnivå på 100α%. En slik tilnærming er kanskje ikke alltid tilgjengelig siden den forutsetter praktisk tilgjengelighet av en passende signifikansetest. Selvfølgelig vil alle forutsetninger som kreves for signifikansetesten gå over til konfidensintervallene.

Det kan være praktisk å gjøre den generelle korrespondansen om at parameterverdier innenfor et konfidensintervall er ekvivalente med de verdiene som ikke ville bli avvist med en hypotesetest, men dette ville være farlig. I mange tilfeller er konfidensintervallene som er sitert bare omtrent gyldige, kanskje avledet fra "pluss eller minus to ganger standardfeilen", og implikasjonene av dette for de antatt tilsvarende hypotesetestene er vanligvis ukjente.

Det er verdt å merke seg at konfidensintervallet for en parameter ikke er det samme som akseptområdet for en test for denne parameteren, som noen ganger tenker. Konfidensintervallet er en del av parameterrommet, mens akseptområdet er en del av prøveområdet. Av samme grunn er konfidensnivået ikke det samme som den komplementære sannsynligheten for signifikansnivået.

Tillitsregion

Tillitsregioner generaliserer konfidensintervallkonseptet for å håndtere flere mengder. Slike regioner kan ikke bare indikere omfanget av sannsynlige prøvetakingsfeil, men kan også avsløre om (for eksempel) det er slik at hvis estimatet for den ene mengden er upålitelig, så er den andre sannsynligvis også upålitelig.

Tillitssamband

Et konfidensbånd brukes i statistisk analyse for å representere usikkerheten i et estimat av en kurve eller funksjon basert på begrensede eller støyende data. På samme måte brukes et prediksjonsbånd for å representere usikkerheten om verdien av et nytt datapunkt på kurven, men utsatt for støy. Tillit og forutsigelsesbånd brukes ofte som en del av den grafiske presentasjonen av resultatene fra en regresjonsanalyse .

Tillitsbånd er nært knyttet til konfidensintervaller, som representerer usikkerheten i et estimat av en enkelt numerisk verdi. "Ettersom konfidensintervaller, ved konstruksjon, bare refererer til et enkelt punkt, er de smalere (på dette tidspunktet) enn et tillitsbånd som skal holde samtidig på mange punkter."

Grunnleggende trinn

Dette eksemplet forutsetter at prøvene er hentet fra en normalfordeling . Den grunnleggende fremgangsmåten for å beregne et konfidensintervall for et populasjonsgjennomsnitt er som følger:

  1. Identifiser utvalgsgjennomsnitt, .
  2. Identifiser om populasjonsstandardavviket er kjent , eller er ukjent, og er estimert av utvalgets standardavvik .
    • Hvis populasjonsstandardavviket er kjent , hvor er konfidensnivået og er CDF for standard normalfordeling , brukt som den kritiske verdien. Denne verdien er bare avhengig av konfidensnivået for testen. Typiske tosidige konfidensnivåer er:
      C z*
      99% 2.576
      98% 2.326
      95% 1,96
      90% 1.645
    • Hvis populasjonsstandardavviket er ukjent, brukes studentens t -fordeling som den kritiske verdien. Denne verdien er avhengig av konfidensnivået (C) for testen og frihetsgrader. Frihetsgradene blir funnet ved å trekke en fra antall observasjoner, n  -1. Den kritiske verdien er funnet fra t-fordelingstabellen. I denne tabellen er den kritiske verdien skrevet som , hvor er frihetsgrader og .
  3. Erstatt de funnet verdiene i passende ligninger:
    • For et kjent standardavvik:
    • For et ukjent standardavvik:
Normal fordeling: grafisk fremstilling av sammenbrudd av konfidensintervall og forholdet mellom konfidensintervallene til z- og t-score.

Betydningen av t-tabeller og z-tabeller

Konfidensintervaller kan beregnes ved hjelp av to forskjellige verdier: t-verdier eller z-verdier, som vist i grunneksemplet ovenfor. Begge verdiene er tabellført i tabeller, basert på frihetsgrader og halen til en sannsynlighetsfordeling. Oftere brukes z-verdier. Dette er de kritiske verdiene for normalfordelingen med sannsynlighet for høyre hale. Imidlertid brukes t-verdier når prøvestørrelsen er under 30 og standardavviket er ukjent.

Når variansen er ukjent, må vi bruke en annen estimator: . Dette tillater dannelse av en fordeling som bare er avhengig av og hvis tetthet eksplisitt kan uttrykkes.

Definisjon: En kontinuerlig tilfeldig variabel har en t-fordeling med parameter m, hvor er et heltall, hvis sannsynlighetstettheten er gitt av for , hvor . Denne fordelingen er betegnet med og blir referert til som t-fordelingen med m frihetsgrader.

Eksempel

Bruker t -fordelingstabell

  1. Finn frihetsgrader (df) fra prøvestørrelse:
    Hvis prøvestørrelse = 10, df = 9.
  2. Trekk konfidensintervallet (CL) fra 1 og del det deretter med to. Denne verdien er alfa -nivået. (alfa + CL = 1)
  3. Se df og alfa i t-distribusjonstabellen. For df = 9 og alfa = 0,01 gir tabellen en verdi på 2,821. Denne verdien hentet fra tabellen er t-poengsummen.

Statistisk teori

Definisjon

La X være et tilfeldig utvalg fra en sannsynlighetsfordeling med statistisk parameter θ , som er en mengde som skal estimeres, og φ , som representerer størrelser som ikke er av umiddelbar interesse. Et konfidensintervall for parameteren θ , med konfidensnivå eller konfidenskoeffisient γ , er et intervall med tilfeldige endepunkter ( u ( X ),  v ( X )), bestemt av paret tilfeldige variabler u ( X ) og v ( X ) , med eiendommen:

Mengdene φ som det ikke er noen umiddelbar interesse for, kalles plageparametere , ettersom statistisk teori fortsatt trenger å finne en måte å håndtere dem på. Tallet γ , med typiske verdier nær, men ikke større enn 1, er noen ganger gitt i form 1-  α (eller som en prosentandel 100%· (1-  α )), der α er et lite ikke-negativt tall, lukk til 0.

Her indikerer Pr θ , φ sannsynlighetsfordelingen til X preget av ( θφ ). En viktig del av denne spesifikasjonen er at det tilfeldige intervallet ( u ( X ),  v ( X )) dekker den ukjente verdien θ med stor sannsynlighet uansett hva den sanne verdien av θ faktisk er.

Vær oppmerksom på at Pr θ , φ ikke trenger å referere til en eksplisitt gitt parameterisert familie av distribusjoner, selv om det ofte gjør det. Akkurat som den tilfeldige variabelen X ideelt sett tilsvarer andre mulige erkjennelser av x fra samme populasjon eller fra den samme versjonen av virkeligheten, indikerer parametrene ( θφ ) at vi må vurdere andre versjoner av virkeligheten der fordelingen av X kan har forskjellige egenskaper.

I en bestemt situasjon, når x er resultatet av prøven X , blir intervallet ( u ( x ),  v ( x )) også referert til som et konfidensintervall for θ . Vær oppmerksom på at det ikke lenger er mulig å si at (observert) intervall ( u ( x ),  v ( x )) har sannsynlighet γ for å inneholde parameteren θ . Dette observerte intervallet er bare en erkjennelse av alle mulige intervaller som sannsynlighetserklæringen holder.

Omtrentlige konfidensintervaller

I mange applikasjoner er konfidensintervaller som har nøyaktig det nødvendige konfidensnivået vanskelig å konstruere. Men praktisk talt nyttige intervaller kan fremdeles finnes: regelen for å konstruere intervallet kan godtas som å gi et konfidensintervall på nivå hvis

til et akseptabelt tilnærmingsnivå. Alternativt krever noen forfattere det ganske enkelt

som er nyttig hvis sannsynlighetene bare er delvis identifisert eller upresise , og også når det gjelder diskrete fordelinger . Tillit grenser for form og kalles konservative ; følgelig snakker man om konservative konfidensintervaller og generelt regioner.

Ønskelige egenskaper

Når du bruker standard statistiske prosedyrer, vil det ofte være standard måter å konstruere konfidensintervaller på. Disse vil ha blitt utformet for å oppfylle visse ønskelige egenskaper, som vil holde, gitt at forutsetningene som prosedyren bygger på er sanne. Disse ønskelige egenskapene kan beskrives som: validitet, optimalitet og variasjon. Av disse er "gyldigheten" viktigst, etterfulgt av "optimalitet". "Invariance" kan betraktes som en egenskap ved metoden for avledning av et konfidensintervall i stedet for regelen for å konstruere intervallet. I ikke-standardapplikasjoner vil de samme ønskelige egenskapene bli søkt.

  • Gyldighet. Dette betyr at den nominelle deknings sannsynligheten (konfidensnivå) for konfidensintervallet bør holde, enten nøyaktig eller til en god tilnærming.
  • Optimalitet. Dette betyr at regelen for å konstruere konfidensintervallet bør gjøre så mye bruk av informasjonen i datasettet som mulig. Husk at man kan kaste halvparten av et datasett og fortsatt kunne utlede et gyldig konfidensintervall. En måte å vurdere optimaliteten er ved intervallets lengde, slik at en regel for å konstruere et konfidensintervall blir bedømt bedre enn en annen hvis det fører til intervaller hvis lengder vanligvis er kortere.
  • Ulikhet. I mange applikasjoner er mengden som anslås kanskje ikke tett definert som sådan. For eksempel kan en undersøkelse resultere i et estimat av medianinntekten i en befolkning, men den kan like gjerne betraktes som å gi et estimat av logaritmen for medianinntekten, gitt at dette er en vanlig skala for å presentere grafiske resultater. Det ville være ønskelig at metoden som ble brukt for å konstruere et konfidensintervall for medianinntekten, ville gi tilsvarende resultater når den ble brukt for å konstruere et konfidensintervall for logaritmen til medianinntekten: spesifikt verdiene i slutten av sistnevnte intervall ville være logaritmene av verdiene i enden av det tidligere intervallet.

Metoder for avledning

For ikke-standardapplikasjoner er det flere ruter som kan tas for å utlede en regel for konstruksjon av konfidensintervaller. Etablerte regler for standardprosedyrer kan være begrunnet eller forklart via flere av disse rutene. Vanligvis er en regel for å konstruere konfidensintervaller tett knyttet til en bestemt måte å finne et poengestimat på mengden som blir vurdert.

Oppsummerende statistikk
Dette er nært knyttet til metoden for momenter for estimering. Et enkelt eksempel oppstår der mengden som skal estimeres er gjennomsnittet, i så fall er et naturlig estimat prøve gjennomsnittet. De vanlige argumentene indikerer at utvalgsvariansen kan brukes til å estimere variansen til utvalgsmiddelet. Et konfidensintervall for det sanne gjennomsnittet kan konstrueres sentrert på prøvegjennomsnittet med en bredde som er et multiplum av kvadratroten til utvalgsvariansen.
Sannsynlighetsteori
Der estimater er konstruert ved hjelp av maksimal sannsynlighetsprinsippet , gir teorien for dette to måter å konstruere konfidensintervaller eller konfidensområder for estimatene. En måte er å bruke Wilks teorem for å finne alle mulige verdier som oppfyller følgende begrensning:
Estimering av ligninger
Estimeringsmetoden her kan betraktes som både en generalisering av metoden for øyeblikk og en generalisering av den maksimale sannsynlighetsmetoden. Det er tilsvarende generaliseringer av resultatene av maksimal sannsynlighetsteori som gjør at konfidensintervaller kan konstrueres basert på estimater avledet fra estimeringsligninger .
Hypotesetesting
Hvis signifikansetester er tilgjengelige for generelle verdier av en parameter, kan konfidensintervaller/regioner konstrueres ved å inkludere alle de punktene som signifikansetesten for nullhypotesen om at den sanne verdien er den gitte verdien, er i 100 p % konfidensområdet. ikke avvist på et signifikansnivå på (1 -  p ).
Bootstrapping
I situasjoner der fordelingsforutsetningene for de ovennevnte metodene er usikre eller krenket, tillater resamplingsmetoder konstruering av konfidensintervaller eller prediksjonsintervaller. Den observerte datafordelingen og de interne korrelasjonene brukes som surrogat for korrelasjonene i befolkningen bredere.

Eksempler

Medisinske eksempler

Medisinsk forskning anslår ofte effekten av en intervensjon eller eksponering i en bestemt befolkning. Vanligvis har forskere bestemt betydningen av effektene basert på p-verdien; Imidlertid har det nylig vært et press for mer statistisk informasjon for å gi et sterkere grunnlag for estimatene. En måte å løse dette problemet på er også å kreve rapportering av konfidensintervallet. Nedenfor er to eksempler på hvordan konfidensintervaller brukes og rapporteres for forskning.

I en studie fra 2004 gjennomførte Briton og kolleger en studie om evaluering av forholdet mellom infertilitet og eggstokkreft. Forekomstforholdet på 1,98 ble rapportert for et 95% konfidensintervall (CI) med et forholdsområde på 1,4 til 2,6. Statistikken ble rapportert som følgende i avisen: "(standardisert forekomstforhold = 1,98; 95% KI, 1,4–2,6)." Dette betyr at, basert på prøven som er undersøkt, har infertile kvinner en eggstokkreftforekomst som er 1,98 ganger høyere enn ikke-infertile kvinner. Videre betyr det også at vi er 95% sikre på at det sanne forekomstforholdet i hele den ufruktbare kvinnelige befolkningen ligger i området fra 1,4 til 2,6. Totalt sett ga konfidensintervallet mer statistisk informasjon ved at den rapporterte de laveste og største effektene som sannsynligvis vil oppstå for den studerte variabelen, mens den fortsatt ga informasjon om betydningen av effektene som ble observert.

I en studie fra 2018 ble prevalensen og sykdomsbyrden for atopisk dermatitt i den amerikanske voksenpopulasjonen forstått ved bruk av 95% konfidensintervaller. Det ble rapportert at blant 1 278 deltakende voksne var forekomsten av atopisk dermatitt 7,3% (5,9–8,8). Videre ble 60,1% (56,1–64,1) av deltakerne klassifisert for å ha mild atopisk dermatitt, mens 28,9% (25,3–32,7) hadde moderat og 11% (8,6–13,7) hadde alvorlig. Studien bekreftet at det er høy forekomst og sykdomsbyrde av atopisk dermatitt i befolkningen.

Teoretisk eksempel

Anta at { X 1 ,…,  X n } er et uavhengig utvalg fra en normalfordelt populasjon med ukjent ( parametere ) gjennomsnitt μ og varians σ 2 . La

Hvor X er prøvens gjennomsnitt , og S 2 er utvalgsvariansen . Deretter

har en Student's t -fordeling med n - 1 frihetsgrader. Vær oppmerksom på at fordelingen av T ikke er avhengig av verdiene til de ikke -observerbare parameterne μ og σ 2 ; dvs. det er en sentral mengde . Anta at vi ønsket å beregne et 95% konfidensintervall for  μ . Betegner deretter c som den 97,5. persentilen av denne fordelingen,

Vær oppmerksom på at "97.5th" og "0.95" er riktige i de foregående uttrykkene. Det er en 2,5% sjanse som vil være mindre enn og en 2,5% sjanse for at den blir større enn . Dermed er sannsynligheten som vil være mellom og 95%.

Følgelig,

og vi har et teoretisk (stokastisk) 95% konfidensintervall for  μ .

Etter å ha observert prøven finner vi verdier x for X og s for S , hvorfra vi beregner konfidensintervallet

et intervall med faste tall som endepunkter, som vi ikke lenger kan si at det er en viss sannsynlighet for at den inneholder parameteren  μ ; enten er μ i dette intervallet eller ikke.

Alternativer og kritikk

Konfidensintervaller er en metode for intervallestimering , og den mest brukte i hyppig statistikk . Et analogt konsept i bayesiansk statistikk er troverdige intervaller , mens en alternativ frekvensistmetode er prediksjonsintervaller som, i stedet for å estimere parametere, estimerer utfallet av fremtidige prøver. For andre tilnærminger til å uttrykke usikkerhet ved bruk av intervaller, se intervallestimering .

Sammenligning med spådomsintervaller

Et prediksjonsintervall for en tilfeldig variabel er definert på samme måte som et konfidensintervall for en statistisk parameter . Betrakt en ytterligere tilfeldig variable Y , som kan eller ikke kan være statistisk avhengig av stikkprøve X . Deretter gir ( u ( X ),  v ( X )) et forutsigelsesintervall for verdien som ennå ikke skal observeres y av Y hvis

Her indikerer Pr θ , φ felles sannsynlighetsfordeling for tilfeldige variabler ( XY ), hvor denne fordelingen avhenger av de statistiske parametrene  ( θφ ).

Sammenligning med Bayesiansk intervallestimater

Et Bayesiansk intervallestimat kalles et troverdig intervall . Ved å bruke mye av den samme notasjonen som ovenfor, er definisjonen av et troverdig intervall for den ukjente sanne verdien av ,, for en gitt γ ,

Her Θ brukes til å understreke at den ukjente verdien av θ blir behandlet som en tilfeldig variabel. Definisjonene av de to typene intervaller kan sammenlignes som følger.

  • Definisjonen av et konfidensintervall innebærer sannsynligheter beregnet ut fra fordelingen av X for en gitt ( θφ ) (eller betinget av disse verdiene), og betingelsen må holde for alle verdier av ( θφ ).
  • Definisjonen av et troverdig intervall innebærer sannsynligheter beregnet ut fra fordelingen av Θ betinget av de observerte verdiene av X  =  x og marginalisert (eller gjennomsnitt) over verdiene til Φ, hvor denne siste størrelsen er den tilfeldige variabelen som tilsvarer usikkerheten om plagen. parametereφ .

Vær oppmerksom på at behandlingen av plageparametrene ovenfor ofte utelates fra diskusjoner som sammenligner tillit og troverdige intervaller, men det er markant forskjellig mellom de to sakene.

I noen tilfeller er et konfidensintervall og troverdig intervall beregnet for en gitt parameter ved hjelp av et gitt datasett identiske. Men i andre tilfeller kan de to være veldig forskjellige, spesielt hvis informativ forhåndsinformasjon er inkludert i Bayesian -analysen .

Det er uenighet om hvilken av disse metodene som gir de mest nyttige resultatene: beregningenes matematikk er sjelden i tvil - konfidensintervaller er basert på samplingsfordelinger, troverdige intervaller er basert på Bayes 'teorem - men anvendelsen av disse metodene, verktøyet og tolkning av den produserte statistikken, debatteres.

Konfidensintervaller for proporsjoner og relaterte mengder

Et tilnærmet konfidensintervall for et populasjonsgjennomsnitt kan konstrueres for tilfeldige variabler som ikke er normalt fordelt i populasjonen, avhengig av den sentrale grensesetningen , hvis utvalgsstørrelsene og antallet er store nok. Formlene er identiske med tilfellet ovenfor (der gjennomsnittet av prøven faktisk er normalfordelt om populasjonsgjennomsnittet). Tilnærmingen vil være ganske god med bare noen få dusin observasjoner i utvalget hvis sannsynlighetsfordelingen til den tilfeldige variabelen ikke er for forskjellig fra normalfordelingen (f.eks. At den kumulative fordelingsfunksjonen ikke har noen diskontinuiteter og skjevheten er moderat).

En type prøve gjennomsnitt er gjennomsnittet av en indikatorvariabel , som tar på seg verdien 1 for true og verdien 0 for false. Gjennomsnittet for en slik variabel er lik andelen som har variabelen lik en (både i populasjonen og i et utvalg). Dette er en nyttig egenskap for indikatorvariabler, spesielt for hypotesetesting. For å anvende den sentrale grensesetningen må man bruke en stor nok prøve. En grov tommelfingerregel er at man skal se minst 5 tilfeller der indikatoren er 1 og minst 5 der den er 0. Konfidensintervaller konstruert ved hjelp av formlene ovenfor kan inneholde negative tall eller tall større enn 1, men proporsjoner åpenbart kan ikke være negativt eller overstige 1. I tillegg kan prøveforhold bare ta et begrenset antall verdier, så den sentrale grensesetningen og normalfordelingen er ikke de beste verktøyene for å bygge et konfidensintervall. Se " Binomial proporsjon konfidensintervall " for bedre metoder som er spesifikke for dette tilfellet.

Moteksempler

Siden konfidensintervallteorien ble foreslått, har det blitt utviklet en rekke moteksempler til teorien for å vise hvordan tolkningen av konfidensintervaller kan være problematisk, i hvert fall hvis man tolker dem naivt.

Tillitsprosedyre for ensartet beliggenhet

Welch presenterte et eksempel som tydelig viser forskjellen mellom teorien om konfidensintervaller og andre teorier om intervallestimering (inkludert Fishers fiducial -intervaller og objektive bayesiske intervaller). Robinson kalte dette eksemplet "[p] det mest kjente moteksemplet for Neymans versjon av konfidensintervallteori." For Welch viste det overlegenheten til konfidensintervallteorien; for kritikere av teorien viser det en mangel. Her presenterer vi en forenklet versjon.

Anta at det er uavhengige observasjoner fra en uniform ( θ - 1/2, θ + 1/2) fordeling. Da er den optimale 50% konfidensprosedyren

Et fiducial eller objektivt bayesisk argument kan brukes til å utlede intervallestimatet

som også er en 50% konfidensprosedyre. Welch viste at den første konfidensprosedyren dominerer den andre, ifølge desiderata fra konfidensintervallteori; for hver , sannsynligheten for at den første fremgangsmåten inneholder er mindre enn eller lik sannsynligheten for at den andre fremgangsmåten inneholder . Den gjennomsnittlige bredden på intervallene fra den første prosedyren er mindre enn den andre. Derfor foretrekkes den første prosedyren under klassisk konfidensintervallsteori.

Imidlertid, når intervaller fra den første prosedyren garantert inneholder den sanne verdien : Derfor er den nominelle 50% konfidenskoeffisienten ikke relatert til usikkerheten vi bør ha om at et bestemt intervall inneholder den sanne verdien. Den andre prosedyren har ikke denne egenskapen.

Når den første prosedyren genererer et veldig kort intervall, indikerer dette dessuten at de er veldig tett og derfor bare tilbyr informasjonen i et enkelt datapunkt. Likevel vil det første intervallet utelukke nesten alle rimelige verdier av parameteren på grunn av den korte bredden. Den andre prosedyren har ikke denne egenskapen.

De to kontraintuitive egenskapene til den første prosedyren-100% dekning når de er langt fra hverandre og nesten 0% dekning når de er tett sammen-balanserer seg for å gi 50% dekning i gjennomsnitt. Til tross for at den første prosedyren er optimal, gir intervallene hverken en vurdering av estimatets presisjon eller en vurdering av usikkerheten man bør ha om at intervallet inneholder den sanne verdien.

Dette moteksemplet brukes for å argumentere mot naive tolkninger av konfidensintervaller. Hvis en konfidensprosedyre påstås å ha egenskaper utover den nominelle dekningen (for eksempel forhold til presisjon eller et forhold til Bayesian slutning), må disse egenskapene bevises; de følger ikke av at en prosedyre er en konfidensprosedyre.

Tillitsprosedyre for ω 2

Steiger foreslo en rekke konfidensprosedyrer for vanlige effektstørrelsesmål i ANOVA . Morey et al. påpek at flere av disse konfidensprosedyrene, inkludert den for ω 2 , har den egenskapen at etter hvert som F -statistikken blir stadig mindre - noe som indikerer feil med alle mulige verdier på ω 2 - reduseres konfidensintervallet og kan til og med bare inneholde enkeltverdien ω 2  = 0; det vil si at CI er uendelig smalt (dette skjer når det gjelder et CI).

Denne oppførselen er i samsvar med forholdet mellom konfidensprosedyren og signifikansetesting: ettersom F blir så liten at gruppen betyr mye nærmere hverandre enn vi tilfeldigvis forventer, kan en signifikansetest indikere avvisning for de fleste eller alle verdier av ω 2 . Derfor vil intervallet være veldig smalt eller tomt (eller, etter en konvensjon foreslått av Steiger, som bare inneholder 0). Imidlertid indikerer dette ikke at anslaget på ω 2 er veldig presist. På en måte indikerer det det motsatte: at påliteligheten til selve resultatene kan være i tvil. Dette er i strid med den vanlige tolkningen av konfidensintervaller at de avslører presisjonen i estimatet.

Se også

Konfidensintervall for spesifikke fordelinger

Referanser

Bibliografi

Eksterne linker