Analyse av varianter - Analysis of variance

Variansanalyse ( ANOVA ) er en samling av statistiske modeller og tilhørende estimeringsprosedyrer (for eksempel "variasjonen" mellom og mellom grupper) som brukes til å analysere forskjellene mellom midler. ANOVA ble utviklet av statistikeren Ronald Fisher . ANOVA er basert på loven om total varians , der den observerte variansen i en bestemt variabel er delt inn i komponenter som kan tilskrives forskjellige variasjonskilder. I sin enkleste form, gir ANOVA en statistisk test av hvorvidt to eller flere populasjons midler er like, og derfor generaliserer t -test utover to midler.

Historie

Mens variansanalysen nådde fram i det 20. århundre, strekker antecedents seg århundrer inn i fortiden ifølge Stigler. Disse inkluderer hypotesetesting, fordeling av summer av firkanter, eksperimentelle teknikker og additivmodellen. Laplace utførte hypotesetesting på 1770 -tallet. Rundt 1800 utviklet Laplace og Gauss metoden for minst kvadrater for å kombinere observasjoner, noe som forbedret metodene som deretter ble brukt i astronomi og geodesi. Det startet også mye studier av bidragene til summer av firkanter. Laplace visste hvordan han kunne estimere en avvik fra en resterende (i stedet for en total) kvadrat. I 1827 brukte Laplace metoder for minst kvadrat for å løse ANOVA -problemer angående målinger av atmosfæriske tidevann. Før 1800 hadde astronomer isolert observasjonsfeil som følge av reaksjonstider (" personlig ligning ") og hadde utviklet metoder for å redusere feilene. De eksperimentelle metodene som ble brukt i studiet av den personlige ligningen ble senere akseptert av det fremvoksende psykologiområdet som utviklet sterke (fullfaktorielle) eksperimentelle metoder som randomisering og blending snart ble lagt til. En veltalende ikke-matematisk forklaring av modellen for additive effects var tilgjengelig i 1885.

Ronald Fisher introduserte begrepet varians og foreslo den formelle analysen i en artikkel fra 1918 The Correlation Between Relatives on the Supposition of Mendelian Inheritance . Hans første anvendelse av variansanalysen ble publisert i 1921. Variansanalyse ble allment kjent etter å ha blitt inkludert i Fishers bok fra 1925 Statistical Methods for Research Workers .

Randomiseringsmodeller ble utviklet av flere forskere. Den første ble utgitt på polsk av Jerzy Neyman i 1923.

Eksempel

Ingen passform: Ung vs gammel, og korthåret vs langhåret
God passform: Pet vs Working ras og mindre atletisk vs mer atletisk
Meget god passform: Vekt etter rase

Variansanalysen kan brukes til å beskrive ellers komplekse forhold mellom variabler. Et hundeutstilling gir et eksempel. Et hundeutstilling er ikke et tilfeldig utvalg av rasen: det er vanligvis begrenset til hunder som er voksne, rase og eksemplariske. Et histogram over hundevekter fra et show kan sannsynligvis være ganske komplekst, som den gul-oransje fordelingen vist på illustrasjonene. Anta at vi ønsket å forutsi vekten til en hund basert på et bestemt sett med egenskaper for hver hund. En måte å gjøre det på er å forklare fordelingen av vekter ved å dele hundpopulasjonen i grupper basert på disse egenskapene. En vellykket gruppering vil dele hunder slik at (a) hver gruppe har en lav variasjon av hundevekt (som betyr at gruppen er relativt homogen) og (b) gjennomsnittet for hver gruppe er forskjellig (hvis to grupper har samme gjennomsnitt, så er det er ikke rimelig å konkludere med at gruppene faktisk er atskilte på en meningsfull måte).

I illustrasjonene til høyre er grupper identifisert som X 1 , X 2 , etc. I den første illustrasjonen er hundene delt i henhold til produktet (interaksjonen) av to binære grupperinger: ung vs gammel, og korthåret vs lang -hårete (f.eks. gruppe 1 er unge, korthårede hunder, gruppe 2 er unge, langhårede hunder, etc.). Siden fordelingene av hundevekt i hver av gruppene (vist i blått) har en relativt stor varians, og siden virkemidlene er veldig like på tvers av grupper, gir ikke gruppering av hunder etter disse egenskapene en effektiv måte å forklare variasjonen i hundevekt på : Å vite hvilken gruppe en hund er i, tillater oss ikke å forutsi vekten mye bedre enn å bare vite at hunden er i et hundeutstilling. Dermed klarer denne grupperingen ikke å forklare variasjonen i den totale fordelingen (gul-oransje).

Et forsøk på å forklare vektfordelingen ved å gruppere hunder som kjæledyr vs arbeidende rase og mindre atletisk mot mer atletisk ville trolig være noe mer vellykket (fair fit). De tyngste utstillingshundene er sannsynligvis store, sterke, fungerende raser, mens raser som holdes som kjæledyr pleier å være mindre og dermed lettere. Som vist i den andre illustrasjonen, har fordelingene avvik som er betydelig mindre enn i det første tilfellet, og virkemidlene er mer skillebare. Imidlertid betyr den betydelige overlappingen av distribusjoner for eksempel at vi ikke kan skille X 1 og X 2 pålitelig. Gruppering av hunder i henhold til en myntflip kan produsere fordelinger som ser like ut.

Et forsøk på å forklare vekt etter rase vil sannsynligvis gi en veldig god passform. Alle Chihuahuas er lette og alle St. Bernards er tunge. Forskjellen i vekt mellom settere og pekere rettferdiggjør ikke separate raser. Variansanalysen gir de formelle verktøyene for å rettferdiggjøre disse intuitive vurderingene. En vanlig bruk av metoden er analyse av eksperimentelle data eller utvikling av modeller. Metoden har noen fordeler i forhold til korrelasjon: ikke alle dataene må være numeriske, og et resultat av metoden er en vurdering av tilliten til et forklarende forhold.

Klasser av modeller

Det er tre klasser av modeller som brukes i variansanalysen, og disse er skissert her.

Fikseffektmodeller

Fikseffektmodellen (klasse I) for variansanalyse gjelder situasjoner der eksperimentatoren bruker en eller flere behandlinger på forsøkspersonene for å se om responsvariabelverdiene endres. Dette gjør at eksperimentatoren kan estimere rekkevidden av responsvariabelverdier som behandlingen ville generere i befolkningen som helhet.

Tilfeldige effekter

Tilfeldig effekt-modell (klasse II) brukes når behandlingene ikke er fikset. Dette skjer når de ulike faktornivåene er samplet fra en større populasjon. Fordi nivåene i seg selv er tilfeldige variabler , skiller noen forutsetninger og metoden for å kontrastere behandlingene (en multi-variabel generalisering av enkle forskjeller) seg fra modellen med fast effekt.

Blandede effekter-modeller

En blandet effekt-modell (klasse III) inneholder eksperimentelle faktorer av både faste og tilfeldige effekter, med passende forskjellige tolkninger og analyse for de to typene.

Eksempel: Undervisningseksperimenter kan utføres av en høyskole eller universitetsavdeling for å finne en god innledende lærebok, med hver tekst betraktet som en behandling. Fikseffektmodellen vil sammenligne en liste over kandidattekster. Tilfeldig effektmodell ville avgjøre om det er viktige forskjeller mellom en liste over tilfeldig utvalgte tekster. Modellen med blandede effekter vil sammenligne (faste) sittende tekster med tilfeldig valgte alternativer.

Å definere faste og tilfeldige effekter har vist seg unnvikende, med konkurrerende definisjoner som uten tvil fører til en språklig klynge.

Antagelser

Variansanalysen har blitt studert fra flere tilnærminger, hvorav den vanligste bruker en lineær modell som relaterer responsen på behandlingene og blokkene. Vær oppmerksom på at modellen er lineær i parametere, men kan være ikke -lineær på tvers av faktornivåer. Tolkning er lett når data er balansert på tvers av faktorer, men mye dypere forståelse er nødvendig for ubalanserte data.

Lærebokanalyse ved bruk av en normalfordeling

Variansanalysen kan presenteres i form av en lineær modell , som gjør følgende antagelser om sannsynlighetsfordelingen av svarene:

  • Uavhengighet av observasjoner - dette er en antagelse av modellen som forenkler den statistiske analysen.
  • Normalitet - fordelingen av restene er normal .
  • Likhet (eller "homogenitet") av avvik, kalt homoscedasticitet - variansen av data i grupper bør være den samme.

De separate forutsetningene i lærebokmodellen innebærer at feilene er uavhengig, identisk og normalt fordelt for modeller med faste effekter, det vil si at feilene ( ) er uavhengige og

Randomiseringsbasert analyse

I et randomisert kontrollert eksperiment blir behandlingene tilfeldig tilordnet eksperimentelle enheter, etter eksperimentell protokoll. Denne randomiseringen er objektiv og erklært før eksperimentet utføres. Den objektive tilfeldige oppgaven brukes til å teste betydningen av nullhypotesen , etter ideene til CS Peirce og Ronald Fisher . Denne designbaserte analysen ble diskutert og utviklet av Francis J. Anscombe ved Rothamsted Experimental Station og av Oscar Kempthorne ved Iowa State University . Kempthorne og hans studenter antar additivitet for enhetsbehandling , som er diskutert i bøkene til Kempthorne og David R. Cox .

Enhetsbehandling additivitet

I sin enkleste form sier antagelsen om enhetsbehandlingsadditivitet at den observerte responsen fra eksperimentell enhet ved mottak av behandling kan skrives som summen av enhetens respons og behandlingseffekten , dvs.

Antagelsen om additivitet til enhetsbehandling innebærer at den behandling har nøyaktig samme effekt for hver eksperimentenhet for hver behandling .

Antagelsen om enhetsbehandlingsadditivitet kan vanligvis ikke direkte forfalskes , ifølge Cox og Kempthorne. Imidlertid kan mange konsekvenser av tilførsel av behandlingsenhet forfalskes. For et randomisert eksperiment innebærer antagelsen om additivitet til enhetsbehandling at variansen er konstant for alle behandlinger. Derfor, ved kontraposisjon , er en nødvendig betingelse for additivitet i enhetsbehandling at variansen er konstant.

Bruken av additivitet og randomisering av enhetsbehandling ligner den designbaserte slutningen som er standard i prøvetaking av endelige befolkningsundersøkelser .

Avledet lineær modell

Kempthorne bruker randomiseringsfordelingen og antagelsen om additiv behandling for enhet for å produsere en avledet lineær modell , veldig lik lærebokmodellen som ble diskutert tidligere. Teststatistikken til denne avledede lineære modellen er nært tilnærmet av teststatistikken til en passende normal lineær modell, i henhold til tilnærmingsteoremer og simuleringsstudier. Det er imidlertid forskjeller. For eksempel resulterer den randomiseringsbaserte analysen i en liten, men (strengt) negativ korrelasjon mellom observasjonene. I den randomiseringsbaserte analysen er det ingen antagelse om normalfordeling og absolutt ingen antagelse om uavhengighet . Tvert imot er observasjonene avhengige !

Den randomiseringsbaserte analysen har den ulempen at eksponeringen innebærer kjedelig algebra og lang tid. Siden den randomiseringsbaserte analysen er komplisert og er nært tilnærmet av tilnærmingen ved hjelp av en normal lineær modell, legger de fleste lærere vekt på den normale lineære modelltilnærmingen. Få statistikere protesterer mot modellbasert analyse av balanserte randomiserte eksperimenter.

Statistiske modeller for observasjonsdata

Når den brukes på data fra ikke-randomiserte eksperimenter eller observasjonsstudier , mangler imidlertid modellbasert analyse garantien for randomisering. For observasjonsdata må utledningen av konfidensintervaller bruke subjektive modeller, som understreket av Ronald Fisher og hans tilhengere. I praksis er estimatene av behandlingseffekter fra observasjonsstudier generelt inkonsekvente. I praksis er "statistiske modeller" og observasjonsdata nyttige for å foreslå hypoteser som bør behandles svært forsiktig av publikum.

Oppsummering av forutsetninger

Den normalmodellbaserte ANOVA-analysen forutsetter uavhengighet, normalitet og homogenitet av avvik fra restene. Den randomiseringsbaserte analysen forutsetter bare homogeniteten til avvikene til restene (som en konsekvens av additivitet under enhetsbehandling) og bruker randomiseringsprosedyren til eksperimentet. Begge disse analysene krever homoscedasticitet , som en forutsetning for normalmodellanalysen og som en konsekvens av randomisering og additivitet for den randomiseringsbaserte analysen.

Imidlertid har studier av prosesser som endrer avvik i stedet for midler (kalt dispersjonseffekter) blitt utført med hell med ANOVA. Det er ingen nødvendige forutsetninger for ANOVA i sin fulle generellitet, men F -testen som brukes for ANOVA -hypotesetesting har forutsetninger og praktiske begrensninger som er av fortsatt interesse.

Problemer som ikke tilfredsstiller antagelsene til ANOVA kan ofte transformeres for å tilfredsstille forutsetningene. Egenskapen til enhetsbehandlingsadditivitet er ikke invariant under en "endring av skala", så statistikere bruker ofte transformasjoner for å oppnå enhetlig behandlingstilsetning. Hvis responsvariabelen forventes å følge en parametrisk familie av sannsynlighetsfordelinger, kan statistikeren spesifisere (i protokollen for eksperimentet eller observasjonsstudien) at svarene skal transformeres for å stabilisere variansen. En statistiker kan også spesifisere at logaritmiske transformasjoner skal brukes på svarene, som antas å følge en multiplikativ modell. I følge Cauchys funksjonelle ligningsteorem er logaritmen den eneste kontinuerlige transformasjonen som transformerer reell multiplikasjon til addisjon.

Kjennetegn

ANOVA brukes i analysen av komparative eksperimenter, de der bare forskjellen i utfall er av interesse. Eksperimentets statistiske signifikans bestemmes av et forhold på to avvik. Dette forholdet er uavhengig av flere mulige endringer i de eksperimentelle observasjonene: Å legge en konstant til alle observasjoner endrer ikke betydningen. Multiplisering av alle observasjoner med en konstant endrer ikke signifikansen. Så resultatet for statistisk signifikans av ANOVA er uavhengig av konstant skjevhet og skaleringsfeil, så vel som enhetene som brukes til å uttrykke observasjoner. I en tid med mekanisk beregning var det vanlig å trekke en konstant fra alle observasjoner (når det tilsvarer å slippe ledende sifre) for å forenkle dataregistrering. Dette er et eksempel på datakoding .

Logikk

Beregningene av ANOVA kan karakteriseres som å beregne et antall midler og avvik, dele to avvik og sammenligne forholdet til en håndbokverdi for å bestemme statistisk signifikans. Å beregne en behandlingseffekt er da trivielt: "effekten av enhver behandling er estimert ved å ta forskjellen mellom gjennomsnittet av observasjonene som mottar behandlingen og det generelle gjennomsnittet".

Partisjonering av summen av firkanter

ANOVA bruker tradisjonell standardisert terminologi. Den definisjonelle ligningen for prøvevarians er at der divisoren kalles frihetsgrader (DF), summeringen kalles summen av kvadrater (SS), resultatet kalles gjennomsnittlig firkant (MS) og de kvadratiske vilkårene er avvik fra prøven betyr. ANOVA anslår 3 utvalgsavvik: en total varians basert på alle observasjonsavvikene fra det store gjennomsnittet, en feilavvik basert på alle observasjonsavvikene fra deres passende behandlingsmiddel, og en behandlingsvarians. Behandlingsvariansen er basert på avvikene mellom behandlingsmidlene og det store gjennomsnittet, og resultatet multipliseres med antall observasjoner i hver behandling for å ta hensyn til forskjellen mellom variansen av observasjoner og variansen av midler.

Den grunnleggende teknikken er en oppdeling av den totale summen av kvadrater SS i komponenter knyttet til effektene som brukes i modellen. For eksempel modellen for en forenklet ANOVA med én type behandling på forskjellige nivåer.

Antall frihetsgrader DF kan deles på en lignende måte: en av disse komponentene (for feil) angir en chi-kvadratfordeling som beskriver den tilhørende summen av kvadrater, mens det samme gjelder for "behandlinger" hvis det er ingen behandlingseffekt.

Se også Mangel på passform sum av firkanter .

Den F -test

Den F -test blir anvendt for å sammenlikne de faktorer av den totale avvik. For eksempel, på enveis eller enkeltfaktor ANOVA, testes statistisk signifikans ved å sammenligne F-teststatistikken

hvor MS er gjennomsnittlig kvadrat, = antall behandlinger og = totalt antall tilfeller

til F -fordelingen med , frihetsgrader. Å bruke F -fordelingen er en naturlig kandidat fordi teststatistikken er forholdet mellom to skalerte summer av firkanter som hver følger en skalert chi -kvadratfordeling .

Den forventede verdien av F er (hvor er størrelsen på behandlingsprøven) som er 1 for ingen behandlingseffekt. Ettersom verdiene av F øker over 1, er bevisene stadig mer uforenlige med nullhypotesen. To tilsynelatende eksperimentelle metoder for å øke F øker utvalgsstørrelsen og reduserer feilvariansen ved stramme eksperimentelle kontroller.

Det er to metoder for å avslutte ANOVA -hypotesetesten, som begge gir samme resultat:

  • Lærebokmetoden er å sammenligne den observerte verdien av F med den kritiske verdien av F bestemt ut fra tabeller. Den kritiske verdien av F er en funksjon av tellerens og nevnens frihetsgrader og signifikansnivået (α). Hvis F ≥ F Critical , blir nullhypotesen avvist.
  • Datametoden beregner sannsynligheten (p-verdi) for en verdi på F større enn eller lik den observerte verdien. Nullhypotesen avvises hvis denne sannsynligheten er mindre enn eller lik signifikansnivået (α).

ANOVA F -testen er kjent for å være nesten optimal i den forstand å minimere falske negative feil for en fast rate av falske positive feil (dvs. maksimere effekt for et fast signifikansnivå). For eksempel, for å teste hypotesen om at ulike medisinske behandlinger har nøyaktig den samme virkning, er F -forsøks 's p -verdier nært tilnærmet den permutasjon test ' s p-verdier : Tilnærmelsen er spesielt tett når utformingen er balansert. Slike permutasjonstester karakteriserer tester med maksimal effekt mot alle alternative hypoteser , som observert av Rosenbaum. ANOVA F -testen (av nullhypotesen om at alle behandlinger har nøyaktig samme effekt) anbefales som en praktisk test, på grunn av dens robusthet mot mange alternative distribusjoner.

Utvidet logikk

ANOVA består av deler som kan skilles; partisjoneringskilder for varians og hypotesetesting kan brukes individuelt. ANOVA brukes til å støtte andre statistiske verktøy. Regresjon brukes først for å tilpasse mer komplekse modeller til data, deretter brukes ANOVA til å sammenligne modeller med det formål å velge enkle (r) modeller som tilstrekkelig beskriver dataene. "Slike modeller kan passe uten referanse til ANOVA, men ANOVA -verktøy kan deretter brukes til å gi en oversikt over de monterte modellene og for å teste hypoteser om mengder koeffisienter." "Vi tenker på variansanalysen som en måte å forstå og strukturere modeller på flere nivåer-ikke som et alternativ til regresjon, men som et verktøy for å oppsummere komplekse høydimensjonale slutninger ..."

For en enkelt faktor

Det enkleste eksperimentet som er egnet for ANOVA -analyse er det helt randomiserte eksperimentet med en enkelt faktor. Mer komplekse eksperimenter med en enkelt faktor innebærer begrensninger på randomisering og inkluderer fullstendig randomiserte blokker og latinske firkanter (og varianter: gresk-latinske firkanter, etc.). De mer komplekse eksperimentene deler mange av kompleksiteten til flere faktorer. En relativt fullstendig diskusjon av analysen (modeller, datasammendrag, ANOVA -tabell) av det helt randomiserte eksperimentet er tilgjengelig .

For en enkelt faktor er det noen alternativer for enveis variansanalyse; nemlig Welchs heteroscedastiske F-test, Welchs heteroscedastiske F-test med trimmede midler og Winsorized-avvik, Brown-Forsythe-test, Alexander-Govern-test, James andreordens test og Kruskal-Wallis-test, tilgjengelig i onewaytests R-pakken .

For flere faktorer

ANOVA generaliserer til studiet av effekten av flere faktorer. Når eksperimentet inkluderer observasjoner på alle kombinasjoner av nivåer av hver faktor, kalles det factorial . Faktoriske eksperimenter er mer effektive enn en serie enkeltfaktoreksperimenter, og effektiviteten vokser etter hvert som antallet faktorer øker. Følgelig er faktoriske design mye brukt.

Bruken av ANOVA for å studere effekten av flere faktorer har en komplikasjon. I en 3-veis ANOVA med faktorene x, y og z inkluderer ANOVA-modellen termer for hovedeffektene (x, y, z) og termer for interaksjoner (xy, xz, yz, xyz). Alle begreper krever hypotesetester. Spredningen av interaksjonsbetingelser øker risikoen for at noen hypotesetester tilfeldigvis vil gi en falsk positiv. Heldigvis sier erfaringen at interaksjoner med høy rekkefølge er sjeldne. Evnen til å oppdage interaksjoner er en stor fordel med flere faktorer ANOVA. Å teste en faktor om gangen skjuler interaksjoner, men gir tilsynelatende inkonsekvente eksperimentelle resultater.

Forsiktighet utvises når du møter interaksjoner; Test interaksjonsvilkår først og utvid analysen utover ANOVA hvis interaksjoner blir funnet. Tekster varierer i anbefalingene deres om fortsettelsen av ANOVA -prosedyren etter å ha møtt en interaksjon. Interaksjoner kompliserer tolkningen av eksperimentelle data. Verken beregningene av betydning eller de estimerte behandlingseffektene kan tas til pålydende. "Et betydelig samspill vil ofte maskere betydningen av hovedeffekter." Grafiske metoder anbefales for å øke forståelsen. Regresjon er ofte nyttig. En lang diskusjon om interaksjoner er tilgjengelig i Cox (1958). Noen interaksjoner kan fjernes (ved transformasjoner) mens andre ikke kan.

En rekke teknikker brukes med ANOVA med flere faktorer for å redusere kostnadene. En teknikk som brukes i factorial design er å minimere replikasjon (muligens ingen replikasjon med støtte for analytisk lureri ) og å kombinere grupper når effekter er funnet å være statistisk (eller praktisk talt) ubetydelige. Et eksperiment med mange ubetydelige faktorer kan kollapse til et med noen få faktorer støttet av mange replikker.

Tilhørende analyse

Noe analyse er nødvendig for å støtte utformingen av eksperimentet, mens annen analyse utføres etter at endringer i faktorene formelt er funnet å gi statistisk signifikante endringer i svarene. Fordi eksperimentering er iterativ, endrer resultatene av ett eksperiment planer for følgende eksperimenter.

Forberedende analyse

Antall eksperimentelle enheter

I utformingen av et eksperiment er antall eksperimentelle enheter planlagt for å tilfredsstille målene med eksperimentet. Eksperimentering er ofte sekvensiell.

Tidlige eksperimenter er ofte designet for å gi gjennomsnittlige, upartiske estimater av behandlingseffekter og eksperimentelle feil. Senere eksperimenter er ofte designet for å teste en hypotese om at en behandlingseffekt har en viktig størrelse; i dette tilfellet velges antall eksperimentelle enheter slik at eksperimentet er innenfor budsjettet og har tilstrekkelig kraft, blant andre mål.

Rapportering av prøvestørrelsesanalyse er generelt nødvendig i psykologi. "Gi informasjon om utvalgsstørrelse og prosessen som førte til beslutninger om utvalgsstørrelser." Analysen, som er skrevet i eksperimentprotokollen før eksperimentet utføres, blir undersøkt i tilskuddssøknader og administrative kontrollpaneler.

Foruten effektanalysen er det mindre formelle metoder for å velge antall eksperimentelle enheter. Disse inkluderer grafiske metoder basert på å begrense sannsynligheten for falske negative feil, grafiske metoder basert på en forventet variasjonsøkning (over restene) og metoder basert på å oppnå et ønsket konfidensintervall.

Kraftanalyse

Kraftanalyse brukes ofte i sammenheng med ANOVA for å vurdere sannsynligheten for vellykket avvisning av nullhypotesen hvis vi antar en viss ANOVA -design, effektstørrelse i populasjonen, utvalgsstørrelse og signifikansnivå. Kraftanalyse kan hjelpe til med studiedesign ved å bestemme hvilken prøvestørrelse som kreves for å ha en rimelig sjanse til å avvise nullhypotesen når den alternative hypotesen er sann.

Effektstørrelse

Flere standardiserte effektmål har blitt foreslått for ANOVA for å oppsummere styrken av assosiasjonen mellom en prediktor (er) og den avhengige variabelen eller den generelle standardiserte forskjellen i den komplette modellen. Standardiserte estimater av effektstørrelser letter sammenligning av funn på tvers av studier og disipliner. Selv om standardiserte effektstørrelser ofte brukes i mye av faglitteraturen, kan et ikke-standardisert mål på effektstørrelse som umiddelbart har "meningsfulle" enheter være å foretrekke for rapporteringsformål.

Modellbekreftelse

Noen ganger blir tester utført for å avgjøre om antagelsene til ANOVA ser ut til å være krenket. Rester undersøkes eller analyseres for å bekrefte homoscedasticitet og grov normalitet. Rester skal ha utseende på (null gjennomsnittlig normalfordeling) støy når de plottes som en funksjon av alt inkludert tid og modellerte dataverdier. Trender antyder interaksjoner mellom faktorer eller observasjoner.

Oppfølgingstester

En statistisk signifikant effekt i ANOVA blir ofte fulgt av tilleggstester. Dette kan gjøres for å vurdere hvilke grupper som er forskjellige fra hvilke andre grupper eller for å teste forskjellige andre fokuserte hypoteser. Oppfølgingstester skilles ofte med hensyn til om de er "planlagt" ( a priori ) eller "post hoc ." Planlagte tester bestemmes før man ser på dataene, og post hoc -tester oppfattes bare etter å ha sett på dataene (selv om begrepet "post hoc" inkonsekvent brukes).

Oppfølgingstestene kan være "enkle" parvise sammenligninger av individuelle gruppemedier eller kan være "sammensatte" sammenligninger (f.eks. Sammenligning av gjennomsnittlig sammensetning på tvers av grupper A, B og C med gjennomsnittet for gruppe D). Sammenligninger kan også se på tester av trend, for eksempel lineære og kvadratiske forhold, når den uavhengige variabelen involverer ordnede nivåer. Ofte inneholder oppfølgingstestene en metode for å justere for problemet med flere sammenligninger .

Studer design

Det finnes flere typer ANOVA. Mange statistikere baserer ANOVA på utformingen av eksperimentet , spesielt på protokollen som spesifiserer tilfeldig tildeling av behandlinger til fag; protokollens beskrivelse av tildelingsmekanismen bør inneholde en spesifikasjon av strukturen til behandlingene og for eventuell blokkering . Det er også vanlig å bruke ANOVA på observasjonsdata ved hjelp av en passende statistisk modell.

Noen populære design bruker følgende typer ANOVA:

  • Enveis ANOVA brukes til å teste for forskjeller mellom to eller flere uavhengige grupper (midler), f.eks. Forskjellige nivåer av ureapåføring i en avling, eller forskjellige nivåer av antibiotisk virkning på flere forskjellige bakteriearter, eller forskjellige effektnivåer av noen medisiner på pasientgrupper. Skulle disse gruppene imidlertid ikke være uavhengige, og det er en rekkefølge i gruppene (for eksempel mild, moderat og alvorlig sykdom), eller i dosen av et legemiddel (for eksempel 5 mg/ml, 10 mg/ml, 20 mg /ml) gitt til samme pasientgruppe, bør en lineær trendestimering brukes. Vanligvis brukes imidlertid enveis ANOVA for å teste for forskjeller mellom minst tre grupper, siden togruppesaken kan dekkes av en t-test . Når det bare er to måter å sammenligne på, er t -testen og ANOVA F -testen ekvivalente; forholdet mellom ANOVA og t er gitt av F  =  t 2 .

Advarsler

Balanserte eksperimenter (de med samme prøvestørrelse for hver behandling) er relativt enkle å tolke; ubalanserte eksperimenter gir mer kompleksitet. For enkeltfaktor (enveis) ANOVA er justeringen for ubalanserte data enkel, men den ubalanserte analysen mangler både robusthet og kraft. For mer komplekse design fører mangel på balanse til ytterligere komplikasjoner. "Ortogonalitetsegenskapen til hovedeffekter og interaksjoner som er tilstede i balanserte data, overfører ikke til ubalansert tilfelle. Dette betyr at den vanlige analysen av varianseteknikker ikke gjelder. Følgelig er analysen av ubalanserte factorials mye vanskeligere enn for balanserte design. " I det generelle tilfellet, "Variansanalysen kan også brukes på ubalanserte data, men da vil summen av firkanter, gjennomsnittlige firkanter og F -forhold avhenge av rekkefølgen hvor variasjonskildene blir vurdert."

ANOVA er (delvis) en test av statistisk signifikans. American Psychological Association (og mange andre organisasjoner) mener at det bare er utilstrekkelig å rapportere statistisk signifikans, og at rapportering av tillitsgrenser er å foretrekke.

Generaliseringer

ANOVA anses å være et spesielt tilfelle av lineær regresjon som igjen er et spesielt tilfelle av den generelle lineære modellen . Alle anser observasjonene som summen av en modell (passform) og en rest (feil) for å minimeres.

Den Kruskal-Wallis test og Friedman test er parametriske tester, som ikke er avhengige av en forutsetning om normalitet.

Tilkobling til lineær regresjon

Nedenfor tydeliggjør vi sammenhengen mellom flerveis ANOVA og lineær regresjon.

Omorganiser dataene lineært slik at observasjon er assosiert med et svar og faktorer der betegner de forskjellige faktorene og er det totale antallet faktorer. På enveis ANOVA og i toveis ANOVA . Videre antar vi at faktoren har nivåer, nemlig . Nå kan vi kode hot faktorene inn i dimensjonsvektoren .

En-hot-kodingsfunksjonen er definert slik at oppføringen av is

Vektoren er sammenkoplingen av alle de ovennevnte vektorene for alle . Således er . For å oppnå en fullstendig generell interaksjons ANOVA må vi også sammenkoble alle ytterligere interaksjonstermene i vektoren og deretter legge til et avskjæringsuttrykk. La den vektoren være .

Med denne notasjonen på plass, har vi nå den eksakte forbindelsen med lineær regresjon. Vi regresserer ganske enkelt responsen mot vektoren . Det er imidlertid en bekymring for identifiserbarhet . For å overvinne slike problemer antar vi at summen av parametrene i hvert sett med interaksjoner er lik null. Herfra kan man bruke F -statistikk eller andre metoder for å bestemme relevansen til de enkelte faktorene.

Eksempel

Vi kan vurdere 2-veis interaksjonseksempel hvor vi antar at den første faktoren har 2 nivåer og den andre faktoren har 3 nivåer.

Definer om og hvis , dvs. er den en-hot-kodingen av den første faktoren og er den en-hot-kodingen av den andre faktoren.

Med det,

der det siste begrepet er et avskjæringsbegrep. Anta det for et mer konkret eksempel
Deretter,

Se også

Fotnoter

Merknader

Referanser

Videre lesning

Eksterne linker