Kausal slutning - Causal inference

Kausal slutning er prosessen med å bestemme den uavhengige, faktiske effekten av et bestemt fenomen som er en komponent i et større system. Hovedforskjellen mellom årsaksslutning og slutning av assosiasjon er at årsaksslutning analyserer responsen til en effektvariabel når en årsak til effektvariabelen endres. Vitenskapen om hvorfor ting skjer kalles etiologi . Årsaksslutning sies å gi bevis på årsakssammenheng teoretisert av årsakssak .

Årsaksslutning studeres mye på tvers av alle vitenskaper. Flere innovasjoner innen utvikling og implementering av metodikk designet for å bestemme årsakssammenheng har spredt seg de siste tiårene. Årsaksslutning er fortsatt vanskelig der eksperimentering er vanskelig eller umulig, noe som er vanlig i de fleste vitenskaper.

Tilnærmingene til årsaksslutning er stort sett anvendelige på tvers av alle typer vitenskapelige disipliner, og mange metoder for årsaksslutning som ble designet for visse disipliner har funnet bruk i andre disipliner. Denne artikkelen beskriver den grunnleggende prosessen bak årsaksslutning og beskriver noen av de mer konvensjonelle testene som brukes på tvers av forskjellige disipliner; Dette bør imidlertid ikke forveksles som et forslag om at disse metodene bare gjelder for disse fagene, bare at de er de mest brukte i denne disiplinen.

Årsaksslutning er vanskelig å utføre, og det er betydelig debatt blant forskere om riktig måte å fastslå årsakssammenheng. Til tross for andre nyvinninger, er det fortsatt bekymringer for feil tildeling av forskere om korrelative resultater som årsakssammenheng, om bruk av feil metodikk fra forskere og av bevisst manipulering av forskere av analytiske resultater for å få statistisk signifikante estimater. Spesiell bekymring reises ved bruk av regresjonsmodeller, spesielt lineære regresjonsmodeller.

Definisjon

Å anta årsaken til noe har blitt beskrevet som:

"... resonnere [ing] til den konklusjonen at noe er, eller sannsynligvis vil være, årsaken til noe annet".
"Identifisering av årsaken eller årsakene til et fenomen, ved å etablere kovariasjon av årsak og virkning, et tidsordnet forhold til årsaken som går foran virkningen, og eliminering av sannsynlige alternative årsaker."

Metodikk

Generell

Årsaksslutning utføres via studiet av systemer der målet om en variabel mistenkes å påvirke målingen til en annen. Årsaksslutning utføres med hensyn til den vitenskapelige metoden . Det første trinnet med årsaksslutning er å formulere en forfalskbar nullhypotese , som deretter testes med statistiske metoder . Frequentist statistisk inferens er bruk av statistiske metoder for å bestemme sannsynligheten for at dataene forekommer under nullhypotesen ved en tilfeldighet: Bayesiansk slutning brukes til å bestemme effekten av en uavhengig variabel. Statistisk slutning generelt brukes for å bestemme forskjellen mellom variasjoner i de originale dataene som er tilfeldig variasjon eller effekten av en godt spesifisert årsaksmekanisme. Spesielt betyr korrelasjon ikke årsakssammenheng , så studien av årsakssammenheng er like opptatt av studiet av potensielle årsaksmekanismer som det er med variasjon blant dataene. En ofte etterspurt standard for årsaksslutning er et eksperiment der behandling er tilfeldig tildelt, men alle andre forvirrende faktorer holdes konstant. De fleste forsøkene på årsakssammenheng er i forsøket på å replikere eksperimentelle forhold.

Epidemiologiske studier bruker forskjellige epidemiologiske metoder for å samle og måle bevis på risikofaktorer og effekt og forskjellige måter å måle sammenhengen mellom de to. Resultatene av en gjennomgang av metoder for årsaksslutning i 2020 fant at bruk av eksisterende litteratur for kliniske opplæringsprogrammer kan være utfordrende. Dette er fordi publiserte artikler ofte antar en avansert teknisk bakgrunn, de kan være skrevet fra flere statistiske, epidemiologiske, informatikk- eller filosofiske perspektiver, metodiske tilnærminger fortsetter å ekspandere raskt, og mange aspekter av årsakssammenheng får begrenset dekning.

Vanlige rammer for årsaksslutning er strukturell ligningsmodellering og Rubin årsaksmodell .

Eksperimentell

Eksperimentell verifisering av årsaksmekanismer er mulig ved bruk av eksperimentelle metoder. Hovedmotivasjonen bak et eksperiment er å holde andre eksperimentelle variabler konstant mens du målrettet manipulerer variabelen av interesse. Hvis eksperimentet gir statistisk signifikante effekter som et resultat av at bare behandlingsvariabelen er manipulert, er det grunn til å tro at en årsakseffekt kan tildeles behandlingsvariabelen, forutsatt at andre standarder for eksperimentell design er oppfylt.

Kvasi-eksperimentell

Kvasi-eksperimentell verifisering av årsaksmekanismer utføres når tradisjonelle eksperimentelle metoder ikke er tilgjengelige. Dette kan være et resultat av uoverkommelige kostnader ved å gjennomføre et eksperiment, eller den iboende umuligheten av å gjennomføre et eksperiment, spesielt eksperimenter som er opptatt av store systemer som økonomier i valgsystemer, eller for behandlinger som anses å utgjøre en fare for brønnen -tilværelse av testpersoner. Kvasi-eksperimenter kan også forekomme der informasjon holdes tilbake av juridiske årsaker.

Tilnærminger innen epidemiologi

Epidemiologi studerer mønstre for helse og sykdom i definerte populasjoner av levende vesener for å utlede årsaker og virkninger. En sammenheng mellom en eksponering for en antatt risikofaktor og en sykdom kan tyde på, men er ikke ekvivalent med årsakssammenheng fordi korrelasjon ikke innebærer årsakssammenheng . Historisk sett har Kochs postulater blitt brukt siden 1800 -tallet for å avgjøre om en mikroorganisme var årsaken til en sykdom. På 1900 -tallet har Bradford Hill -kriteriene , beskrevet i 1965, blitt brukt til å vurdere årsakssammenheng mellom variabler utenfor mikrobiologi, selv om disse kriteriene ikke er eksklusive måter å bestemme årsakssammenheng.

I molekylær epidemiologi er fenomenene som studeres på molekylærbiologisk nivå, inkludert genetikk, hvor biomarkører er bevis på årsak eller virkninger.

En nylig trend er å identifisere bevis for påvirkning av eksponeringen på molekylær patologi i sykt vev eller celler i det nye tverrfaglige feltet molekylær patologisk epidemiologi (MPE). Å koble eksponeringen til molekylære patologiske signaturer av sykdommen kan bidra til å vurdere årsakssammenheng. Med tanke på den iboende karakteren av heterogeniteten til en gitt sykdom, er det unike sykdomsprinsippet, sykdomsfenotyping og undertyping trender innen biomedisinsk og folkehelsefag , eksemplifisert som personlig medisin og presisjonsmedisin .

Tilnærminger innen informatikk

Bestemmelse av årsak og virkning fra felles observasjonsdata for to tidsuavhengige variabler, si X og Y, har blitt taklet ved hjelp av asymmetri mellom bevis for noen modell i retningene, X → Y og Y → X. De primære tilnærmingene er basert på algoritme informasjonsteori modeller og støymodeller.

Støymodeller

Inkluder et uavhengig støybegrep i modellen for å sammenligne bevisene for de to retningene.

Her er noen av støymodellene for hypotesen Y → X med støyen E:

Additiv støy: ${\ displaystyle Y = F (X)+E}$
Lineær støy: ${\ displaystyle Y = pX+qE}$
Post-ikke-lineær: ${\ displaystyle Y = G (F (X)+E)}$
Heteroskedastisk støy: ${\ displaystyle Y = F (X)+EG (X)}$
Funksjonell støy: ${\ displaystyle Y = F (X, E)}$

Den vanlige antagelsen i disse modellene er:

Det er ingen andre årsaker til Y.
X og E har ingen vanlige årsaker.
Årsaksfordelingen er uavhengig av årsaksmekanismer.

På et intuitivt nivå er tanken at faktoriseringen av leddfordelingen P (Årsak, Effekt) til P (Årsak)*P (Effekt | Årsak) vanligvis gir modeller med lavere total kompleksitet enn faktoriseringen til P (Effekt)*P (Årsak | Virkning). Selv om begrepet "kompleksitet" er intuitivt tiltalende, er det ikke åpenbart hvordan det skal defineres presist. En annen metodefamilie prøver å oppdage kausale "fotavtrykk" fra store mengder merkede data, og tillate forutsigelse av mer fleksible årsakssammenhenger.

Tilnærminger innen samfunnsvitenskap

Samfunnsvitenskap

Samfunnsvitenskapene generelt har beveget seg stadig mer mot å inkludere kvantitative rammer for vurdering av årsakssammenheng. Mye av dette har blitt beskrevet som et middel for å gi samfunnsvitenskapelig metodikk større stringens. Statsvitenskap ble betydelig påvirket av publiseringen av Designing Social Inquiry , av Gary King, Robert Keohane og Sidney Verba, i 1994. King, Keohane og Verba anbefaler at forskere bruker både kvantitative og kvalitative metoder og bruker språket for statistisk slutning til være tydeligere om sine interessefag og analyseenheter. Talsmenn for kvantitative metoder har også i økende grad tatt i bruk potensielle utfallsrammer , utviklet av Donald Rubin , som en standard for å slutte årsakssammenheng.

Selv om mye av vekten fortsatt ligger på statistisk slutning i rammeverket for potensielle utfall, har samfunnsvitenskapelige metodologer utviklet nye verktøy for å utføre årsakssammenheng med både kvalitative og kvantitative metoder, noen ganger kalt en "blandede metoder" -tilnærming. Talsmenn for forskjellige metodiske tilnærminger argumenterer for at forskjellige metodikker er bedre egnet for forskjellige emner. Sosiolog Herbert Smith og statsvitere James Mahoney og Gary Goertz har sitert observasjonen av Paul Holland, statistiker og forfatter av artikkelen "Statistics and Causal Inference" fra 1986, at statistisk slutning er mest passende for å vurdere "effekter av årsaker" i stedet for "årsakene til effekter". Kvalitative metodologer har hevdet at formaliserte årsaksmodeller, inkludert prosesssporing og uklar settteori, gir muligheter til å utlede årsakssammenheng gjennom identifisering av kritiske faktorer i casestudier eller gjennom en sammenligningsprosess mellom flere casestudier. Disse metodene er også verdifulle for emner der et begrenset antall potensielle observasjoner eller tilstedeværelsen av forvirrende variabler ville begrense anvendelsen av statistisk slutning.

Økonomi og statsvitenskap

I de økonomiske vitenskapene og statsvitenskapene er årsaksslutning ofte vanskelig, på grunn av den virkelige verdens kompleksitet av økonomiske og politiske realiteter og manglende evne til å gjenskape mange store fenomener innenfor kontrollerte eksperimenter. Årsaksslutning i de økonomiske og politiske vitenskap fortsetter å se forbedringer i metodikk og rigoritet, på grunn av det økte teknologinivået som er tilgjengelig for samfunnsvitere, økningen i antall samfunnsvitere og forskning og forbedringer av årsaksslutningsmetodologier gjennom samfunnsvitenskap.

Til tross for vanskelighetene ved å fastslå årsakssammenheng i økonomiske systemer, finnes det flere metoder som er mye brukt på alle feltene.

Teoretiske metoder

Økonomer og statsvitere kan bruke teori (ofte studert i teoridrevet økonometri) for å estimere størrelsen på antatt årsakssammenhenger i tilfeller der de tror det finnes et årsakssammenheng. Teoretikere kan forutsette en mekanisme som antas å være årsakssammenheng og beskrive effektene ved hjelp av dataanalyse for å rettferdiggjøre deres foreslåtte teori. For eksempel kan teoretikere bruke logikk til å konstruere en modell, for eksempel teoretisere at regn forårsaker svingninger i økonomisk produktivitet, men at det motsatte ikke er sant. Imidlertid har bruk av rent teoretiske påstander som ikke gir noen prediktiv innsikt blitt kalt "før-vitenskapelig" fordi det ikke er noen evne til å forutsi virkningen av de antatte årsaksegenskapene. Det er verdt å gjenta at regresjonsanalyse i samfunnsvitenskapen ikke innebærer årsakssammenheng, ettersom mange fenomener kan korrelere på kort sikt eller i bestemte datasett, men ikke vise noen sammenheng i andre tidsperioder eller andre datasett. Således er tilskrivningen av årsakssammenheng til korrelative egenskaper for tidlig fraværende en veldefinert og begrunnet årsaksmekanisme.

Instrumentelle variabler

Den instrumentelle variabler (IV) teknikk er en fremgangsmåte for bestemmelse av kausalitet som innebærer eliminering av en korrelasjon mellom en av en modellens forklaringsvariable og modellens feilleddet. Troen her er at hvis en modells feiluttrykk går hånd i hånd med variasjonen til en annen variabel, at modellens feilbegrep sannsynligvis er en effekt av variasjon i den forklarende variabelen. Elimineringen av denne korrelasjonen gjennom introduksjonen av en ny instrumentell variabel reduserer dermed feilen i modellen som helhet.

Modellspesifikasjon

Modellspesifikasjon er handlingen om å velge en modell som skal brukes i dataanalyse. Samfunnsvitere (og faktisk alle forskere) må bestemme riktig modell å bruke fordi forskjellige modeller er gode til å estimere forskjellige forhold.

Modellspesifikasjon kan være nyttig for å bestemme årsakssammenheng som er langsom til å dukke opp, der effekten av en handling i en periode bare merkes i en senere periode. Det er verdt å huske at korrelasjoner bare måler om to variabler har lik variasjon, ikke om de påvirker hverandre i en bestemt retning; dermed kan man ikke bestemme retningen til et årsakssammenheng bare basert på korrelasjoner. Fordi årsakshandlinger antas å gå foran årsakseffekter, kan samfunnsvitere bruke en modell som ser spesielt etter effekten av en variabel på en annen over en periode. Dette fører til bruk av variablene som representerer fenomener som skjedde tidligere som behandlingseffekter, hvor økonometriske tester brukes til å se etter senere endringer i data som tilskrives effekten av slike behandlingseffekter, der en meningsfull forskjell i resultater etter en meningsfull forskjell i behandlingseffekter kan indikere årsakssammenheng mellom behandlingseffektene og de målte effektene (f.eks. Granger-kausalitetstester). Slike studier er eksempler på tidsserieanalyser .

Følsomhetsanalyse

Andre variabler, eller regressorer i regresjonsanalyse, er enten inkludert eller ikke inkludert på tvers av ulike implementeringer av den samme modellen for å sikre at forskjellige variasjonskilder kan studeres mer atskilt fra hverandre. Dette er en form for sensitivitetsanalyse: det er studiet av hvor sensitiv en implementering av en modell er for tillegg av en eller flere nye variabler.

En viktig motiverende bekymring for bruk av sensitivitetsanalyse er jakten på å oppdage forvirrende variabler . Forvirrende variabler er variabler som har stor innvirkning på resultatene av en statistisk test, men som ikke er variabelen som årsakssammenheng prøver å studere. Forvirrende variabler kan føre til at en regressor ser ut til å være signifikant i en implementering, men ikke i en annen.

Flerkollinearitet

En annen grunn til bruk av sensitivitetsanalyse er å oppdage multikollinearitet . Multikollinearitet er fenomenet der korrelasjonen mellom to variabler er veldig høy. Et høyt korrelasjonsnivå mellom to variabler kan dramatisk påvirke utfallet av en statistisk analyse, der små variasjoner i sterkt korrelerte data kan snu effekten av en variabel fra en positiv retning til en negativ retning, eller omvendt. Dette er en iboende egenskap for variansstesting. Å bestemme multikollinearitet er nyttig i sensitivitetsanalyse fordi eliminering av sterkt korrelerte variabler i forskjellige modellimplementeringer kan forhindre de dramatiske endringene i resultatene som følger av inkluderingen av slike variabler.

Imidlertid er det grenser for sensitivitetsanalyses evne til å forhindre de skadelige effektene av multikollinearitet, spesielt i samfunnsvitenskapene, der systemer er komplekse. Fordi det er teoretisk umulig å inkludere eller til og med måle alle de forvirrende faktorene i et tilstrekkelig komplekst system, er økonometriske modeller utsatt for den vanlige årsaken, der årsakseffekter feil tilskrives feil variabel fordi den riktige variabelen ikke ble fanget opp i de originale dataene. Dette er et eksempel på manglende redegjørelse for en lurende variabel .

Designbasert økonometri

Nylig har forbedret metodikk innen designbasert økonometri populært bruken av både naturlige eksperimenter og kvasi-eksperimentelle forskningsdesigner for å studere årsaksmekanismene som slike eksperimenter antas å identifisere.

Feilbehandling ved årsaksslutning

Til tross for fremskritt i utviklingen av metoder som brukes for å bestemme årsakssammenheng, er det betydelige svakheter ved å bestemme årsakssammenheng. Disse svakhetene kan tilskrives både den iboende vanskeligheten med å bestemme årsakssammenhenger i komplekse systemer, men også tilfeller av vitenskapelig feilbehandling.

Atskilt fra vanskelighetene med årsaksslutning, eksisterer oppfatningen om at et stort antall forskere i samfunnsvitenskapene driver med ikke-vitenskapelig metodikk blant noen store grupper samfunnsvitere. Kritikk av økonomer og samfunnsvitere som overlevering av beskrivende studier som årsaksstudier er utbredt innenfor disse feltene.

Vitenskapelig feilbehandling og feil metodikk

I vitenskapene, spesielt innen samfunnsvitenskap, er det bekymring blant forskere om at vitenskapelig feilbehandling er utbredt. Siden vitenskapelig studie er et bredt tema, er det teoretisk ubegrensede måter å få en årsaksslutning undergravd uten en forskers feil. Likevel er det fortsatt bekymringer blant forskere om at et stort antall forskere ikke utfører grunnleggende oppgaver eller praktiserer tilstrekkelig forskjellige metoder for årsaksslutning.

Et fremtredende eksempel på vanlig ikke-årsaksmetodikk er den feilaktige antagelsen om korrelative egenskaper som årsaksegenskaper. Det er ingen iboende årsakssammenheng i fenomener som korrelerer. Regresjonsmodeller er designet for å måle varians i data i forhold til en teoretisk modell: Det er ingenting som tyder på at data som presenterer høye nivåer av kovarians har noen meningsfull sammenheng (fraværende en foreslått årsaksmekanisme med prediktive egenskaper eller en tilfeldig tildeling av behandling). Bruken av feil metodikk har blitt hevdet å være utbredt, med vanlige eksempler på slik feilbehandling er overforbruk av korrelative modeller, spesielt overforbruk av regresjonsmodeller og spesielt lineære regresjonsmodeller. Forutsetningen om at to korrelerte fenomener er iboende relatert, er en logisk feil som kalles falsk korrelasjon . Noen samfunnsvitere hevder at utbredt bruk av metodikk som tilskriver årsakssammenheng til falske korrelasjoner har vært skadelig for samfunnsvitenskapens integritet, selv om forbedringer som skyldes bedre metoder er blitt notert.

En potensiell effekt av vitenskapelige studier som feilaktig sammenhenger korrelasjon med årsakssammenheng er en økning i antall vitenskapelige funn hvis resultater ikke er reproduserbare av tredjeparter. Slik ikke-reproduserbarhet er en logisk konsekvens av funn som viser at korrelasjon bare midlertidig blir overgeneralisert til mekanismer som ikke har noe iboende forhold, der nye data ikke inneholder de tidligere, særegne korrelasjonene mellom de opprinnelige dataene. Debatter om effekten av feilbehandling kontra effekten av de iboende vanskelighetene med å lete etter årsakssammenheng pågår. Kritikere av allment praktiserte metoder argumenterer for at forskere har engasjert statistisk manipulasjon for å publisere artikler som angivelig viser bevis på årsakssammenheng, men faktisk er eksempler på at falske korrelasjoner blir spilt som bevis på årsakssammenheng: slike bestrebelser kan bli referert til som P -hacking . For å forhindre dette har noen tatt til orde for at forskere forhåndsregistrerer forskningsdesignene sine før de gjennomfører studiene, slik at de ikke utilsiktet legger vekt på et ikke -reproduserbart funn som ikke var det første undersøkelsesemnet, men ble funnet å være statistisk signifikant under dataanalyse.

Se også

Referanser

Bibliografi

Hernán, MA ; Robins, JM (21. januar 2020). Årsaksslutning: Hva om . Barnsley: Boca Raton: Chapman & Hall/CRC.

Languages

In other projects