Reproduserbarhet - Reproducibility

Reproduserbarhet er et hovedprinsipp som ligger til grunn for den vitenskapelige metoden . For at funnene i en studie skal være reproduserbare betyr at resultater oppnådd ved et eksperiment eller en observasjonsstudie eller i en statistisk analyse av et datasett bør oppnås igjen med høy grad av pålitelighet når studien replikeres. Det finnes forskjellige typer replikasjon, men vanligvis involverer replikeringsstudier forskjellige forskere som bruker samme metodikk. Først etter en eller flere slike vellykkede replikasjoner skal et resultat anerkjennes som vitenskapelig kunnskap.

Med et smalere omfang har reproduserbarhet blitt introdusert i beregningsvitenskap : Alle resultater skal dokumenteres ved å gjøre alle data og koder tilgjengelig på en slik måte at beregningene kan utføres igjen med identiske resultater.

Begrepene replikerbarhet og repeterbarhet brukes i sammenheng med reproduserbarhet, se nedenfor.

I de siste tiårene har det vært en økende bekymring for at mange publiserte vitenskapelige resultater ikke klarer testen av reproduserbarhet, noe som fremkaller en reproduserbarhet eller replikerbarhetskrise .

Historie

Boyles luftpumpe var, på 1600 -tallet, et komplisert og dyrt vitenskapelig apparat, noe som gjorde reproduserbarhet av resultater vanskelig

Den første som understreket viktigheten av reproduserbarhet i vitenskapen var den irske kjemikeren Robert Boyle , i England på 1600 -tallet. Boyles luftpumpe ble designet for å generere og studere vakuum , som den gang var et veldig kontroversielt konsept. Faktisk nektet fremstående filosofer som René Descartes og Thomas Hobbes selve muligheten for vakuumeksistens. Vitenskapshistorikere Steven Shapin og Simon Schaffer , i boken Leviathan and the Air-Pump fra 1985 , beskriver debatten mellom Boyle og Hobbes, tilsynelatende om vakuumets natur, som et grunnleggende argument om hvordan nyttig kunnskap bør skaffes. Boyle, en pioner innen den eksperimentelle metoden , hevdet at grunnlaget for kunnskap skulle bestå av eksperimentelt produserte fakta, som kan gjøres troverdige for et vitenskapelig samfunn ved deres reproduserbarhet. Ved å gjenta det samme eksperimentet igjen og igjen, argumenterte Boyle, vil sannheten fremstå.

Luftpumpen, som på 1600 -tallet var et komplisert og kostbart apparat å bygge, førte også til en av de første dokumenterte tvister om reproduserbarheten til et bestemt vitenskapelig fenomen. På 1660 -tallet bygde den nederlandske forskeren Christiaan Huygens sin egen luftpumpe i Amsterdam , den første utenfor den direkte ledelsen av Boyle og hans assistent på den tiden Robert Hooke . Huygens rapporterte om en effekt han kalte "anomal suspensjon", der det så ut til at det svømte vann i en glassburk inne i luftpumpen hans (faktisk suspendert over en luftboble), men Boyle og Hooke klarte ikke å gjenskape dette fenomenet i sine egne pumper. Som Shapin og Schaffer beskriver, "ble det klart at med mindre fenomenet kunne produseres i England med en av de to pumpene tilgjengelig, ville ingen i England godta påstandene Huygens hadde kommet med, eller hans kompetanse i å arbeide med pumpen". Huygens ble endelig invitert til England i 1663, og under personlig veiledning var Hooke i stand til å gjenskape unormal suspensjon av vann. Etter dette ble Huygens valgt til utenlandsk medlem av Royal Society . Imidlertid bemerker Shapin og Schaffer også at "replikeringens gjennomføring var avhengig av betingede dømmende handlinger. Man kan ikke skrive ned en formel som sier når replikering var eller ikke ble oppnådd ”.

Den filosofen vitenskap Karl Popper nevnt kort i sin berømte 1934 boken The Logic of Scientific Discovery som “ikke-reproduserbare enkeltforekomster er uten betydning for vitenskapen”. Den statistiker Ronald Fisher skrev i sin 1935 boken The Design av eksperimenter , som setter grunnlaget for den moderne vitenskapelig praksis for hypotesetesting og statistisk signifikans , at “vi kan si at et fenomen er eksperimentelt påvist når vi vet hvordan de skal gjennomføre et eksperiment som vil sjelden unnlate å gi oss statistisk signifikante resultater ”. Slike påstander uttrykker et vanlig dogme i moderne vitenskap om at reproduserbarhet er en nødvendig betingelse (men ikke nødvendigvis tilstrekkelig ) for å fastslå et vitenskapelig faktum, og i praksis for å etablere vitenskapelig autoritet på ethvert kunnskapsfelt. Som nevnt ovenfor av Shapin og Schaffer, er dette dogmet imidlertid ikke godt formulert kvantitativt, for eksempel statistisk signifikans, og derfor er det ikke eksplisitt fastslått hvor mange ganger et faktum må replikeres for å bli ansett som reproduserbart.

Replikerbarhet, repeterbarhet

Disse beslektede begrepene er stort sett eller løst synonyme med reproduserbarhet (for eksempel blant allmennheten), men de er ofte nyttig differensiert i mer presise betydninger, som følger.

To hovedtrinn skilles naturlig i forbindelse med reproduserbarhet av eksperimentelle eller observasjonsstudier: Når nye data er innhentet i forsøket på å oppnå det, brukes ofte begrepet replikerbarhet , og den nye studien er en replikasjon eller replikat av den opprinnelige. For å oppnå de samme resultatene når de analyserte datasettet til den opprinnelige studien igjen med de samme prosedyrene, bruker mange forfattere begrepet reproduserbarhet i en smal, teknisk forstand som kommer fra bruken i beregningsforskning. Repeterbarhet er relatert til gjentagelse av eksperimentet i samme studie av de samme forskerne. Reproduserbarhet i original forstand anerkjennes bare hvis en replikasjon utført av et uavhengig forskerteam er vellykket.

Dessverre vises begrepene reproduserbarhet og replikerbarhet noen ganger selv i vitenskapelig litteratur med omvendt betydning, når forskere ikke klarer å håndheve den mer presise bruken.

Målinger av reproduserbarhet og repeterbarhet

I kjemi brukes begrepene reproduserbarhet og repeterbarhet med en spesifikk kvantitativ betydning: I eksperimenter mellom laboratorier måles en konsentrasjon eller annen mengde av et kjemisk stoff gjentatte ganger i forskjellige laboratorier for å vurdere målingens variabilitet. Deretter kalles standardavviket for differansen mellom to verdier oppnådd i samme laboratorium repeterbarhet. Standardavviket for forskjellen mellom to målinger fra forskjellige laboratorier kalles reproduserbarhet . Disse tiltakene er relatert til det mer generelle konseptet med variansskomponenter i metrologi .

Reproduserbar forskning

Reproduserbar forskningsmetode

Begrepet reproduserbar forskning refererer til ideen om at vitenskapelige resultater skal dokumenteres på en slik måte at fradraget er fullt gjennomsiktig. Dette krever en detaljert beskrivelse av metodene som brukes for å skaffe dataene og gjøre hele datasettet og koden for å beregne resultatene lett tilgjengelige. Dette er den viktigste delen av åpen vitenskap .

For å gjøre ethvert forskningsprosjekt beregningsmessig reproduserbart, innebærer generell praksis at alle data og filer blir klart atskilt, merket og dokumentert. Alle operasjoner bør være fullt dokumentert og automatisert så mye som praktisk mulig, og unngå manuell inngrep der det er mulig. Arbeidsflyten bør utformes som en sekvens av mindre trinn som kombineres slik at mellomutgangene fra ett trinn direkte mates som innganger til neste trinn. Versjonskontroll bør brukes, ettersom den lar prosjektets historie enkelt gjennomgås og gjør det mulig å dokumentere og spore endringer på en transparent måte.

En grunnleggende arbeidsflyt for reproduserbar forskning innebærer datainnsamling, databehandling og dataanalyse. Datainnsamling består først og fremst av å skaffe primærdata fra en primærkilde, for eksempel undersøkelser, feltobservasjoner, eksperimentell forskning eller innhenting av data fra en eksisterende kilde. Databehandling innebærer behandling og gjennomgang av rådata samlet inn i den første fasen, og inkluderer dataregistrering, databehandling og filtrering og kan gjøres ved hjelp av programvare. Dataene bør digitaliseres og utarbeides for dataanalyse. Data kan analyseres ved bruk av programvare for å tolke eller visualisere statistikk eller data for å produsere de ønskede resultatene av forskningen, for eksempel kvantitative resultater, inkludert figurer og tabeller. Bruk av programvare og automatisering forbedrer reproduserbarheten av forskningsmetoder.

Det er systemer som muliggjør slik dokumentasjon, som R Markdown -språket eller Jupyter -notatboken . The Open Science Framework gir en plattform og nyttige verktøy for å støtte reproduserbar forskning.

Reproduserbar forskning i praksis

Psykologi har sett en fornyelse av interne bekymringer om uforklarlige resultater (se oppføringen på replikerbarhet krise for empiriske resultater på suksessraten av kjøringer). Forskere viste i en studie fra 2006 at av 141 forfattere til en publikasjon fra American Psychology Association (APA) empiriske artikler, svarte 103 (73%) ikke med dataene sine over en seks måneders periode. I en oppfølgingsstudie publisert i 2015 ble det funnet at 246 av 394 kontaktede forfattere av artikler i APA -tidsskrifter ikke delte dataene sine på forespørsel (62%). I et papir fra 2012 ble det foreslått at forskere skulle publisere data sammen med verkene sine, og et datasett ble utgitt ved siden av som en demonstrasjon. I 2017 antydet en artikkel publisert i Scientific Data at dette kanskje ikke er tilstrekkelig, og at hele analysekonteksten bør avsløres.

Innen økonomi har bekymringer blitt reist i forhold til troverdigheten og påliteligheten til publisert forskning. I andre vitenskaper regnes reproduserbarhet som grunnleggende og er ofte en forutsetning for at forskning skal publiseres, men innen økonomisk vitenskap blir det ikke sett på som en prioritet av største betydning. De fleste fagfellevurderte økonomiske tidsskrifter iverksetter ingen materielle tiltak for å sikre at publiserte resultater er reproduserbare, men de beste økonomitidsskriftene har flyttet til å vedta obligatoriske data- og kodearkiver. Det er lave eller ingen insentiver for forskere å dele dataene sine, og forfattere må bære kostnadene ved å samle data til gjenbrukbare skjemaer. Økonomisk forskning er ofte ikke reproduserbar ettersom bare en del av tidsskriftene har tilstrekkelige retningslinjer for avsløring for datasett og programkode, og selv om de gjør det, følger forfatterne ofte ikke dem eller de håndheves ikke av utgiveren. En studie av 599 artikler publisert i 37 fagfellevurderte tidsskrifter avslørte at mens noen tidsskrifter har oppnådd betydelige samsvarssatser, har en betydelig del bare delvis overholdt, eller ikke overholdt i det hele tatt. På et artikkelenivå var gjennomsnittlig samsvarssats 47,5%; og på et journalnivå var gjennomsnittlig samsvarssats 38%, fra 13%til 99%.

En studie fra 2018 publisert i tidsskriftet PLOS ONE fant at 14,4% av et utvalg av folkehelseforskere hadde delt sine data eller kode eller begge deler.

Det har vært initiativer for å forbedre rapportering og dermed reproduserbarhet i medisinsk litteratur i mange år, som begynner med CONSORT -initiativet, som nå er en del av et bredere initiativ, EQUATOR Network . Denne gruppen har nylig vendt oppmerksomheten mot hvordan bedre rapportering kan redusere avfall i forskning, spesielt biomedisinsk forskning.

Reproduserbar forskning er nøkkelen til nye funn i farmakologi . Et Fase I -funn vil bli fulgt av Fase II -reproduksjoner etter hvert som et stoff utvikler seg mot kommersiell produksjon. De siste tiårene har suksess i fase II falt fra 28% til 18%. En studie fra 2011 fant at 65% av medisinske studier var inkonsekvente når de ble testet på nytt, og bare 6% var fullstendig reproduserbare.

Bemerkelsesverdige ureproduserbare resultater

Hideyo Noguchi ble berømt for korrekt identifisering av bakteriemiddelet til syfilis , men hevdet også at han kunne dyrke dette middelet i laboratoriet sitt. Ingen andre har klart å produsere det siste resultatet.

I mars 1989 rapporterte kjemikere ved University of Utah Stanley Pons og Martin Fleischmann om produksjon av overskuddsvarme som bare kunne forklares med en kjernefysisk prosess (" kald fusjon "). Rapporten var forbløffende gitt enkelheten av utstyret: det var i det vesentlige en elektrolysecelle som inneholder tungt vann og en palladium katode som hurtig absorberes av deuterium som produseres under elektrolysen. Nyhetsmediene rapporterte mye om eksperimentene, og det var et forsideartikkel i mange aviser rundt om i verden (se vitenskap ved pressekonferanse ). I løpet av de neste månedene prøvde andre å replikere eksperimentet, men lyktes ikke.

Nikola Tesla hevdet allerede i 1899 å ha brukt en høyfrekvent strøm til å tenne gassfylte lamper fra mer enn 40 kilometer unna uten å bruke ledninger . I 1904 bygde han Wardenclyffe TowerLong Island for å demonstrere midler til å sende og motta strøm uten å koble ledninger. Anlegget var aldri fullt operativt og ble ikke fullført på grunn av økonomiske problemer, så det ble aldri utført noen forsøk på å gjengi hans første resultat.

Andre eksempler som motsatte bevis har tilbakevist det opprinnelige kravet:

Se også

Referanser

Videre lesning

Eksterne linker