Metaanalyse - Meta-analysis

Grafisk oppsummering av en metaanalyse av over 1000 tilfeller av diffust iboende pontingliom og andre pediatriske gliomer, der informasjon om de involverte mutasjonene samt generiske utfall ble destillert fra den underliggende primærlitteraturen .

En metaanalyse er en statistisk analyse som kombinerer resultatene fra flere vitenskapelige studier . Metaanalyser kan utføres når det er flere vitenskapelige studier som tar for seg det samme spørsmålet. Hver enkelt studie rapporterer målinger som forventes å ha en viss grad av feil. Målet er da å bruke tilnærminger fra statistikk til å utlede et samlet estimat nærmest den ukjente vanlige sannheten basert på hvordan denne feilen oppfattes.

Metaanalyser kan ikke bare gi et estimat av den ukjente vanlige sannheten, den har også kapasitet til å kontrastere resultater fra forskjellige studier og identifisere mønstre blant studieresultater, kilder til uenighet mellom disse resultatene eller andre interessante relasjoner som kan komme til syne med flere studier.

Ved utførelse av en metaanalyse må imidlertid en etterforsker ta valg som kan påvirke resultatene, inkludert å bestemme hvordan de skal søke etter studier, velge studier basert på et sett med objektive kriterier, håndtere ufullstendige data, analysere dataene og redegjøre for eller velge å ikke ta hensyn til publikasjonsskjevhet . Dømmekall fra en metaanalyse kan påvirke resultatene. For eksempel undersøkte Wanous og kolleger fire par metaanalyser om de fire temaene (a) jobbytelse og tilfredsstillelsesforhold, (b) realistiske forhåndsvisninger av jobber, (c) korrelater mellom rollekonflikter og tvetydighet, og (d) jobben tilfredshet og fraværsforhold, og illustrerte hvordan ulike dømmekall fra forskerne ga forskjellige resultater.

Metaanalyser er ofte, men ikke alltid, viktige komponenter i en systematisk gjennomgangsprosedyre . For eksempel kan en metaanalyse utføres på flere kliniske studier av medisinsk behandling, i et forsøk på å få en bedre forståelse av hvor godt behandlingen fungerer. Her er det praktisk å følge terminologien som brukes av Cochrane Collaboration , og bruke "meta-analyse" for å referere til statistiske metoder for å kombinere bevis, slik at andre aspekter ved ' forskningssyntese ' eller 'evidenssyntese', som å kombinere informasjon fra kvalitativ studier, for den mer generelle konteksten for systematiske oversikter. En metaanalyse er en sekundær kilde .

Historie

De historiske røttene til metaanalyse kan spores tilbake til studier av 1600-tallets astronomi, mens et papir publisert i 1904 av statistikeren Karl Pearson i British Medical Journal som samlet data fra flere studier av tyfusinokulering, blir sett på som første gang meta-analytisk tilnærming ble brukt for å samle resultatene av flere kliniske studier. Den første metaanalysen av alle konseptuelt identiske eksperimenter vedrørende et bestemt forskningsspørsmål, og utført av uavhengige forskere, har blitt identifisert som den boklengde publikasjonen Extrasensory Perception After Sixty Years fra 1940 , forfattet av Duke University-psykologene JG Pratt , JB Rhine , og medarbeidere. Dette omfattet en gjennomgang av 145 rapporter om ESP- eksperimenter publisert fra 1882 til 1939, og inkluderte et estimat av ikke-publiserte papirers innflytelse på den samlede effekten ( filskuffeproblemet ). Begrepet "metaanalyse" ble laget i 1976 av statistikeren Gene V. Glass , som uttalte "min store interesse er for tiden det vi har kalt for ... metaanalysen av forskning. Begrepet er litt storslått. , men det er presist og treffende ... Metaanalyse refererer til analyse av analyser " . Selv om dette førte til at han ble allment anerkjent som den moderne grunnleggeren av metoden, går metodikken bak det han kalte "metaanalyse" foran hans arbeid med flere tiår. Den statistiske teorien rundt metaanalyse ble sterkt avansert av arbeidet til Nambury S. Raju , Larry V.Hedges , Harris Cooper, Ingram Olkin , John E. Hunter , Jacob Cohen , Thomas C. Chalmers , Robert Rosenthal , Frank L. Schmidt , John E. Hunter og Douglas G. Bonett. I 1992 ble metaanalyse først brukt på økologiske spørsmål av Jessica Gurevitch som brukte metaanalyse for å studere konkurranse i feltforsøk.

Trinn i en metaanalyse

En metaanalyse foregår vanligvis med en systematisk gjennomgang, ettersom dette tillater identifisering og kritisk vurdering av alle relevante bevis (for dermed å begrense risikoen for skjevhet i summariske estimater). De generelle trinnene er da som følger:

  1. Formulering av forskningsspørsmålet, f.eks. Ved bruk av PICO -modellen (Population, Intervention, Comparison, Outcome).
  2. Søk etter litteratur
  3. Utvalg av studier ('inkorporeringskriterier')
    1. Basert på kvalitetskriterier, f.eks. Kravet om randomisering og blinding i en klinisk studie
    2. Utvalg av spesifikke studier om et godt spesifisert emne, f.eks. Behandling av brystkreft.
    3. Bestem om upubliserte studier er inkludert for å unngå publikasjonsskjevhet ( problem med filskuff )
  4. Bestem hvilke avhengige variabler eller oppsummeringsmål som er tillatt. Når du for eksempel vurderer en metaanalyse av publiserte (samlede) data:
    • Forskjeller (diskrete data)
    • Midler (kontinuerlige data)
    • Hedges ' g er et populært oppsummeringsmål for kontinuerlige data som er standardisert for å eliminere skalaforskjeller, men den inneholder en indeks for variasjon mellom grupper:
      1. som er behandlingsmiddel, er kontrollmiddel, den samlede variansen.
  5. Valg av en metaanalysemodell, f.eks. Fast effekt eller tilfeldige effekter metaanalyse.
  6. Undersøk kilder til heterogenitet mellom studier , f.eks. Ved bruk av undergruppeanalyse eller metaregresjon .

Formell veiledning for gjennomføring og rapportering av metaanalyser er gitt av Cochrane Handbook .

For retningslinjer for rapportering, se Preferred Reporting Items for Systematic Reviews and Meta-Analyzes (PRISMA).

Metoder og forutsetninger

Tilnærminger

Generelt kan to typer bevis skilles når du utfører en metaanalyse: individuelle deltakerdata (IPD) og aggregerte data (AD). De samlede dataene kan være direkte eller indirekte.

AD er mer tilgjengelig (f.eks. Fra litteraturen) og representerer vanligvis sammendragsestimater som oddsforhold eller relative risiko. Dette kan syntetiseres direkte på tvers av konseptuelt lignende studier ved hjelp av flere tilnærminger (se nedenfor). På den annen side måler indirekte aggregerte data effekten av to behandlinger som hver ble sammenlignet med en lignende kontrollgruppe i en metaanalyse. For eksempel, hvis behandling A og behandling B ble direkte sammenlignet med placebo i separate metaanalyser, kan vi bruke disse to samlede resultatene for å få et estimat av effektene av A vs B i en indirekte sammenligning som effekt A vs Placebo minus effekt B mot Placebo.

IPD -bevis representerer rådata som er samlet inn av studiesentrene. Dette skillet har økt behovet for forskjellige meta-analytiske metoder når bevis syntese er ønsket, og har ført til utvikling av en-trinns og to-trinns metoder. I en-trinns metoder modelleres IPD fra alle studier samtidig samtidig som de står for gruppering av deltakere i studier. To-trinns metoder beregner først sammendragsstatistikk for AD fra hver studie og beregner deretter samlet statistikk som et veid gjennomsnitt av studiestatistikken. Ved å redusere IPD til AD, kan to-trinns metoder også brukes når IPD er tilgjengelig; dette gjør dem til et tiltalende valg når de utfører en metaanalyse. Selv om det tradisjonelt antas at en-trinns og to-trinns metoder gir lignende resultater, har nyere studier vist at de noen ganger kan føre til forskjellige konklusjoner.

Statistiske modeller for aggregerte data

Direkte bevis: Modeller som bare inneholder studieeffekter

Faste effekter modell

Modellen med fast effekt gir et veid gjennomsnitt av en serie studieestimater. Den omvendte av estimatenes varians brukes ofte som studievekt, slik at større studier har en tendens til å bidra mer enn mindre studier til det veide gjennomsnittet. Følgelig, når studier i en metaanalyse er dominert av en veldig stor studie, blir resultatene fra mindre studier praktisk talt ignorert. Viktigst av alt, antar modellen med faste effekter at alle inkluderte studier undersøker den samme populasjonen, bruker den samme variabelen og resultatdefinisjoner, etc. Denne antagelsen er vanligvis urealistisk ettersom forskning ofte er utsatt for flere kilder til heterogenitet ; f.eks. behandlingseffekter kan variere avhengig av lokalitet, doseringsnivå, studieforhold, ...

Tilfeldig effekt modell

En vanlig modell som brukes til å syntetisere heterogen forskning er tilfeldige effektmodellen for metaanalyse. Dette er ganske enkelt det veide gjennomsnittet av effektstørrelsene til en gruppe studier. Vekten som brukes i denne prosessen med vektet gjennomsnitt med en meta-analyse av tilfeldige effekter oppnås i to trinn:

  1. Trinn 1: Omvendt variansvekting
  2. Trinn 2: Avvekting av denne inverse variansvekten ved å bruke en random effects variansskomponent (REVC) som ganske enkelt er avledet fra variabiliteten til effektstørrelsene til de underliggende studiene.

Dette betyr at jo større denne variasjonen i effektstørrelser (ellers kjent som heterogenitet ) er, desto større er ikke-vektingen, og dette kan nå et punkt når meta-analyseresultatet av tilfeldige effekter blir ganske enkelt den uvektede gjennomsnittlige effektstørrelsen på tvers av studiene. På den andre enden, når alle effektstørrelser er like (eller variabiliteten ikke overstiger samplingsfeil), brukes ingen REVC og meta-analyse av tilfeldige effekter som standard bare en meta-analyse med fast effekt (bare invers variansvekting).

Omfanget av denne reverseringen er utelukkende avhengig av to faktorer:

  1. Heterogenitet av presisjon
  2. Heterogenitet av effektstørrelse

Siden ingen av disse faktorene automatisk indikerer en defekt større studie eller mer pålitelige mindre studier, vil ikke fordelingen av vekter under denne modellen ha noe å si for hva disse studiene faktisk kan tilby. Det har faktisk blitt vist at omfordeling av vekter rett og slett er i en retning fra større til mindre studier etter hvert som heterogeniteten øker til alle studier til slutt har like stor vekt og det ikke er mulig å omfordele mer. Et annet problem med modellen for tilfeldige effekter er at de mest brukte konfidensintervallene generelt ikke beholder dekningssannsynligheten over det angitte nominelle nivået og dermed vesentlig undervurderer den statistiske feilen og potensielt er overmodige i sine konklusjoner. Flere rettelser har blitt foreslått, men debatten fortsetter. En ytterligere bekymring er at gjennomsnittlig behandlingseffekt noen ganger kan være enda mindre konservativ sammenlignet med modellen med fast effekt og derfor misvisende i praksis. En tolkningsreparasjon som har blitt foreslått er å lage et prediksjonsintervall rundt estimatet for tilfeldige effekter for å skildre omfanget av mulige effekter i praksis. Imidlertid er en antagelse bak beregningen av et slikt forutsigelsesintervall at forsøk betraktes som mer eller mindre homogene enheter, og at inkluderte pasientpopulasjoner og komparatorbehandlinger bør anses som utskiftbare, og dette er vanligvis uoppnåelig i praksis.

Den mest brukte metoden for å estimere mellom studier varians (REVC) er DerSimonian-Laird (DL) tilnærming. Det finnes flere avanserte iterative (og beregningsmessig dyre) teknikker for å beregne variansen mellom studier (for eksempel maksimal sannsynlighet, profil sannsynlighet og begrensede maksimal sannsynlighetsmetoder) og tilfeldige effektmodeller som bruker disse metodene kan kjøres i Stata med metaan -kommandoen. Metaan -kommandoen må skilles fra den klassiske metan -kommandoen (enkelt "a") i Stata som bruker DL -estimatoren. Disse avanserte metodene er også implementert i et gratis og brukervennlig Microsoft Excel-tillegg, MetaEasy. Imidlertid viste en sammenligning mellom disse avanserte metodene og DL -metoden for å beregne variansen mellom studier at det er lite å hente, og DL er ganske tilstrekkelig i de fleste scenarier.

Imidlertid inkluderer de fleste metaanalyser mellom 2 og 4 studier, og en slik prøve er oftere enn ikke utilstrekkelig til å estimere heterogenitet nøyaktig . Dermed ser det ut til at det i små metaanalyser oppnås et feil null mellom estimat for varians i studiet, noe som fører til en falsk homogenitetsantagelse. Totalt sett ser det ut til at heterogenitet konsekvent blir undervurdert i metaanalyser og sensitivitetsanalyser der høye heterogenitetsnivåer antas kan være informative. Disse tilfeldige effektmodellene og programvarepakkene nevnt ovenfor er knyttet til studieaggregerte metaanalyser, og forskere som ønsker å gjennomføre individuelle pasientdata (IPD) metaanalyser, må vurdere modelleringsmetoder for blandede effekter.

IVhet modell

Doi & Barendregt som har samarbeidet med Khan, Thalib og Williams (fra University of Queensland, University of Southern Queensland og Kuwait University), har skapt et omvendt varians quasi sannsynlighetsbasert alternativ (IVhet) til tilfeldige effekter (RE) modellen som detaljer er tilgjengelig online. Dette ble innlemmet i MetaXL versjon 2.0, et gratis Microsoft Excel-tillegg for metaanalyse produsert av Epigear International Pty Ltd, og gjort tilgjengelig 5. april 2014. Forfatterne uttaler at en klar fordel med denne modellen er at den løser de to hovedproblemene i modellen for tilfeldige effekter. Den første fordelen med IVhet -modellen er at dekningen forblir på det nominelle (vanligvis 95%) nivået for konfidensintervallet i motsetning til modellen for tilfeldige effekter som faller i dekning med økende heterogenitet. Den andre fordelen er at IVhet -modellen opprettholder de inverse variansvektene til individuelle studier, i motsetning til RE -modellen som gir små studier større vekt (og derfor større studier mindre) med økende heterogenitet. Når heterogeniteten blir stor, blir de individuelle studievektene under RE -modellen like, og dermed returnerer RE -modellen et aritmetisk gjennomsnitt i stedet for et veid gjennomsnitt. Denne bivirkningen av RE-modellen forekommer ikke med IVhet-modellen som dermed skiller seg fra estimatet for RE-modellen i to perspektiver: Samlede estimater vil favorisere større forsøk (i motsetning til å straffe større forsøk i RE-modellen) og vil ha tillit intervall som forblir innenfor den nominelle dekningen under usikkerhet (heterogenitet). Doi & Barendregt antyder at mens RE -modellen gir en alternativ metode for å samle studiedata, viser deres simuleringsresultater at bruk av en mer spesifisert sannsynlighetsmodell med uholdbare forutsetninger, som med RE -modellen, ikke nødvendigvis gir bedre resultater. Den sistnevnte studien rapporterer også at IVhet -modellen løser problemene knyttet til undervurdering av den statistiske feilen, dårlig dekning av konfidensintervallet og økt MSE sett med modellen for tilfeldige effekter, og forfatterne konkluderer med at forskere fremover bør slutte å bruke modellen for tilfeldige effekter i metaanalyse. Selv om dataene deres er overbevisende, er konsekvensene (når det gjelder størrelsen på falskt positive resultater i Cochrane -databasen) enorme, og derfor krever det å akseptere denne konklusjonen nøye uavhengig bekreftelse. Tilgjengeligheten av en gratis programvare (MetaXL) som kjører IVhet -modellen (og alle andre modeller for sammenligning) letter dette for forskningsmiljøet.

Direkte bevis: Modeller som inneholder tilleggsinformasjon

Kvalitetseffektmodell

Doi og Thalib introduserte opprinnelig modellen for kvalitetseffekter. De introduserte en ny tilnærming til justering for variabilitet mellom studier ved å inkorporere variansbidrag på grunn av en relevant komponent (kvalitet) i tillegg til variansbidrag på grunn av tilfeldige feil som brukes i alle meta-analysemodeller med faste effekter for å generere vekt for hver studie. Styrken ved metaanalyse av kvalitetseffekter er at den gjør at tilgjengelig metodisk bevis kan brukes over subjektive tilfeldige effekter, og derved bidrar til å lukke det skadelige gapet som har åpnet seg mellom metodikk og statistikk i klinisk forskning. For å gjøre dette en syntetisk skjevhet varians blir beregnet basert på kvalitetsinformasjonen for å justere invers avviks vekter og kvaliteten justert vekten av den i th studien er innført. Disse justerte vektene blir deretter brukt i metaanalyse. Med andre ord, hvis studie i er av god kvalitet og andre studier er av dårlig kvalitet, blir en andel av deres kvalitetsjusterte vekter matematisk omfordelt til studie i, noe som gir den større vekt mot den samlede effektstørrelsen. Etter hvert som studier blir stadig mer like når det gjelder kvalitet, blir omfordeling gradvis mindre og opphører når alle studier er av samme kvalitet (når det gjelder like kvalitet, er standard kvalitetseffektmodellen IVhet-modellen-se forrige avsnitt). En nylig evaluering av kvalitetseffektmodellen (med noen oppdateringer) viser at til tross for subjektiviteten til kvalitetsvurderingen, er ytelsen (MSE og sann varians under simulering) bedre enn den som kan oppnås med modellen for tilfeldige effekter. Denne modellen erstatter dermed de uholdbare tolkningene som florerer i litteraturen, og en programvare er tilgjengelig for å utforske denne metoden videre.

Indirekte bevis: Nettverksmetaanalysemetoder

En nettverksmetaanalyse ser på indirekte sammenligninger. På bildet har A blitt analysert i forhold til C og C har blitt analysert i forhold til b. Imidlertid er forholdet mellom A og B bare kjent indirekte, og en nettverksmetaanalyse ser på slike indirekte bevis på forskjeller mellom metoder og inngrep ved bruk av statistisk metode.

Indirekte meta-analysemetoder (også kalt nettverksmetaanalyser, spesielt når flere behandlinger vurderes samtidig) bruker vanligvis to hovedmetoder. For det første er Bucher-metoden som er en enkelt eller gjentatt sammenligning av en lukket sløyfe med tre behandlinger slik at en av dem er felles for de to studiene og danner noden der løkken begynner og slutter. Derfor er det nødvendig med flere to-to-to sammenligninger (3-behandlingssløyfer) for å sammenligne flere behandlinger. Denne metodikken krever at forsøk med mer enn to armer bare har to armer som uavhengige parvise sammenligninger er påkrevd. Den alternative metodikken bruker kompleks statistisk modellering for å inkludere flere armforsøk og sammenligninger samtidig mellom alle konkurrerende behandlinger. Disse er utført ved bruk av bayesianske metoder, blandede lineære modeller og metaregresjonsmetoder.

Bayesiansk rammeverk

Spesifisering av en Bayesiansk metaanalysemodell innebærer å skrive en regissert acyklisk graf (DAG) -modell for generell Markov-kjede Monte Carlo (MCMC) programvare som WinBUGS. I tillegg må tidligere distribusjoner spesifiseres for en rekke parametere, og dataene må leveres i et bestemt format. Sammen utgjør DAG, priors og data en bayesisk hierarkisk modell. For å komplisere saken ytterligere, på grunn av MCMC -estimeringens art, må overdispergerte startverdier velges for en rekke uavhengige kjeder, slik at konvergens kan vurderes. For øyeblikket er det ingen programvare som automatisk genererer slike modeller, selv om det er noen verktøy for å hjelpe i prosessen. Kompleksiteten til den bayesianske tilnærmingen har begrenset bruk av denne metoden. Metodikk for automatisering av denne metoden har blitt foreslått, men krever at resultatdata på armnivå er tilgjengelig, og dette er vanligvis ikke tilgjengelig. Noen ganger blir det gjort store påstander om den iboende evnen til det bayesiske rammeverket til å håndtere metaanalyse av nettverk og større fleksibilitet. Imidlertid kan dette valget av implementering av rammeverk for slutning, bayesiansk eller hyppig, være mindre viktig enn andre valg angående modellering av effekter (se diskusjon om modeller ovenfor).

Hyppig multivariat rammeverk

På den annen side innebærer de hyppige multivariate metodene tilnærminger og forutsetninger som ikke er angitt eksplisitt eller verifisert når metodene brukes (se diskusjon om metaanalysemodeller ovenfor). For eksempel muliggjør mvmeta-pakken for Stata nettverksmetaanalyse i et frequentist-rammeverk. Men hvis det ikke er noen felles komparator i nettverket, må dette håndteres ved å øke datasettet med fiktive armer med høy varians, noe som ikke er veldig objektivt og krever en beslutning om hva som utgjør en tilstrekkelig høy varians. Det andre problemet er bruk av tilfeldige effekter -modellen i både dette frekvensrammeverket og det bayesiske rammeverket. Senn råder analytikere til å være forsiktige med å tolke "tilfeldige effekter" -analysen siden bare en tilfeldig effekt er tillatt, men en kan forestille seg mange. Senn fortsetter med å si at det er ganske naivt, selv i tilfelle der bare to behandlinger blir sammenlignet for å anta at tilfeldige effekter analyser står for all usikkerhet om måten effekter kan variere fra forsøk til prøve. Nyere metaanalysemodeller som de som er omtalt ovenfor, vil absolutt bidra til å lindre denne situasjonen og har blitt implementert i de neste rammene.

Generalisert parvis modellramme

En tilnærming som har blitt prøvd siden slutten av 1990-tallet er implementering av flere tre-behandlingers lukkede analyser. Dette har ikke vært populært fordi prosessen raskt blir overveldende ettersom nettverkskompleksiteten øker. Utviklingen i dette området ble deretter forlatt til fordel for de bayesiske og multivariate hyppige metodene som dukket opp som alternativer. Svært nylig har automatisering av trebehandlingsmetoden lukket sløyfe blitt utviklet for komplekse nettverk av noen forskere som en måte å gjøre denne metodikken tilgjengelig for det vanlige forskningsmiljøet. Dette forslaget begrenser hver prøve til to inngrep, men introduserer også en løsning for flere armforsøk: En annen fast kontrollnode kan velges i forskjellige kjøringer. Den benytter også robuste metaanalysemetoder slik at mange av problemene som fremheves ovenfor, unngås. Ytterligere forskning rundt dette rammeverket er nødvendig for å avgjøre om dette virkelig er bedre enn de bayesiske eller multivariate frekvensrammene. Forskere som er villige til å prøve dette, har tilgang til dette rammeverket gjennom en gratis programvare.

Skreddersydd metaanalyse

En annen form for tilleggsinformasjon kommer fra den tiltenkte innstillingen. Hvis målinnstillingen for å bruke metaanalyseresultatene er kjent, kan det være mulig å bruke data fra innstillingen for å skreddersy resultatene og dermed produsere en 'skreddersydd metaanalyse'., Dette har blitt brukt i meta-analyser for testnøyaktighet, der empirisk kunnskap om testens positive rate og forekomst har blitt brukt til å utlede en region i mottakerens driftskarakteristikk (ROC) -rom kjent som en 'gjeldende region'. Studier velges deretter for målinnstillingen basert på sammenligning med denne regionen og aggregeres for å produsere et sammendragsestimat som er skreddersydd for målinnstillingen.

Samler IPD og AD

Metaanalyse kan også brukes for å kombinere IPD og AD. Dette er praktisk når forskerne som utfører analysen har sine egne rådata mens de samler samlede eller oppsummerende data fra litteraturen. Den generaliserte integrasjonsmodellen (GIM) er en generalisering av metaanalysen. Det tillater at modellen som er montert på de individuelle deltakerdataene (IPD) er forskjellig fra de som ble brukt til å beregne aggregerte data (AD). GIM kan sees på som en modellkalibreringsmetode for å integrere informasjon med mer fleksibilitet.

Validering av metaanalyseresultater

Metaanalysestimatet representerer et veid gjennomsnitt på tvers av studier, og når det er heterogenitet kan dette resultere i at sammendragsestimatet ikke er representativt for individuelle studier. Kvalitativ vurdering av primærstudiene ved bruk av etablerte verktøy kan avdekke potensielle skjevheter, men kvantifiserer ikke den samlede effekten av disse skjevhetene på det sammendragsanslag. Selv om metaanalyseresultatet kan sammenlignes med en uavhengig potensiell primærstudie, er slik ekstern validering ofte upraktisk. Dette har ført til utvikling av metoder som utnytter en form for kryssvalidering , noen ganger referert til som intern-ekstern kryssvalidering (IOCV). Her utelates hver av de k inkluderte studiene igjen og sammenlignes med det sammendragsestimatet som er avledet fra å samle de gjenværende k-1-studiene. En generell valideringsstatistikk, Vn basert på IOCV, er utviklet for å måle den statistiske validiteten til metaanalyseresultater. For testnøyaktighet og prediksjon, spesielt når det er multivariate effekter, er det også blitt foreslått andre tilnærminger som søker å estimere prediksjonsfeilen.

Utfordringer

En metaanalyse av flere små studier forutsier ikke alltid resultatene av en enkelt stor studie. Noen har hevdet at en svakhet ved metoden er at skjevhetskilder ikke kontrolleres av metoden: en god metaanalyse kan ikke korrigere for dårlig design eller skjevhet i de opprinnelige studiene. Dette vil bety at bare metodisk forsvarlige studier bør inkluderes i en metaanalyse, en praksis som kalles 'beste evidenssyntese'. Andre metaanalytikere vil inkludere svakere studier og legge til en prediktorvariabel på studienivå som gjenspeiler studienes metodiske kvalitet for å undersøke effekten av studiekvalitet på effektstørrelsen. Andre har imidlertid argumentert med at en bedre tilnærming er å bevare informasjon om variansen i studieutvalget, kaste et så bredt nett som mulig, og at metodiske utvalgskriterier introduserer uønsket subjektivitet og beseirer formålet med tilnærmingen.

Publikasjonsskjevhet: problemet med filskuffen

Det forventes et traktplott uten problem med filskuffen. De største studiene konvergerer på spissen mens mindre studier viser mer eller mindre symmetrisk spredning ved basen
Det forventes et traktplott med filskuffen. De største studiene klynger fortsatt rundt spissen, men skjevheten mot å publisere negative studier har fått de mindre studiene som helhet til å ha et uberettiget gunstig resultat av hypotesen

En annen potensiell fallgruve er avhengigheten av den tilgjengelige mengden publiserte studier, som kan skape overdrevne resultater på grunn av forstyrrelser i publikasjonen , ettersom studier som viser negative resultater eller ubetydelige resultater, er mindre sannsynlig å bli publisert. For eksempel har farmasøytiske selskaper vært kjent for å skjule negative studier, og forskere kan ha oversett upubliserte studier som avhandlingsstudier eller konferanseabstrakt som ikke nådde publisering. Dette er ikke lett å løse, da man ikke kan vite hvor mange studier som har blitt urapportert.

Dette filskuffeproblemet (preget av at negative eller ikke-signifikante resultater blir gjemt i et skap), kan resultere i en partisk fordeling av effektstørrelser og dermed skape en alvorlig feil i grunnfrekvensen , der betydningen av de publiserte studiene blir overvurdert, som andre studier ble enten ikke sendt inn for publisering eller ble avvist. Dette bør vurderes alvorlig når du tolker resultatene av en metaanalyse.

Fordelingen av effektstørrelser kan visualiseres med et traktdiagram som (i sin vanligste versjon) er et spredningsdiagram av standardfeil kontra effektstørrelsen. Den bruker det faktum at de mindre studiene (altså større standardfeil) har mer spredning av effektens størrelse (er mindre presis) mens de større studiene har mindre spredning og danner tuppen av trakten. Hvis mange negative studier ikke ble publisert, gir de gjenværende positive studiene opphav til en traktplott der basen er skjev til den ene siden (asymmetri av traktplottet). Når det derimot ikke er noen forutsetninger for publisering, har effekten av de mindre studiene ingen grunn til å være skjev til den ene siden, og derfor resulterer et symmetrisk traktplott. Dette betyr også at hvis ingen publikasjonsskjevhet er tilstede, ville det ikke være noen sammenheng mellom standardfeil og effektstørrelse. En negativ eller positiv sammenheng mellom standardfeil og effektstørrelse vil antyde at mindre studier som bare fant effekter i en retning mer sannsynlig ble publisert og/eller sendt til publisering.

Bortsett fra det visuelle traktplottet, har det også blitt foreslått statistiske metoder for å påvise publikasjonsskjevhet. Disse er kontroversielle fordi de vanligvis har lav effekt for påvisning av skjevhet, men kan også gi falske positiver under noen omstendigheter. For eksempel kan små studieeffekter (partiske mindre studier), der metodologiske forskjeller mellom mindre og større studier eksisterer, forårsake asymmetri i effektstørrelser som ligner publikasjonsskjevhet. Imidlertid kan små studieeffekter være like problematiske for tolkningen av metaanalyser, og det er viktig at meta-analytiske forfattere undersøker potensielle skjevheter.

En tandemmetode for å analysere publikasjonsskjevhet har blitt foreslått for å redusere falske positive feilproblemer. Denne Tandem -metoden består av tre trinn. For det første beregner man Orwins feilsikre N, for å sjekke hvor mange studier som skal legges til for å redusere teststatistikken til en triviell størrelse. Hvis dette antallet studier er større enn antall studier som brukes i metaanalysen, er det et tegn på at det ikke er noen publikasjonsskjevhet, da man i så fall trenger mange studier for å redusere effektstørrelsen. For det andre kan man gjøre en Eggers regresjonstest, som tester om traktplottet er symmetrisk. Som nevnt tidligere: et symmetrisk traktplott er et tegn på at det ikke er noen publikasjonsskjevhet, ettersom effektstørrelsen og prøvestørrelsen ikke er avhengig. For det tredje kan man gjøre trim-and-fill-metoden, som tilregner data hvis traktplottet er asymmetrisk.

Problemet med publiseringsskjevhet er ikke trivielt, ettersom det antydes at 25% av metaanalysene i de psykologiske vitenskapene kan ha lidd av publikasjonsskjevhet. Imidlertid er lav effekt av eksisterende tester og problemer med det visuelle utseendet på traktplottet et problem, og estimater for publiseringsskjevhet kan forbli lavere enn det som virkelig eksisterer.

De fleste diskusjoner om publikasjonsskjevhet fokuserer på journalpraksis som favoriserer publisering av statistisk signifikante funn. Imidlertid kan tvilsomme forskningspraksis, for eksempel omarbeiding av statistiske modeller til signifikans er oppnådd, også favorisere statistisk signifikante funn til støtte for forskeres hypoteser.

Problemer knyttet til studier som ikke rapporterte ikke-statistisk signifikante effekter

Studier rapporterer ofte ikke effektene når de ikke når statistisk signifikans. For eksempel kan de ganske enkelt si at gruppene ikke viste statistisk signifikante forskjeller, uten å rapportere annen informasjon (f.eks. En statistikk eller p-verdi). Utelukkelse av disse studiene ville føre til en situasjon som ligner på publikasjonsskjevhet, men inkludering av dem (forutsatt nulleffekter) ville også forstyrre metaanalysen. MetaNSUE, en metode opprettet av Joaquim Radua , har vist å tillate forskere å inkludere objektivt disse studiene. Trinnene er som følger:

  • Maksimal sannsynlighetsestimering av den meta-analytiske effekten og heterogeniteten mellom studiene.
  • Flere påregninger av NSUE -ene legger til støy i estimatet av effekten.
  • Separate metaanalyser for hvert tilregnede datasett.
  • Samling av resultatene av disse metaanalysene.

Problemer knyttet til den statistiske tilnærmingen

Andre svakheter er at det ikke er fastslått om den statistisk mest nøyaktige metoden for å kombinere resultater er de faste, IVhet, tilfeldige eller kvalitetseffektmodellene, selv om kritikken mot tilfeldige effekter -modellen er økende på grunn av oppfatningen om at de nye tilfeldige effektene ( brukes i metaanalyse) er i hovedsak formelle enheter for å lette utjevning eller krymping og prediksjon kan være umulig eller dårlig råd. Hovedproblemet med tilfeldige effekter -tilnærmingen er at den bruker den klassiske statistiske tanken på å generere en "kompromissestimator" som gjør vektene nær den naturlig vektede estimatoren hvis heterogeniteten på tvers av studiene er stor, men nær den inverse variansveide estimatoren hvis mellom studere heterogenitet er liten. Det som imidlertid har blitt ignorert er skillet mellom modellen vi velger å analysere et gitt datasett, og mekanismen som dataene ble til . En tilfeldig effekt kan være til stede i en av disse rollene, men de to rollene er ganske forskjellige. Det er ingen grunn til å tro at analysemodellen og datagenereringsmekanismen (modellen) er like i form, men mange underfelt i statistikk har utviklet en vane med å anta at datagenereringsmekanismen (modellen) er for teori og simuleringer identisk med analysemodellen vi velger (eller ønsker at andre skal velge). Som en hypotese for mekanismer for å produsere data, er den tilfeldige effektmodellen for metaanalyse dum, og det er mer hensiktsmessig å tenke på denne modellen som en overfladisk beskrivelse og noe vi velger som et analytisk verktøy-men dette valget for metaanalyse kan fungerer ikke fordi studieeffektene er et fast trekk ved den respektive metaanalysen og sannsynlighetsfordelingen bare er et beskrivende verktøy.

Problemer som oppstår som følge av agenda-drevet skjevhet

Den alvorligste feilen i metaanalyse oppstår ofte når personen eller personene som gjør metaanalysen har en økonomisk , sosial eller politisk agenda, for eksempel vedtakelse eller nederlag av lovgivning . Personer med denne typen agendaer kan ha større sannsynlighet for å misbruke metaanalyse på grunn av personlig skjevhet . For eksempel vil forskere som er gunstige for forfatterens agenda sannsynligvis få studiene kirsebærplukket mens de som ikke er gunstige vil bli ignorert eller merket som "ikke troverdige". I tillegg kan de foretrukne forfatterne selv være forutinntatt eller betalt for å produsere resultater som støtter deres overordnede politiske, sosiale eller økonomiske mål på måter som å velge små gunstige datasett og ikke inkorporere større ugunstige datasett. Påvirkning av slike skjevheter på resultatene av en metaanalyse er mulig fordi metoden for metaanalyse er svært formbar.

En studie fra 2011 gjort for å avsløre mulige interessekonflikter i underliggende forskningsstudier som ble brukt til medisinske metaanalyser, gjennomgikk 29 metaanalyser og fant at interessekonflikter i studiene som lå til grunn for metaanalysene sjelden ble avslørt. De 29 metaanalysene inkluderte 11 fra allmennmedisinsk tidsskrifter, 15 fra spesialitetsmedisinske tidsskrifter og tre fra Cochrane Database of Systematic Reviews . De 29 metaanalysene gjennomgikk totalt 509 randomiserte kontrollerte studier (RCT). Av disse rapporterte 318 RCT -er finansieringskilder, hvorav 219 (69%) mottok finansiering fra industrien (dvs. en eller flere forfattere som hadde økonomiske bånd til legemiddelindustrien). Av de 509 RCT -ene rapporterte 132 opplysninger om forfattere av interessekonflikter, hvor 91 studier (69%) avslørte en eller flere forfattere som hadde økonomiske bånd til industrien. Informasjonen ble imidlertid sjelden reflektert i metaanalysene. Bare to (7%) rapporterte RCT-finansieringskilder og ingen rapporterte RCT-forfatter-industri-bånd. Forfatterne konkluderte med "uten anerkjennelse av COI på grunn av finansiering fra industrien eller forfatterindustriens økonomiske bånd fra RCT-er inkludert i metaanalyser, lesernes forståelse og vurdering av bevisene fra metaanalysen kan bli kompromittert."

For eksempel, i 1998, fant en amerikansk føderal dommer at United States Environmental Protection Agency hadde misbrukt metaanalyseprosessen for å lage en studie som hevdet kreftrisiko for ikke-røykere fra tobakkrøyk (ETS) med det formål å påvirke beslutningstakere å vedta røykfrie lover på arbeidsplassen. Dommeren fant at:

EPAs studievalg er urovekkende. For det første er det bevis i posten som støtter beskyldningen om at EPA "kirsebærplukket" dataene sine. Uten kriterier for å samle studier i en metaanalyse, kan retten ikke avgjøre om utelukkelse av studier som sannsynligvis vil motbevise EPAs a priori-hypotese var tilfeldig eller tilsiktet. For det andre er EPAs ekskludering av nesten halvparten av de tilgjengelige studiene direkte i konflikt med EPAs påståtte formål med å analysere de epidemiologiske studiene og konflikter med EPAs retningslinjer for risikovurdering. Se ETS Risk Assessment på 4-29 ("Disse dataene bør også undersøkes for å veie alt tilgjengelig bevis , som anbefalt av EPAs retningslinjer for vurdering av kreftfremkallende risiko (US EPA, 1986a) (vektlagt)). For det tredje er EPAs selektive bruk av data er i konflikt med Radon Research Act. Loven sier at EPAs program skal "samle data og informasjon om alle aspekter ved inneklima" (Radon Research Act § 403 (a) (1)) (vektlegging lagt til).

Som et resultat av overgrepet fraflyttet retten kapittel 1–6 i og vedleggene til EPAs "respiratoriske helseeffekter av passiv røyking: lungekreft og andre lidelser".

Svake inkluderingsstandarder fører til villedende konklusjoner

Metaanalyser i utdanningen er ofte ikke begrensende nok når det gjelder metodisk kvalitet på studiene de inkluderer. For eksempel fører studier som inkluderer små prøver eller forskerlagde tiltak til estimerte effektstørrelser.

Søknader i moderne vitenskap

Moderne statistisk metaanalyse gjør mer enn å bare kombinere effektstørrelsene til et sett med studier med et veid gjennomsnitt. Den kan teste om resultatene av studier viser mer variasjon enn variasjonen som forventes på grunn av prøvetaking av forskjellige antall forskningsdeltakere. I tillegg kan studieegenskaper som måleinstrument som brukes, populasjonsutvalg eller aspekter ved studienes design kodes og brukes til å redusere variansen til estimatoren (se statistiske modeller ovenfor). Noen metodologiske svakheter i studier kan dermed korrigeres statistisk. Andre bruksområder for metaanalytiske metoder inkluderer utvikling og validering av kliniske prediksjonsmodeller, hvor metaanalyse kan brukes til å kombinere individuelle deltakerdata fra forskjellige forskningssentre og for å vurdere modellens generaliserbarhet, eller til og med å aggregere eksisterende prediksjonsmodeller.

Metaanalyse kan utføres med enkeltfagdesign samt gruppeforskningsdesign. Dette er viktig fordi det er gjort mye forskning med forskningsdesign med enkelt emne . Det er betydelig tvist om den mest hensiktsmessige metaanalytiske teknikken for enkeltfagforskning.

Metaanalyse fører til et fokusskifte fra enkeltstudier til flere studier. Det understreker den praktiske viktigheten av effektstørrelsen i stedet for den statistiske signifikansen til individuelle studier. Dette tankeskiftet har blitt kalt "meta-analytisk tenkning". Resultatene av en metaanalyse er ofte vist i en skogstomt .

Resultater fra studier kombineres ved hjelp av forskjellige tilnærminger. En tilnærming som ofte brukes i metaanalyse i helseforskning, kalles ' invers varians-metode '. Den gjennomsnittlige effektstørrelsen på tvers av alle studiene er beregnet som et veid gjennomsnitt , der vektene er lik den inverse variansen til hver studiens effektestimator. Større studier og studier med mindre tilfeldig variasjon gis større vekt enn mindre studier. Andre vanlige tilnærminger inkluderer Mantel - Haenszel -metoden og Peto -metoden .

Frøbasert d-kartlegging (tidligere signert differensial kartlegging, SDM) er en statistisk teknikk for metaanalyserende studier av forskjeller i hjerneaktivitet eller struktur som brukte neuroimaging teknikker som fMRI, VBM eller PET.

Ulike høy gjennomstrømningsteknikker som mikroarrays har blitt brukt for å forstå genuttrykk . MicroRNA -ekspresjonsprofiler har blitt brukt til å identifisere differensielt uttrykte mikroRNAer i spesielt celle- eller vevstype eller sykdomstilstander eller for å kontrollere effekten av en behandling. En metaanalyse av slike ekspresjonsprofiler ble utført for å utlede nye konklusjoner og for å validere de kjente funnene.

Se også

Referanser

Videre lesning

Eksterne linker