GRIM-test - GRIM test

Den granularitetsrelaterte inkonsistensen av middel (GRIM) -testen er en enkel statistisk test som brukes til å identifisere inkonsekvenser i analysen av datasett. Testen er avhengig av det faktum at, gitt et datasett som inneholder N- heltallverdier, er det aritmetiske gjennomsnittet (ofte kalt bare gjennomsnittet) begrenset til noen få mulige verdier: det må alltid være uttrykkelig som en brøkdel med et heltall teller og en nevner   N . Hvis det rapporterte gjennomsnittet ikke passer til denne beskrivelsen, må det være en feil et sted; det foretrukne begrepet for slike feil er "inkonsekvenser" for å understreke at opprinnelsen ved første oppdagelse vanligvis er ukjent. GRIM-inkonsekvenser kan skyldes utilsiktet dataregistrering eller typografiske feil eller fra vitenskapelig svindel . GRIM-testen er mest nyttig innen felt som psykologi der forskere vanligvis bruker små grupper og målinger ofte er heltall . GRIM-testen ble foreslått av Nick Brown og James Heathers i 2016, etter økt bevissthet om replikeringskrisen i noen vitenskapsfelt.

Fremgangsmåte

GRIM-testen er enkel å utføre. For hvert rapporterte gjennomsnitt i et papir blir prøvestørrelsen ( N ) funnet, og alle brøkene med nevneren N blir beregnet. Gjennomsnittet blir deretter sjekket mot denne listen (å være klar over at verdiene kan avrundes inkonsekvent: avhengig av konteksten kan et gjennomsnitt på 1,125 rapporteres som 1,12 eller 1,13). Hvis gjennomsnittet ikke er i denne listen, blir det uthevet som matematisk umulig.

Eksempel

Tenk på et eksperiment der en terningkast blir kastet 20 ganger. Hver rull vil produsere ett helt tall mellom 1 og 6, og den antatte middelverdien er 3,5. Resultatene av rullene blir deretter beregnet i gjennomsnitt, og gjennomsnittet rapporteres som 3,48. Dette er nær den forventede verdien, og ser ut til å støtte hypotesen. En GRIM-test avslører imidlertid at det rapporterte gjennomsnittet er matematisk umulig: resultatet av å dele et helt tall med 20, skrevet til 2 desimaler , må ha formen X.X0 eller X.X5; det er umulig å dele noe heltall på 20 og produsere et resultat med "8" på andre desimal.

Tolkning og begrensninger

Selv om dataene mislykkes i GRIM-testen, er dette ikke automatisk et tegn på manipulasjon. Feil i gjennomsnittet kan oppstå uskyldig som et resultat av en feil fra testeren, typografiske feil, beregnings- og programmeringsfeil eller feil rapportering av prøvestørrelsen. Det kan imidlertid være et tegn på at noen data har blitt ekskludert på feil måte, eller at gjennomsnittet har blitt ulovlig fudged for å gjøre resultatene mer betydningsfulle . Plasseringen av feil kan være en indikasjon på den underliggende årsaken: et isolert umulig middel kan være forårsaket av en feil, flere umulige verdier i samme rad i en tabell indikerer en dårlig svarprosent , og flere umulige verdier i samme kolonne indikerer den gitte prøvestørrelsen er feil. Flere feil spredt over en tabell kan være et tegn på dypere problemer, og andre statistiske tester kan brukes til å analysere de mistenkte dataene.

GRIM-testen fungerer best med datasett der: prøvestørrelsen er relativt liten, antall underkomponenter i sammensatte mål er også lite, og gjennomsnittet rapporteres til flere desimaler. I noen tilfeller kan et gyldig gjennomsnitt se ut til å mislykkes i testen hvis inngangsdataene ikke blir diskretisert som forventet - for eksempel hvis folk blir spurt om hvor mange stykker pizza de spiste på buffé, kan noen svare med en brøkdel som f.eks. "tre og en halv" i stedet for et helt tall som forventet.

applikasjoner

Brown og Heathers brukte testen på 260 artikler publisert i Psychological Science , Journal of Experimental Psychology: General , og Journal of Personality and Social Psychology . Av disse artiklene var 71 mottakelige for GRIM-testanalyse; 36 av disse inneholdt minst en umulig verdi og 16 inneholdt flere umulige verdier.

GRIM-testing spilte også en viktig rolle i å avdekke feil i publikasjoner fra Cornell Universitys Food and Brand Lab under Brian Wansink . GRIM-testing avslørte at en serie artikler om effekten av pris på forbruket på en alt-du-kan-spise-pizza-buffé inneholdt mange umulige midler - dypere analyse av rådataene avslørte at i mange tilfeller var prøvestørrelser feil oppgitt og verdier feil beregnet.

Referanser

Eksterne linker