Strengt standardisert gjennomsnittsforskjell - Strictly standardized mean difference

I statistikk er den strengt standardiserte gjennomsnittsforskjellen (SSMD) et mål på effektstørrelse . Det er gjennomsnittet delt på standardavviket til en forskjell mellom to tilfeldige verdier hver fra en av to grupper. Det ble opprinnelig foreslått for kvalitetskontroll og treffvalg i high-throughput screening (HTS) og har blitt en statistisk parameter som måler effektstørrelser for sammenligning av to grupper med tilfeldige verdier.

Bakgrunn

I screening med høy gjennomstrømning (HTS) er kvalitetskontroll (QC) kritisk. En viktig egenskap QC i en HTS- assay er hvor mye de positive kontroller, testforbindelser , og negative kontroller er forskjellige fra hverandre. Denne QC -karakteristikken kan evalueres ved å sammenligne to brønntyper i HTS -analyser . Signal-til-støy-forhold (S/N), signal-til-bakgrunnsforhold (S/B) og Z-faktoren er vedtatt for å evaluere kvaliteten på HTS- analyser gjennom sammenligning av to undersøkte typer brønner. S/B tar imidlertid ikke hensyn til informasjon om variabilitet; og S/N kan fange variabiliteten bare i en gruppe og kan derfor ikke vurdere kvaliteten på analysen når de to gruppene har forskjellige variasjoner. Zhang JH et al. foreslo Z-faktoren . Fordelen med Z-faktoren fremfor S/N og S/B er at den tar hensyn til variasjonene i begge sammenlignede grupper. Som et resultat har Z-faktoren i stor grad blitt brukt som en QC-beregning i HTS-analyser. Det absolutte tegnet i Z-faktoren gjør det upraktisk å utlede sin statistiske slutning matematisk.

For å utlede en bedre tolkbar parameter for måling av differensiering mellom to grupper, foreslo Zhang XHD SSMD å evaluere differensieringen mellom en positiv kontroll og en negativ kontroll i HTS -analyser. SSMD har et sannsynlighetsgrunnlag på grunn av sin sterke kobling til d + -sannsynlighet (dvs. sannsynligheten for at forskjellen mellom to grupper er positiv). Til en viss grad tilsvarer d + -sannsynligheten den veletablerte sannsynlighetsindeksen P ( X  >  Y ) som har blitt studert og anvendt på mange områder. Båret på sin statistisk grunnlag, har SSMD blitt anvendt både for kvalitetskontroll og treff utvalg i high-throughput screening.

Konsept

Statistisk parameter

Som en statistisk parameter er SSMD (betegnet som ) definert som forholdet mellom gjennomsnitt og standardavvik for forskjellen mellom henholdsvis to tilfeldige verdier fra to grupper. Anta at en gruppe med tilfeldige verdier har gjennomsnitt og varians og en annen gruppe har gjennomsnitt og varians . Den kovarians mellom de to gruppene er Deretter ble SSMD for sammenligning av disse to gruppene er definert som

Hvis de to gruppene er uavhengige,

Hvis de to uavhengige gruppene har like store avvik ,

I situasjonen der de to gruppene er korrelert, er en vanlig strategi for å unngå beregning av først å skaffe sammenkoblede observasjoner fra de to gruppene og deretter å estimere SSMD basert på de sammenkoblede observasjonene. Basert på en sammenkoblet forskjell med befolkningsmiddel og er SSMD

Statistisk estimering

I situasjonen der de to gruppene er uavhengige, avledet Zhang XHD estimatet for maksimal sannsynlighet (MLE) og metode for øyeblikk (MM) for SSMD. Anta at gruppe 1 og 2 har prøve gjennomsnitt , og utvalg avvik . MM -estimatet for SSMD er da

Når de to gruppene har normalfordelinger med lik varians , er det uniformt minimale variansen upartisk estimat (UMVUE) av SSMD,

hvor er prøvestørrelsene i de to gruppene og .

I den situasjon hvor de to gruppene er korrelert, basert på en forskjell sammenkoblet med en prøvestørrelse , prøve midlere og prøven varians , er den MM estimat av SSMD

UMVUE -estimatet for SSMD er

SSMD ligner på t-statistikk og Cohens d, men de er forskjellige med hverandre som illustrert i.

Søknad i screeningsanalyser med høy gjennomstrømning

SSMD er forholdet mellom gjennomsnitt og standardavviket til forskjellen mellom to grupper. Når dataene er forhåndsbehandlet ved hjelp av loggtransformasjon som vi vanligvis gjør i HTS-eksperimenter, er SSMD gjennomsnittet av endring av loggfold delt på standardavviket for endring av loggfold med hensyn til en negativ referanse. Med andre ord er SSMD den gjennomsnittlige foldendringen (på loggskalaen) straffet av variasjonen i foldendringen (på loggskalaen). For kvalitetskontroll er en indeks for kvaliteten på en HTS -analyse størrelsen på forskjellen mellom en positiv kontroll og en negativ referanse i en analyseplate . For treffvalg er størrelsen på effektene til en forbindelse (dvs. et lite molekyl eller et siRNA ) representert av størrelsesforskjellen mellom forbindelsen og en negativ referanse. SSMD måler størrelsen på forskjellen mellom to grupper direkte. Derfor kan SSMD brukes til både kvalitetskontroll og treffvalg i HTS -eksperimenter.

Kvalitetskontroll

Antall brønner for de positive og negative kontrollene i en plate i 384-brønns eller 1536-brønners plattform er normalt designet for å være rimelig stort. Anta at de positive og negative kontroller i en plate har prøve gjennomsnitt , prøveavvik , og prøvestørrelser . Vanligvis holder antagelsen om at kontrollene har lik variasjon i en plate. I et slikt tilfelle er SSMD for vurdering av kvalitet i denne platen estimert til

hvor . Når antagelsen om lik varians ikke holder, estimeres SSMD for vurdering av kvalitet i den platen som

Hvis det er klart avvik i kontrollene, kan SSMD anslås til

hvor er medianene og median absolutte avvik i henholdsvis de positive og negative kontrollene.

Det Z-faktorbaserte QC-kriteriet brukes populært i HTS-analyser. Imidlertid har det blitt påvist at dette QC -kriteriet er mest egnet for en analyse med svært eller ekstremt sterke positive kontroller. I en RNAi HTS -analyse er en sterk eller moderat positiv kontroll vanligvis mer lærerik enn en veldig eller ekstremt sterk positiv kontroll fordi effektiviteten til denne kontrollen er mer lik treffene av interesse. I tillegg har de positive kontrollene i de to HTS -eksperimentene teoretisk forskjellige effekter. Følgelig bør QC -tersklene for moderat kontroll være forskjellige fra de for sterk kontroll i disse to forsøkene. Videre er det vanlig at to eller flere positive kontroller blir vedtatt i et enkelt eksperiment. Å bruke de samme Z -faktorbaserte QC -kriteriene på begge kontrollene fører til inkonsekvente resultater som illustrert i litteraturene.

De SSMD-baserte QC-kriteriene som er oppført i tabellen nedenfor, tar hensyn til effektstørrelsen til en positiv kontroll i en HTS-analyse der den positive kontrollen (for eksempel en inhiberingskontroll) teoretisk har verdier mindre enn den negative referansen.

Kvalitetstype A: Moderat kontroll B: Sterk kontroll C: Veldig sterk kontroll D: Ekstremt sterk kontroll
Utmerket
God
Underverdig
Dårlig

I søknad, hvis effektstørrelsen til en positiv kontroll er biologisk kjent, kan du vedta det tilsvarende kriteriet basert på denne tabellen. Ellers bør følgende strategi bidra til å avgjøre hvilket QC -kriterium som skal brukes: (i) i mange HTS -analyser med små molekyler med en positiv kontroll, vanligvis bør kriterium D (og noen ganger kriterium C) vedtas fordi denne kontrollen vanligvis har veldig eller ekstremt sterke effekter; (ii) for RNAi HTS -analyser der cellelevedyktighet er den målte responsen, bør kriterium D vedtas for kontrollene uten celler (nemlig brønnene uten celler tilsatt) eller bakgrunnskontroller; (iii) i en viral assay hvor mengden av virus i vertsceller er det interesse, er kriteriet C anvendes vanligvis, og kriteriet D blir av og til brukt for den positive kontroll bestående av siRNA fra viruset.

Lignende SSMD-baserte QC-kriterier kan konstrueres for en HTS-analyse der den positive kontrollen (for eksempel en aktiveringskontroll) teoretisk har verdier større enn den negative referansen. Flere detaljer om hvordan du bruker SSMD-baserte QC-kriterier i HTS-eksperimenter finnes i en bok.

Velg utvalg

I en HTS -analyse er et hovedmål å velge forbindelser med ønsket størrelse på inhibering eller aktiveringseffekt. Størrelsen av forbindelsen effekt er representert av størrelsen av differansen mellom en testforbindelse og en negativ referanse gruppe med ikke spesifikke inhibering /-aktiverende virkninger. En forbindelse med ønsket størrelse på effekter på en HTS -skjerm kalles et hit. Prosessen med å velge treff kalles treffvalg. Det er to hovedstrategier for å velge treff med store effekter. Det ene er å bruke bestemte metriske (e) for å rang og / eller klassifisere forbindelsene ved deres effekter, og deretter for å velge det største antall potente forbindelser som er praktisk for validering analyser . Den andre strategien er å teste om en forbindelse har effekter som er sterke nok til å nå et forhåndsinnstilt nivå. I denne strategien må falsk-negative rater (FNR) og/eller falsk-positive rater (FPR) kontrolleres.

SSMD kan ikke bare rangere størrelsen på effekter, men også klassifisere effekter som vist i tabellen nedenfor basert på populasjonsverdien ( ) for SSMD.

Effekt undertype Terskler for negativ SSMD Terskler for positiv SSMD
Ekstremt sterk
Veldig sterk
Sterk
Ganske sterkt
Moderat
Ganske moderat
Ganske svakt
Svak
Meget svak
Ekstremt svakt
Ingen effekt

Estimasjonen av SSMD for skjermer uten replikater er forskjellig fra den for skjermer med replikater.

I en primærskjerm uten replikater, forutsatt at måleverdien (vanligvis på logskalaen) i en brønn for en testet forbindelse er, og den negative referansen i den platen har prøvestørrelse , prøve gjennomsnitt , median , standardavvik og median absolutt avvik , er SSMD for denne forbindelsen er estimert til

hvor . Når det er avvik i en analyse som vanligvis er vanlig i HTS -eksperimenter, kan en robust versjon av SSMD oppnås ved å bruke

I en bekreftende eller primær screening med replikater, for den i-te testforbindelse med replikater, beregner vi den parvise differanse mellom den målte verdi (vanligvis på log skala) av forbindelsen , og den midlere verdi for en negativ kontroll i en plate, deretter få gjennomsnittet og variansen av den sammenkoblede forskjellen på tvers av replikater. SSMD for denne forbindelsen er estimert til

I mange tilfeller kan forskere bruke både SSMD og gjennomsnittlig foldendring for treffvalg i HTS -eksperimenter. Den dual-lommelykt plott kan vise både gjennomsnittlig ganger endring og SSMD for alle testforbindelser i et assay , og bidrar til å integrere dem begge for å velge treff i HTS-eksperimenter. Bruken av SSMD for treffvalg i HTS-eksperimenter er illustrert trinn for trinn

Se også

Videre lesning

Referanser