DNA -mikroarray - DNA microarray

Hvordan bruke en mikroarray for genotyping. Videoen viser prosessen med å trekke ut genotyper fra en menneskelig spytteprøve ved hjelp av mikroarrays. Genotyping er en stor bruk av DNA -mikroarrays, men med noen modifikasjoner kan de også brukes til andre formål som måling av genuttrykk og epigenetiske markører.

En DNA -mikroarray (også kjent som DNA -chip eller biobrikke ) er en samling av mikroskopiske DNA -flekker festet til en solid overflate. Forskere bruker DNA -mikroarrays for å måle ekspresjonsnivåene til et stort antall gener samtidig eller for å genotypere flere regioner i et genom. Hver DNA -flekk inneholder picomoler ( 10-12 mol ) av en spesifikk DNA -sekvens, kjent som sonder (eller journalister eller oligoer ). Disse kan være en kort del av et gen eller et annet DNA-element som brukes til å hybridisere et cDNA eller cRNA (også kalt anti-sense RNA) -prøve (kalt mål ) under betingelser med høy stringens. Probe -mål -hybridisering blir vanligvis påvist og kvantifisert ved påvisning av fluorofor- , sølv- eller kjemiluminescens -merkede mål for å bestemme relativ overflod av nukleinsyresekvenser i målet. De opprinnelige nukleinsyrearayene var makro -arrays på omtrent 9 cm × 12 cm, og den første datastyrt bildebaserte analysen ble publisert i 1981. Den ble oppfunnet av Patrick O. Brown . Et eksempel på bruken er i SNP -matriser for polymorfismer ved hjerte- og karsykdommer, kreft, patogener og GWAS -analyse. Også for identifisering av strukturelle variasjoner og måling av genuttrykk.

Prinsipp

Hybridisering av målet til sonden

Kjerneprinsippet bak mikroarrays er hybridisering mellom to DNA -tråder, egenskapen til komplementære nukleinsyresekvenser for å spesifikt parre seg med hverandre ved å danne hydrogenbindinger mellom komplementære nukleotidbasepar . Et stort antall komplementære basepar i en nukleotidsekvens betyr strammere ikke-kovalent binding mellom de to strengene. Etter vasking av uspesifikke bindingssekvenser vil bare sterkt parede tråder forbli hybridiserte. Fluorescerende merkede målsekvenser som binder seg til en probesekvens genererer et signal som er avhengig av hybridiseringsbetingelsene (for eksempel temperatur) og vask etter hybridisering. Total styrke av signalet, fra et punkt (funksjon), avhenger av mengden målprøvebinding til sonderne som er tilstede på det stedet. Mikroarrays bruker relativ kvantifisering der intensiteten til en funksjon blir sammenlignet med intensiteten til den samme funksjonen under en annen tilstand, og identiteten til funksjonen er kjent av dens posisjon.

Trinnene som kreves i et mikroarray -eksperiment

Bruksområder og typer

To Affymetrix -brikker. En kamp vises nederst til venstre for størrelses sammenligning.

Det finnes mange typer matriser, og det største skillet er om de er plassert romlig på en overflate eller på kodede perler:

  • Den tradisjonelle fastfasearrayen er en samling av ryddige mikroskopiske "flekker", kalt funksjoner, hver med tusenvis av identiske og spesifikke sonder festet til en solid overflate, for eksempel glass , plast eller silisium- biochip (kjent som en genombrikke , DNA chip eller genoppstilling ). Tusenvis av disse funksjonene kan plasseres på kjente steder på en enkelt DNA -mikroarray.
  • Den alternative perleoppstillingen er en samling av mikroskopiske polystyrenkuler, hver med en spesifikk sonde og et forhold på to eller flere fargestoffer, som ikke forstyrrer de fluorescerende fargestoffene som brukes på målsekvensen.

DNA -mikroarrays kan brukes til å detektere DNA (som ved komparativ genomisk hybridisering ), eller påvise RNA (oftest som cDNA etter revers transkripsjon ) som kan translateres til proteiner eller ikke. Prosessen med å måle genuttrykk via cDNA kalles ekspresjonsanalyse eller ekspresjonsprofilering .

Søknadene inkluderer:

Søknad eller teknologi Sammendrag
Genuttrykk profilering I et mRNA- eller genuttrykkprofileksperiment blir ekspresjonsnivåene til tusenvis av gener samtidig overvåket for å studere effekten av visse behandlinger, sykdommer og utviklingstrinn på genuttrykk. For eksempel kan mikroarray-basert genuttrykksprofilering brukes til å identifisere gener hvis uttrykk endres som respons på patogener eller andre organismer ved å sammenligne genuttrykk i infiserte med det i uinfiserte celler eller vev.
Komparativ genomisk hybridisering Vurdering av genominnhold i forskjellige celler eller nært beslektede organismer, som opprinnelig beskrevet av Patrick Brown , Jonathan Pollack, Ash Alizadeh og kolleger ved Stanford .
GeneID Små mikroarrays for å sjekke ID -er for organismer i mat og fôr (som GMO [1] ), mykoplasmer i cellekultur eller patogener for sykdomsdeteksjon, hovedsakelig kombinert PCR og mikroarray -teknologi.
Kromatinimmunutfelling på Chip DNA -sekvenser bundet til et bestemt protein kan isoleres ved å immunpresipitere det proteinet ( ChIP ), disse fragmentene kan deretter hybridiseres til en mikroarray (for eksempel en fliser ) som tillater bestemmelse av proteinbinding i hele genomet. Eksempelprotein til immunutfelling er histonmodifikasjoner ( H3K27me3 , H3K4me2, H3K9me3, etc.), Polycomb-gruppeprotein (PRC2: Suz12, PRC1: YY1) og trithorax-gruppe protein (Ash1) for å studere det epigenetiske landskapet eller RNA Polymerase II for å studere den transkripsjon landskapet .
DamID Analogt med ChIP kan genomiske regioner bundet av et protein av interesse isoleres og brukes til å undersøke en mikroarray for å bestemme belegg på bindingsstedet. I motsetning til ChIP krever DamID ikke antistoffer, men bruker adeninmetylering i nærheten av proteinets bindingssteder for å selektivt forsterke disse områdene, introdusert ved å uttrykke små mengder protein av interesse smeltet til bakteriell DNA -adeninmetyltransferase .
SNP -deteksjon Identifisering av enkeltnukleotidpolymorfisme blant alleler i eller mellom populasjoner. Flere applikasjoner av mikroarrays bruker SNP-deteksjon, inkludert genotyping , rettsmedisinsk analyse, måling av predisposisjon for sykdom, identifisering av legemiddelkandidater, evaluering av kimlinemutasjoner hos individer eller somatiske mutasjoner i kreft, vurdering av tap av heterozygositet eller genetisk koblingsanalyse .
Alternativ spleising deteksjon Et design for et exon -kryss -array bruker prober som er spesifikke for de forventede eller potensielle spleisesteder for forutsagte eksoner for et gen. Den er av middels tetthet, eller dekning, til et typisk genuttrykk -array (med 1-3 prober per gen) og et genomisk fliser -array (med hundrevis eller tusenvis av prober per gen). Det brukes til å analysere ekspresjonen av alternative spleiseformer av et gen. Exon -matriser har en annen design, og bruker prober designet for å detektere hver enkelt ekson for kjente eller forutsagte gener, og kan brukes til å detektere forskjellige spleisingsisoformer.
Fusjonsgener mikroarray Et fusjonsgenmikroarray kan påvise fusjonstranskripsjoner, f.eks. Fra kreftprøver. Prinsippet bak dette er å bygge på de alternative spleisemikroarrayene . Oligo-designstrategien muliggjør kombinerte målinger av kimære transkripsjonskryss med eksonmessige målinger av individuelle fusjonspartnere.
Fliser Genomflisearrays består av overlappende sonder designet for å tett representere en genomisk interesseområde, noen ganger så stor som et helt menneskelig kromosom. Formålet er å empirisk oppdage uttrykk for transkripsjoner eller alternativt spleisede former som kanskje ikke har vært kjent eller spådd tidligere.
Dobbeltstrengede B-DNA-mikroarrays Høyrehendte dobbeltstrengede B-DNA-mikroarrays kan brukes til å karakterisere nye medisiner og biologiske stoffer som kan brukes til å binde spesifikke områder av immobilisert, intakt, dobbeltstrenget DNA. Denne tilnærmingen kan brukes til å hemme genuttrykk. De tillater også karakterisering av strukturen under forskjellige miljøforhold.
Dobbelstrenget Z-DNA mikroarrays Venstrehendte dobbeltstrengede Z-DNA-mikroarrays kan brukes til å identifisere korte sekvenser av den alternative Z-DNA-strukturen som ligger innenfor lengre strekninger av høyrehendte B-DNA-gener (f.eks. Transkripsjonsforbedring, rekombinasjon, RNA-redigering). Mikroarrayene tillater også karakterisering av strukturen deres under forskjellige miljøforhold.
Multi-stranded DNA microarrays (triplex-DNA microarrays and quadruplex-DNA microarrays) Flerstrenget DNA- og RNA-mikroarrays kan brukes til å identifisere nye medisiner som binder seg til disse flerstrengede nukleinsyresekvensene. Denne tilnærmingen kan brukes til å oppdage nye legemidler og biologiske stoffer som har evnen til å hemme genuttrykk. Disse mikroarrayene tillater også karakterisering av strukturen deres under forskjellige miljøforhold.

Spesialiserte arrays skreddersydd for bestemte avlinger blir stadig mer populære i applikasjoner for molekylær avl . I fremtiden kan de brukes til å skjerme frøplanter i tidlige stadier for å redusere antallet unødvendige frøplanter som er prøvd ut i avl.

Fabrikasjon

Mikroarrays kan produseres på forskjellige måter, avhengig av antall sonder som undersøkes, kostnader, tilpasningskrav og typen vitenskapelig spørsmål som blir stilt. Arrays fra kommersielle leverandører kan ha så få som 10 sonder eller så mange som 5 millioner eller flere mikrometer-sonder.

Spotted vs. in situ syntetiserte matriser

En DNA -mikroarray som skrives ut av en robot ved University of Delaware

Mikroarrays kan produseres ved hjelp av en rekke teknologier, inkludert utskrift med finspisse pinner på glassplater, fotolitografi ved hjelp av ferdiglagde masker, fotolitografi ved bruk av dynamiske mikromirror-enheter, blekkstråleutskrift eller elektrokjemi på mikroelektrodearrayer.

I flekkede mikroarrays er probene oligonukleotider , cDNA eller små fragmenter av PCR -produkter som tilsvarer mRNA . Proberne syntetiseres før avsetning på matrisens overflate og "flekkes" deretter på glass. En vanlig tilnærming bruker en rekke fine pinner eller nåler kontrollert av en robotarm som dyppes i brønner som inneholder DNA -prober og deretter deponerer hver sonde på angitte steder på matrisens overflate. Det resulterende "grid" av prober representerer nukleinsyreprofilene til de preparerte prober og er klar til å motta komplementære cDNA- eller cRNA "mål" avledet fra eksperimentelle eller kliniske prøver. Denne teknikken brukes av forskere rundt om i verden for å produsere "interne" trykte mikroarrays fra sine egne laboratorier. Disse matrisene kan enkelt tilpasses for hvert eksperiment, fordi forskere kan velge sonder og utskriftssteder på matrisene, syntetisere prober i sitt eget laboratorium (eller samarbeidsanlegg), og oppdage matrisene. De kan deretter generere sine egne merkede prøver for hybridisering, hybridisere prøvene til matrisen og til slutt skanne matrisene med eget utstyr. Dette gir en relativt billig mikroarray som kan tilpasses for hver studie, og unngår kostnadene ved å kjøpe ofte dyrere kommersielle matriser som kan representere et stort antall gener som ikke er av interesse for etterforskeren. Det finnes publikasjoner som indikerer at interne flekkede mikroarrays ikke gir samme følsomhetsnivå sammenlignet med kommersielle oligonukleotid-matriser, muligens på grunn av de små batchstørrelsene og redusert utskriftseffektivitet sammenlignet med industrielle produsenter av oligo-matriser.

I oligonukleotidmikroarrays er sonderne korte sekvenser designet for å matche deler av sekvensen av kjente eller forutsagte åpne leserammer . Selv om oligonukleotidprober ofte brukes i "flekkete" mikroarrayer, refererer uttrykket "oligonukleotid -array" oftest til en spesifikk teknikk for produksjon. Oligonukleotid-matriser produseres ved å skrive ut korte oligonukleotidsekvenser designet for å representere et enkelt gen eller en familie av gen-spleisevarianter ved å syntetisere denne sekvensen direkte på array-overflaten i stedet for å avsette intakte sekvenser. Sekvenser kan være lengre (60-mer prober som Agilent- designet) eller kortere (25-mer prober produsert av Affymetrix ) avhengig av ønsket formål; lengre prober er mer spesifikke for individuelle målgener, kortere sonder kan bli oppdaget i høyere tetthet på tvers av matrisen og er billigere å produsere. En teknikk som brukes til å produsere oligonukleotid-matriser inkluderer fotolitografisk syntese (Affymetrix) på et silisiumsubstrat der lys og lysfølsomme maskeringsmidler brukes til å "bygge" en sekvens ett nukleotid om gangen over hele matrisen. Hver gjeldende sonde "avmaskeres" selektivt før massen bades i en løsning av et enkelt nukleotid, deretter finner en maskeringsreaksjon sted og det neste settet med prober avmaskeres som forberedelse til en annen nukleotideksponering. Etter mange repetisjoner blir sekvensene til hver sonde fullstendig konstruert. Mer nylig har Maskless Array Synthesis fra NimbleGen Systems kombinert fleksibilitet med et stort antall sonder.

To-kanals kontra en-kanals deteksjon

Diagram over typiske tofargede mikroarray-eksperimenter

To-farge mikroarrays eller to-kanals mikroarrays hybridiseres vanligvis med cDNA fremstilt fra to prøver som skal sammenlignes (f.eks. Sykt vev kontra sunt vev) og som er merket med to forskjellige fluoroforer . Fluorescerende fargestoffer som vanligvis brukes til cDNA -merking inkluderer Cy 3, som har en bølgelengde for fluorescensemisjon på 570 nm (tilsvarende den grønne delen av lysspekteret), og Cy 5 med en fluorescensemisjonsbølgelengde på 670 nm (tilsvarende den røde delen av lysspekteret). De to Cy-merkede cDNA-prøvene blandes og hybridiseres til en enkelt mikroarray som deretter skannes i en mikroarrayscanner for å visualisere fluorescens av de to fluoroforene etter eksitasjon med en laserstråle med en definert bølgelengde. Relative intensiteter for hver fluorofor kan deretter brukes i forholdsbasert analyse for å identifisere oppregulerte og nedregulerte gener.

Oligonukleotidmikroarrays bærer ofte kontrollprober designet for å hybridisere med RNA-pigger . Graden av hybridisering mellom piggene og kontrollproben brukes til å normalisere hybridiseringsmålingene for målprober. Selv om absolutte nivåer av genuttrykk kan bestemmes i to-fargesystemet i sjeldne tilfeller, er de relative forskjellene i uttrykk mellom forskjellige flekker i en prøve og mellom prøver den foretrukne metoden for dataanalyse for to-fargesystemet. Eksempler på leverandører for slike mikroarrays inkluderer Agilent med sin Dual-Mode-plattform, Eppendorf med DualChip-plattformen for kolorimetrisk Silverquant- merking og TeleChem International med Arrayit .

I enkeltkanals mikroarrays eller enfargede mikroarrays gir arrayene intensitetsdata for hver sonde eller sonde som indikerer et relativt hybridiseringsnivå med det merkede målet. Imidlertid indikerer de ikke virkelig mengden av et gen, men snarere relativ overflod sammenlignet med andre prøver eller tilstander når de behandles i det samme eksperimentet. Hvert RNA-molekyl møter protokoll og batch-spesifikk skjevhet under amplifikasjons-, merkings- og hybridiseringsfaser av eksperimentet, og gjør sammenligninger mellom gener for den samme mikroarrayen uinformativ. Sammenligningen av to betingelser for det samme genet krever to separate enkeltfargestoff-hybridiseringer. Flere populære enkeltkanalsystemer er Affymetrix "Gene Chip", Illumina "Bead Chip", Agilent single-channel arrays, Applied Microarrays "CodeLink" arrays og Eppendorf "DualChip & Silverquant". En styrke i enkeltfargestoffsystemet ligger i det faktum at en avvikende prøve ikke kan påvirke rådataene som stammer fra andre prøver, fordi hver array-brikke bare er utsatt for én prøve (i motsetning til et tofarget system der en enkelt lav -kvalitetsprøve kan drastisk påvirke den generelle datapresisjonen, selv om den andre prøven var av høy kvalitet). En annen fordel er at data lettere sammenlignes med matriser fra forskjellige eksperimenter så lenge det er redegjort for batcheffekter.

En kanal mikroarray kan være det eneste valget i noen situasjoner. Anta at prøver må sammenlignes: da blir antallet eksperimenter som kreves ved bruk av de to kanalarrayene raskt umulig, med mindre en prøve brukes som referanse.

antall prøver en-kanals mikroarray to -kanals mikroarray

to -kanals mikroarray (med referanse)

1 1 1 1
2 2 1 1
3 3 3 2
4 4 6 3

En typisk protokoll

Eksempler på anvendelsesnivåer for mikroarrays. I organismer transkriberes og spleises gener for å produsere modne mRNA -transkripsjoner (rød). MRNA ekstraheres fra organismen og revers transkriptase brukes til å kopiere mRNA til stabilt ds-cDNA (blått). I mikroarrays er ds-cDNA fragmentert og fluorescerende merket (oransje). De merkede fragmentene binder seg til et ordnet utvalg av komplementære oligonukleotider, og måling av fluorescerende intensitet over matrisen indikerer overflod av et forhåndsbestemt sett med sekvenser. Disse sekvensene er vanligvis spesielt valgt for å rapportere om gener av interesse i organismenes genom.

Dette er et eksempel på et DNA -mikroarray -eksperiment som inneholder detaljer for et bestemt tilfelle for bedre å forklare DNA -mikroarray -eksperimenter, mens det vises modifikasjoner for RNA eller andre alternative eksperimenter.

  1. De to prøvene som skal sammenlignes (parvis sammenligning) dyrkes/anskaffes. I dette eksemplet behandlet prøve ( case ) og ubehandlet prøve ( kontroll ).
  2. Den nukleinsyre av interesse renses: dette kan være RNA for ekspresjonsanalyse , DNA for sammenlignende hybridisering , eller DNA / RNA bundet til et bestemt protein som er immunoutfelt ( chip on-chip ) for epigenetiske eller reguleringsstudier. I dette eksemplet er totalt RNA isolert (både nukleært og cytoplasmatisk ) ved Guanidinium tiocyanat-fenol-kloroform ekstraksjon (f.eks. Trizol ) som isolerer det meste RNA (mens kolonnemetoder har en avskjæring på 200 nukleotider) og hvis det gjøres riktig, har en bedre renhet.
  3. Det rensede RNA ble analysert med hensyn til kvalitet (ved kapillær elektroforese ) og mengde (for eksempel ved å bruke et Nanodrop eller NanoPhotometer spektrometer ). Hvis materialet er av akseptabel kvalitet og tilstrekkelig mengde er tilstede (f.eks.> 1 μg , selv om den nødvendige mengden varierer etter mikroarray -plattform), kan eksperimentet fortsette.
  4. Det merkede produktet genereres via revers transkripsjon og etterfulgt av en valgfri PCR -forsterkning. RNA -en transkriberes omvendt med enten polyT -primere (som bare forsterker mRNA ) eller tilfeldige primere (som forsterker alt RNA, hvorav de fleste er rRNA ). miRNA -mikroarrays ligerer et oligonukleotid til det rensede lille RNA (isolert med en fraksjonator), som deretter transkriberes og amplifiseres omvendt.
    • Etiketten legges til enten under revers transkripsjonstrinnet, eller etter amplifikasjon hvis den utføres. Den forstand merking er avhengig av microarray; f.eks. hvis etiketten er tilsatt med RT -blandingen, er cDNA antisens og mikroarraysonden er fornuftig, bortsett fra i tilfelle negative kontroller.
    • Etiketten er vanligvis fluorescerende ; bare en maskin bruker radiomerker .
    • Merkingen kan være direkte (ikke brukt) eller indirekte (krever et koblingstrinn). For to-kanaloppstillingene, oppstår den koplingstrinnet før hybridisering, ved anvendelse av aminoallyl uridin- trifosfat (aminoallyl-UTP, eller aaUTP) og NHS amino-reaktive fargestoffer (for eksempel cyaninfargestoffer ); for enkeltkanals matriser skjer koblingstrinnet etter hybridisering ved bruk av biotin og merket streptavidin . De modifiserte nukleotider (som regel i et forhold på 1: 4 til aaUTP TTP ( tymidintrifosfat )) tilsettes enzymatisk i et lavt forhold til normale nukleotider, typisk resulterer i 1 hver 60 baser. AaDNA renses deretter med en kolonne (ved bruk av en fosfatbufferløsning, ettersom Tris inneholder amingrupper). Aminoallylgruppen er en amingruppe på en lang linker festet til nukleobasen, som reagerer med et reaktivt fargestoff.
      • En form for replikat kjent som en fargestoff flip kan utføres for å kontrollere for fargestoff artefakter i to-kanals eksperimenter; for et fargestoff, brukes et annet lysbilde, med etikettene byttet (prøven som var merket med Cy3 i det første lysbildet er merket med Cy5, og omvendt). I dette eksemplet er aminoallyl -UTP tilstede i den omvendt transkriberte blanding.
  5. De merkede prøvene blir deretter blandet med en proprietær hybridisering løsning som kan bestå av SDS , SSC , dekstransulfat , et blokkerende middel (slik som Cot-1 DNA , laksesperm-DNA, kalvetymus-DNA, PolyA , eller PolyT), Denhardts oppløsning , eller formamin .
  6. Blandingen denatureres og tilsettes til hullene i mikroarrayen. Hullene forsegles og mikroarrayet hybridiseres, enten i en hybovn, hvor mikroarrayet blandes ved rotasjon, eller i en mikser, hvor mikroarrayet blandes ved vekslende trykk ved hullene.
  7. Etter hybridisering over natten vaskes all uspesifikk binding av (SDS og SSC).
  8. Mikroarrayet tørkes og skannes av en maskin som bruker en laser for å eksitere fargestoffet og måler utslippsnivåene med en detektor.
  9. Bildet er ristet med en mal, og intensiteten til hver funksjon (sammensatt av flere piksler) er kvantifisert.
  10. Rådata er normalisert; den enkleste normaliseringsmetoden er å trekke fra bakgrunnsintensitet og skala slik at de totale intensitetene til funksjonene til de to kanalene er like, eller å bruke intensiteten til et referansegen for å beregne t-verdien for alle intensitetene. Mer sofistikerte metoder inkluderer z-ratio , loess og lowess regresjon og RMA (robust multichip-analyse) for Affymetrix-chips (enkeltkanal, silisiumbrikke, in situ syntetiserte korte oligonukleotider).

Mikroarrays og bioinformatikk

Genuttrykksverdier fra mikroarrayeksperimenter kan representeres som varmekart for å visualisere resultatet av dataanalyse.

Fremkomsten av rimelige mikroarray -eksperimenter skapte flere spesifikke bioinformatikkutfordringer: de mange replikasjonsnivåene i eksperimentell design ( eksperimentell design ); antall plattformer og uavhengige grupper og dataformat ( standardisering ); den statistiske behandlingen av dataene ( dataanalyse ); kartlegge hver sonde til mRNA -transkripsjonen som den måler ( merknad ); det store volumet av data og muligheten til å dele dem ( Data warehousing ).

Eksperimentelt design

På grunn av den biologiske kompleksiteten til genuttrykk, er hensynet til eksperimentell design som diskuteres i uttrykksprofileringsartikkelen av kritisk betydning hvis statistisk og biologisk gyldige konklusjoner skal trekkes fra dataene.

Det er tre hovedelementer du bør vurdere når du designer et mikroarray -eksperiment. For det første er replikasjon av de biologiske prøvene avgjørende for å trekke konklusjoner fra eksperimentet. For det andre bidrar tekniske replikater (to RNA -prøver hentet fra hver eksperimentell enhet) til å sikre presisjon og tillate testing av forskjeller innen behandlingsgrupper. De biologiske replikatene inkluderer uavhengige RNA -ekstraksjoner, og tekniske replikater kan være to alikvoter av den samme ekstraksjonen. For det tredje er flekker av hver cDNA -klon eller oligonukleotid tilstede som replikater (minst duplikater) på mikroarray -lysbildet, for å gi et mål på teknisk presisjon i hver hybridisering. Det er kritisk at informasjon om prøveforberedelse og håndtering diskuteres, for å hjelpe til med å identifisere de uavhengige enhetene i eksperimentet og for å unngå oppblåste estimater av statistisk signifikans .

Standardisering

Microarray -data er vanskelig å utveksle på grunn av mangel på standardisering i plattformproduksjon, analyseprotokoller og analysemetoder. Dette gir et interoperabilitetsproblem i bioinformatikk . Ulike gress-røttene open-source -prosjekter er i ferd med å lette utvekslingen og analyse av data produsert med ikke-beskyttede chips:

For eksempel hjelper sjekklisten "Minimum Information About a Microarray Experiment" ( MIAME ) med å definere detaljnivået som bør eksistere, og blir vedtatt av mange tidsskrifter som et krav for innsending av artikler som inneholder mikroarray -resultater. Men MIAME beskriver ikke formatet for informasjonen, så selv om mange formater kan støtte MIAME -kravene, fra 2007 tillater ingen format verifisering av fullstendig semantisk samsvar. "MicroArray Quality Control (MAQC) Project" blir utført av US Food and Drug Administration (FDA) for å utvikle standarder og kvalitetskontrollberegninger som til slutt vil tillate bruk av MicroArray-data i legemiddelfunn, klinisk praksis og beslutningstaking. . Den MGED Society har utviklet standarder for fremstilling av genekspresjon eksperimentresultater og relevante merknader.

Dataanalyse

Nasjonalt senter for toksikologisk forskning forsker vurderer mikroarraydata

Microarray datasett er vanligvis veldig store, og analytisk presisjon påvirkes av en rekke variabler. Statistiske utfordringer inkluderer å ta hensyn til effekter av bakgrunnsstøy og passende normalisering av dataene. Normaliseringsmetoder kan være egnet for spesifikke plattformer, og for kommersielle plattformer kan analysen være proprietær. Algoritmer som påvirker statistisk analyse inkluderer:

  • Bildeanalyse: griding, spotgjenkjenning av det skannede bildet (segmenteringsalgoritme), fjerning eller merking av funksjoner av dårlig kvalitet og lav intensitet (kalt flagging ).
  • Databehandling: bakgrunnssubtraksjon (basert på global eller lokal bakgrunn), bestemmelse av spotintensiteter og intensitetsforhold, visualisering av data (f.eks. Se MA-plott ) og log-transformasjon av forhold, global eller lokal normalisering av intensitetsforhold og segmentering i forskjellige kopitall regioner ved hjelp av trinn deteksjonsalgoritmer.
  • Klasseoppdagelsesanalyse: Denne analytiske tilnærmingen, noen ganger kalt uovervåket klassifisering eller kunnskapsoppdagelse, prøver å identifisere om mikroarrayer (objekter, pasienter, mus, etc.) eller gener samles i grupper. Å identifisere naturlig eksisterende grupper av objekter (mikroarrays eller gener) som samles i grupper, kan muliggjøre oppdagelse av nye grupper som ellers ikke tidligere var kjent for å eksistere. Under kunnskapsoppdagelsesanalyse kan forskjellige klassifiseringsteknikker uten tilsyn brukes med DNA -mikroarraydata for å identifisere nye klynger (klasser) med matriser. Denne typen tilnærminger er ikke hypotesedrevet, men er snarere basert på iterativ mønstergjenkjenning eller statistiske læringsmetoder for å finne et "optimalt" antall klynger i dataene. Eksempler på metoder uten tilsyn analyser inkluderer selvorganiserende kart, nevral gass, k-betyr klyngeanalyser, hierarkisk klyngeanalyse, genomisk signalbehandling basert på klynger og modellbasert klyngeanalyse. For noen av disse metodene må brukeren også definere et avstandsmål mellom par av objekter. Selv om Pearson -korrelasjonskoeffisienten vanligvis brukes, har flere andre tiltak blitt foreslått og evaluert i litteraturen. Inndataene som brukes i klasseoppdagelsesanalyser er vanligvis basert på lister over gener som har høy informativitet (lav støy) basert på lave verdier av variasjonskoeffisienten eller høye verdier av Shannon -entropi, etc. Bestemmelse av det mest sannsynlige eller optimale antallet klynger hentet fra en analyse uten tilsyn kalles klyngegyldighet. Noen vanlige beregninger for klyngegyldighet er silhuettindeksen, Davies-Bouldin-indeksen, Dunns indeks eller Huberts statistikk.
  • Klasseprediksjonsanalyse: Denne tilnærmingen, kalt klassifisering med overvåking, etablerer grunnlaget for å utvikle en prediktiv modell som fremtidige ukjente testobjekter kan legges inn i for å forutsi det mest sannsynlige klassemedlemskapet til testobjektene. Overvåket analyse for klasseprediksjon innebærer bruk av teknikker som lineær regresjon, k-nærmeste nabo, læring av vektorkvantisering, beslutningstreanalyse, tilfeldige skoger, naive Bayes, logistisk regresjon, kjerneregresjon, kunstige nevrale nettverk, støttevektormaskiner, blanding av eksperter , og overvåket nevral gass. I tillegg brukes forskjellige metaheuristiske metoder, for eksempel genetiske algoritmer , selvtilpasning av kovariansematrisen, optimalisering av partikkelsverm og optimalisering av maurekoloni . Inndata for klasseprediksjon er vanligvis basert på filtrerte lister over gener som er prediktive for klassen, bestemt ved bruk av klassiske hypotesetester (neste avsnitt), Gini mangfoldsindeks eller informasjonsgevinst (entropi).
  • Hypotesedrevet statistisk analyse: Identifikasjon av statistisk signifikante endringer i genuttrykk blir ofte identifisert ved bruk av t-testen , ANOVA , Bayesian-metoden Mann – Whitney-testmetoder skreddersydd for mikroarray-datasett, som tar hensyn til flere sammenligninger eller klyngeanalyse . Disse metodene vurderer statistisk effekt basert på variasjonen i dataene og antall eksperimentelle replikater, og kan bidra til å minimere type I og type II feil i analysene.
  • Dimensjonell reduksjon: Analytikere reduserer ofte antall dimensjoner (gener) før dataanalyse. Dette kan innebære lineære tilnærminger som hovedkomponentanalyse (PCA), eller ikke-lineær mangfoldig læring (distansemetriklæring) ved bruk av kjerne-PCA, diffusjonskart, laplaciske egenkart, lokal lineær innebygging, lokalt bevarte anslag og Sammons kartlegging.
  • Nettverksbaserte metoder: Statistiske metoder som tar hensyn til den underliggende strukturen til gennettverk, som representerer enten assosiative eller årsakssammenheng eller avhengigheter mellom genprodukter. Vektet gen-co-ekspresjonsnettverksanalyse er mye brukt for å identifisere co-ekspresjonsmoduler og intramodulære hubgener. Moduler kan svare til celletyper eller veier. Sterkt tilkoblede intramodulære nav representerer best deres respektive moduler.

Microarray -data kan kreve ytterligere behandling med sikte på å redusere dimensjonaliteten til dataene for å hjelpe forståelsen og mer fokusert analyse. Andre metoder tillater analyse av data som består av et lavt antall biologiske eller tekniske replikater ; for eksempel samler Local Pooled Error (LPE) -testen standardavvik for gener med lignende ekspresjonsnivåer i et forsøk på å kompensere for utilstrekkelig replikasjon.

Kommentar

Forholdet mellom en sonde og mRNA som det forventes å oppdage er ikke trivielt. Noen mRNA kan krysshybridisere sonder i matrisen som skal detektere et annet mRNA. I tillegg kan mRNA oppleve amplifikasjonsskjevhet som er sekvens- eller molekylspesifikk. For det tredje kan prober som er designet for å påvise mRNA for et bestemt gen, stole på genomisk EST -informasjon som er feil forbundet med det genet.

Datavarehus

Microarray -data ble funnet å være mer nyttige sammenlignet med andre lignende datasett. Det store datamengden, spesialiserte formater (for eksempel MIAME ) og kurasjonsarbeid knyttet til datasettene krever at spesialiserte databaser lagrer dataene. En rekke datalagringsløsninger med åpen kildekode, for eksempel InterMine og BioMart , er laget for det spesifikke formålet å integrere forskjellige biologiske datasett, og også støtte analyse.

Alternative teknologier

Fremskritt i massivt parallell sekvensering har ført til utviklingen av RNA-Seq- teknologi, som gjør det mulig for en hel transkriptom haglegeværtilnærming å karakterisere og kvantifisere genuttrykk. I motsetning til mikroarrays, som trenger et referansegenom og transkriptom for å være tilgjengelig før selve mikroarrayen kan designes, kan RNA-Seq også brukes for nye modellorganismer hvis genom ikke er blitt sekvensert ennå.

Ordliste

  • En matrise eller lysbilde er en samling funksjoner plassert plassert i et todimensjonalt rutenett, arrangert i kolonner og rader.
  • Blokk eller underarray : en gruppe flekker, vanligvis laget i en utskriftsrunde; flere underarrayer/ blokker danner en matrise.
  • Tilfelle/kontroll : et eksperimentelt designparadigme spesielt egnet for systemene med to farger, der en tilstand valgt som kontroll (for eksempel sunt vev eller tilstand) sammenlignes med en endret tilstand (for eksempel et sykt vev eller en tilstand).
  • Kanal : fluorescensutgangen registrert i skanneren for en individuell fluorofor og kan til og med være ultrafiolett.
  • Fargestoff flip eller fargestoff bytte eller fluor reversering : gjensidig merking av DNA mål med de to fargestoffer for å gjøre rede for fargestoff skjevhet i eksperimenter.
  • Skanner : et instrument som brukes til å oppdage og kvantifisere intensiteten av fluorescens av flekker på et mikroarray -lysbilde, ved selektivt spennende fluoroforer med en laser og måling av fluorescensen med et filter (optikk) fotomultiplikatorsystem .
  • Spot eller funksjon : et lite område på et array -lysbilde som inneholder picomoles av spesifikke DNA -prøver.
  • For andre relevante termer, se:

Se også

Referanser

Eksterne linker