Uttrykt sekvensmerke - Expressed sequence tag

I genetikk er en uttrykt sekvenskode ( EST ) en kort undersekvens av en cDNA- sekvens. EST kan brukes til å identifisere gentranskripsjoner , og var medvirkende til genfunn og til bestemmelse av gensekvens. Identifiseringen av EST har gått raskt, med omtrent 74,2 millioner EST nå tilgjengelig i offentlige databaser (f.eks. GenBank 1. januar 2013, alle arter). EST -tilnærminger har i stor grad blitt erstattet av hele genom- og transkriptomsekvensering og metagenomsekvensering.

En EST er resultatet av one-shot sekvensering av et klonet cDNA . CDNAene som brukes til EST -generasjon er vanligvis individuelle kloner fra et cDNA -bibliotek . Den resulterende sekvensen er et relativt lavkvalitetsfragment hvis lengde er begrenset av dagens teknologi til omtrent 500 til 800 nukleotider . Fordi disse klonene består av DNA som er komplementær til mRNA, representerer EST -ene deler av uttrykte gener. De kan være representert i databaser som enten cDNA/mRNA -sekvens eller som det motsatte komplementet til mRNA, malstrengen .

Man kan kartlegge EST -er til spesifikke kromosomsteder ved hjelp av fysiske kartleggingsteknikker , for eksempel stråling hybrid kartlegging , Happy mapping eller FISH . Alternativt, hvis genomet til organismen som oppstod EST har blitt sekvensert, kan man justere EST -sekvensen til det genomet ved hjelp av en datamaskin.

Den nåværende forståelsen av det menneskelige settet med gener (fra 2006) inkluderer eksistensen av tusenvis av gener som utelukkende er basert på EST -bevis. I denne forbindelse har EST blitt et verktøy for å avgrense de forutsagte transkripsjonene for disse genene, noe som fører til forutsigelse av deres proteinprodukter og til slutt deres funksjon. Videre gir situasjonen der disse ESTene oppnås (vev, organ, sykdomstilstand - f.eks. Kreft ) informasjon om forholdene der det tilsvarende genet virker. EST inneholder nok informasjon til å tillate utforming av presise sonder for DNA -mikroarrays som deretter kan brukes til å bestemme genuttrykksprofiler .

Noen forfattere bruker begrepet "EST" for å beskrive gener som det finnes liten eller ingen ytterligere informasjon foruten taggen.

Historie

I 1979 utvidet team ved Harvard og Caltech den grunnleggende ideen om å lage DNA -kopier av mRNA in vitro til å forsterke et bibliotek av slike i bakterielle plasmider.

I 1982 ble ideen om å velge tilfeldige eller semi-tilfeldige kloner fra et slikt cDNA-bibliotek for sekvensering utforsket av Greg Sutcliffe og kolleger.

I 1983 uttalte Putney et al. sekvenserte 178 kloner fra et kaninmuskel -cDNA -bibliotek.

I 1991 myntet Adams og medarbeidere begrepet EST og startet mer systematisk sekvensering som et prosjekt (starter med 600 hjerne-cDNA).

Datakilder og merknader

dbEST

DbEST er en divisjon av Genbank etablert i 1992. Når det gjelder GenBank , blir data i dbEST sendt direkte av laboratorier over hele verden og er ikke kuratert.

EST fortsetter

På grunn av måten EST blir sekvensert på, er mange forskjellige uttrykte sekvensmerker ofte delsekvenser som tilsvarer det samme mRNA for en organisme. I et forsøk på å redusere antall uttrykte sekvensetiketter for nedstrøms genoppdagelsesanalyser, samlet flere grupper uttrykte sekvensmerker inn i EST -konti . Eksempel på ressurser som gir EST -konti inkluderer: TIGR -genindekser, Unigene og STACK

Å konstruere EST -contigs er ikke trivielt og kan gi artefakter (contigs som inneholder to forskjellige genprodukter). Når den komplette genom -sekvensen til en organisme er tilgjengelig og transkripsjoner er kommentert, er det mulig å omgå kontigmontering og direkte matche transkripsjoner med EST. Denne tilnærmingen brukes i TissueInfo -systemet (se nedenfor) og gjør det enkelt å koble kommentarer i den genomiske databasen til vevsinformasjon levert av EST -data.

Informasjon om vev

High-throughput analyser av ESTer støter ofte på lignende datahåndteringsutfordringer. En første utfordring er at vevets opprinnelse til EST -biblioteker er beskrevet på vanlig engelsk i dbEST. Dette gjør det vanskelig å skrive programmer som entydig kan fastslå at to EST -biblioteker ble sekvensert fra det samme vevet. På samme måte er sykdomstilstander for vevet ikke kommentert på en beregningsmessig vennlig måte. For eksempel er kreftopprinnelsen til et bibliotek ofte blandet med vevsnavnet (f.eks. Vevsnavnet " glioblastoma " indikerer at EST -biblioteket ble sekvensert fra hjernevev og sykdomstilstanden er kreft). Med det bemerkelsesverdige unntaket for kreft, er sykdomstilstanden ofte ikke registrert i dbEST -oppføringer. TissueInfo -prosjektet ble startet i 2000 for å hjelpe til med disse utfordringene. Prosjektet gir kuraterte data (oppdateres daglig) for å disambiguere vevsopprinnelse og sykdomstilstand (kreft/ikke -kreft), tilbyr en vevsontologi som knytter vev og organer ved "er en del av" relasjoner (dvs. formaliserer kunnskap om at hypothalamus er en del av hjernen , og at hjernen er en del av sentralnervesystemet) og distribuerer programvare med åpen kildekode for å koble transkripsjonskommentarer fra sekvenserte genomer til vevsuttrykksprofiler beregnet med data i dbEST.

Se også

Referanser

Eksterne linker

Vevsinformasjon