Koderegion - Coding region

Den kodende regionen til et gen , også kjent som CDS (fra kodende DNA -sekvens ), er den delen av et genet DNA eller RNA som koder for protein . Å studere kodingsregioners lengde, sammensetning, regulering, spleising, strukturer og funksjoner sammenlignet med ikke-kodende regioner over forskjellige arter og tidsperioder kan gi en betydelig mengde viktig informasjon om genorganisering og utvikling av prokaryoter og eukaryoter . Dette kan ytterligere hjelpe til med å kartlegge det menneskelige genomet og utvikle genterapi.

Definisjon

Selv om dette begrepet også noen ganger brukes om hverandre med exon , er det ikke nøyaktig det samme: eksonet er sammensatt av kodingsområdet, så vel som 3 'og 5' uoversatte regioner i RNA, og derfor vil et ekson være delvis består av kodeområder. De 3 'og 5' ikke-oversatte regionene i RNA, som ikke koder for protein, kalles ikke-kodende regioner og diskuteres ikke på denne siden.

Det er ofte forvirring mellom kodende regioner og eksomer, og det er et klart skille mellom disse begrepene. Mens eksomet refererer til alle eksoner i et genom, refererer kodingsområdet til en entall seksjon av DNA eller RNA som spesifikt koder for en bestemt type protein.  

Historie

I 1978 publiserte Walter Gilbert "Why Genes in Pieces" som først begynte å utforske ideen om at genet er en mosaikk-at hver full nukleinsyrestreng ikke er kodet kontinuerlig, men blir avbrutt av "stille" ikke-kodende regioner. Dette var den første indikasjonen på at det måtte skilles mellom de deler av genomet som koder for protein, nå kalt kodende regioner, og de som ikke gjør det.

Sammensetning

Punktmutasjonstyper: overganger (blå) er forhøyet sammenlignet med transversjoner (rød) i GC-rike kodingsområder.

Bevisene tyder på at det er en generell gjensidig avhengighet mellom basesammensetningsmønstre og koding av regionens tilgjengelighet. Koderegionen antas å inneholde et høyere GC-innhold enn ikke-kodende regioner. Det er videre forskning som oppdaget at jo lengre kodestrengen er, desto høyere er GC-innholdet. Korte kodingstråder er relativt fremdeles GC-fattige, lik det lave GC-innholdet i translasjonelle stoppkodoner for basesammensetningen som TAG, TAA og TGA.

GC-rike områder er også hvor forholdet mellom punktmutasjon type er noe endret: det er flere overganger , som er endringer fra purin til purin- eller pyrimidinbase å pyrimidin, sammenlignet med transversions , som er endringer fra purin Til pyrimidin eller pyrimidin til purin. Det er mindre sannsynlig at overgangene endrer den kodede aminosyren og forblir en stille mutasjon (spesielt hvis de forekommer i det tredje nukleotidet i et kodon) som vanligvis er gunstig for organismen under translasjon og proteindannelse.

Dette indikerer at viktige kodingsområder (genrike) er høyere i GC-innhold og mer stabile og motstandsdyktige mot mutasjon sammenlignet med tilbehør og ikke-essensielle regioner (genfattige). Imidlertid er det fortsatt uklart om dette skjedde gjennom nøytral og tilfeldig mutasjon eller gjennom et utvalgsmønster . Det er også debatt om metodene som brukes, for eksempel genvinduer, for å fastslå forholdet mellom GC-innhold og kodeområde er nøyaktige og objektive.

Struktur og funksjon

Transkripsjon : RNA Polymerase (RNAP) bruker en mal-DNA-streng og begynner å kode ved promotorsekvensen (grønn) og slutter ved terminatorsekvensen (rød) for å omfatte hele kodingsområdet i pre-mRNA (teal). Pre-mRNA polymeriseres 5 'til 3' og mal-DNA leses 3 'til 5'
Et elektronmikrograf av DNA-tråder dekorert av hundrevis av RNAP-molekyler som er for små til å løses. Hver RNAP transkriberer en RNA -streng, som kan sees forgrenes fra DNA. "Start" indikerer 3' -enden av DNA, hvor RNAP starter transkripsjon; "End" indikerer 5' -enden, der de lengre RNA -molekylene er fullstendig transkribert.

I DNA flankeres det kodende området av promotorsekvensen på 5' -enden av malstrengen og avslutningssekvensen på 3' -enden. Under transkripsjon , den RNA Polymerase (rnap) binder seg til promotorsekvensen og beveger seg langs templattråden til den kodende regionen. Rnap legger så til RNA- nukleotider komplementære til den kodende region for å danne mRNA , idet man anvendte uracil i stedet for tymin . Dette fortsetter til RNAP når avslutningssekvensen.

Etter transkripsjon og modning omfatter det modne mRNA som dannes flere deler som er viktige for dets eventuelle oversettelse til protein . Koderegionen i et mRNA er flankert av det 5'- oversatte området (5'-UTR) og 3'- oversatte området (3'-UTR), 5'- hetten og Poly-A-halen . Under oversettelsen , den ribosomet letter feste av tRNA til den kodende region, 3 nukleotider i en tid ( kodon ). TRNA overfører sine assosierte aminosyrer til den voksende polypeptidkjeden , og til slutt danner proteinet definert i den opprinnelige DNA -kodende regionen.

Koderegionen (teal) flankeres av uoversatte regioner, 5' -hetten og poly (A) halen som sammen danner det modne mRNA .

Regulering

Koderegionen kan modifiseres for å regulere genuttrykk.

Alkylering er en form for regulering av kodeområdet. Genet som ville ha blitt transkribert kan dempes ved å målrette mot en spesifikk sekvens. Basene i denne sekvensen ville bli blokkert ved bruk av alkylgrupper , som skaper dempningseffekt .

Mens reguleringen av genuttrykk styrer overflod av RNA eller protein laget i en celle, kan reguleringen av disse mekanismene styres av en regulatorisk sekvens som er funnet før den åpne leserammen begynner i en DNA -streng. Den regulatoriske sekvensen vil deretter bestemme plasseringen og tidspunktet for ekspresjonen for et proteinkodende område.

RNA -spleising bestemmer til slutt hvilken del av sekvensen som blir oversatt og uttrykt, og denne prosessen innebærer å kutte ut introner og sette sammen eksoner. Hvor RNA -spliceosom -kuttene imidlertid styres av gjenkjennelsen av spleisesteder , spesielt 5' -spleisingsstedet, som er et av substratene for det første trinnet i spleising. Koderegionene er innenfor eksonene, som blir kovalent slått sammen for å danne det modne messenger -RNA .

Mutasjoner

Mutasjoner i kodeområdet kan ha svært forskjellige effekter på fenotypen til organismen. Selv om noen mutasjoner i denne regionen av DNA/RNA kan resultere i fordelaktige endringer, kan andre være skadelige og noen ganger til og med dødelige for en organismes overlevelse. I kontrast kan det hende at endringer i kodeområdet ikke alltid resulterer i påviselige endringer i fenotypen.

Mutasjonstyper

Eksempler på de forskjellige formene for punktmutasjoner som kan eksistere innenfor kodingsområder. Slike endringer kan ha fenotypiske endringer, eller ikke, avhengig av om de koder for forskjellige aminosyrer under oversettelse eller ikke.

Det er forskjellige former for mutasjoner som kan forekomme i kodende regioner. En form er stille mutasjoner , der en endring i nukleotider ikke resulterer i noen endring i aminosyre etter transkripsjon og translasjon. Det finnes også tullmutasjoner , der grunnendringer i kodingsområdet koder for et for tidlig stoppkodon, og produserer et kortere sluttprotein. Punktmutasjoner , eller endringer i enkelt basepar i kodeområdet, som koder for forskjellige aminosyrer under oversettelse, kalles missense mutasjoner . Andre typer mutasjoner inkluderer rammeskiftmutasjoner som innsetting eller sletting .

Formasjon

Noen former for mutasjoner er arvelige ( germline -mutasjoner ), eller overføres fra en forelder til dets avkom. Slike muterte kodende regioner er tilstede i alle celler i organismen. Andre former for mutasjoner ervervet ( somatiske mutasjoner ) i løpet av organismenes levetid, og er kanskje ikke konstant celle-til-celle. Disse endringene kan være forårsaket av mutagener , kreftfremkallende stoffer eller andre miljøagenter (f.eks. UV ). Ervervede mutasjoner kan også være et resultat av kopifeil under DNA-replikasjon og blir ikke overført til avkom. Endringer i kodeområdet kan også være de novo (nytt); slike endringer antas å skje kort tid etter befruktning , noe som resulterer i en mutasjon som er tilstede i avkomets DNA mens den er fraværende i både sædceller og eggceller.

Forebygging

Det finnes flere transkripsjons- og oversettelsesmekanismer for å forhindre dødelighet på grunn av skadelige mutasjoner i kodeområdet. Slike tiltak inkluderer korrekturlesing av noen DNA -polymeraser under replikasjon, feilmatchreparasjon etter replikering og ' Wobble Hypothesis ' som beskriver degenerering av den tredje basen i et mRNA -kodon.

Begrensede kodingsområder (CCR)

Selv om det er velkjent at genomet til ett individ kan ha omfattende forskjeller sammenlignet med genomet til et annet, har nyere forskning funnet at noen kodingsområder er svært begrensede eller motstandsdyktige mot mutasjon mellom individer av samme art. Dette ligner på begrepet interspecial constraint i bevarte sekvenser . Forskere kalte disse svært begrensede sekvensene begrensede kodingsområder (CCR), og har også oppdaget at slike regioner kan være involvert i høyt rensende utvalg . I gjennomsnitt er det omtrent 1 proteinendrende mutasjon hver 7. kodende base, men noen CCR kan ha over 100 baser i rekkefølge uten observerte proteinendrende mutasjoner, noen uten engang synonyme mutasjoner. Disse begrensningsmønstrene mellom genomene kan gi ledetråder til kildene til sjeldne utviklingssykdommer eller potensielt til og med embryonal dødelighet. Klinisk validerte varianter og de novo mutasjoner i CCR har tidligere vært knyttet til lidelser som infantil epileptisk encefalopati , utviklingsforsinkelse og alvorlig hjertesykdom.

Kodesekvensdeteksjon

Selv om identifisering av åpne leserammer i en DNA -sekvens er grei, er det ikke å identifisere kodende sekvenser, fordi cellen bare oversetter en undersett av alle åpne leserammer til proteiner. For øyeblikket bruker CDS -prediksjon prøvetaking og sekvensering av mRNA fra celler, selv om det fortsatt er problemet med å bestemme hvilke deler av et gitt mRNA som faktisk er oversatt til protein. CDS -prediksjon er en delmengde av genforutsigelse , sistnevnte inkluderer også prediksjon av DNA -sekvenser som koder ikke bare for protein, men også for andre funksjonelle elementer som RNA -gener og regulatoriske sekvenser.

I både prokaryoter og eukaryoter , gen overlapping forekommer relativt ofte i både DNA- og RNA-virus som en evolusjonær fordel for å redusere genomstørrelse og samtidig beholde evnen til å produsere forskjellige proteiner fra de tilgjengelige kodende områder. For både DNA og RNA kan parvise justeringer oppdage overlappende kodingsområder, inkludert korte åpne leserammer i virus, men vil kreve en kjent kodende streng for å sammenligne den potensielle overlappende kodende strengen med. En alternativ metode ved bruk av enkeltgenomsekvenser ville ikke kreve flere genom -sekvenser for å utføre sammenligninger, men ville kreve minst 50 nukleotider som overlapper hverandre for å være følsomme.

Se også

  • Kodestreng DNA -strengen som koder for et protein
  • Exon Hele delen av tråden som transkriberes
  • Eldre mRNA Den delen av mRNA -transkripsjonsproduktet som er oversatt
  • Genstruktur De andre elementene som utgjør et gen
  • Ikke-kodende DNA Deler av genomer som ikke koder for proteinkodende gener
  • Ikke-kodende RNA- molekyler som ikke koder for proteiner, så har ingen CDS

Referanser