UniProt - UniProt

UniProt
UPlogo1.png
Innhold
Beskrivelse UniProt er Uni versal Prot ein-ressursen, et sentralt arkiv for proteindata som er opprettet ved å kombinere databasene Swiss-Prot, TrEMBL og PIR-PSD .
Datatyper
fanget
Proteinanmerkning
Organismer Alle
Kontakt
Forskningssenter EMBL-EBI , Storbritannia; SIB , Sveits; PIR , USA.
Primær sitat UniProt Consortium
Adgang
Dataformat Egendefinert flatfil, FASTA , GFF , RDF , XML .
Nettsted www .uniprot .org
www .uniprot .org /nyheter /
Last ned URL www .uniprot .org /nedlastinger og for nedlasting av komplette datasett ftp .uniprot .org
Nettjenestens URL Ja - JAVA API se info her & REST se info her
Verktøy
Internett Avansert søk, BLAST , Clustal O , bulkhenting /nedlasting, ID -kartlegging
Diverse
Tillatelse Creative Commons Attribution-NoDerivs
Versjonering Ja
Data frigivelse
frekvens
8 uker
Curation policy Ja - manuell og automatisk. Regler for automatisk merking generert av databasekuratorer og beregningsalgoritmer.
Bokmerkbare
enheter
Ja - både individuelle proteinoppføringer og søk

UniProt er en fritt tilgjengelig database med proteinsekvens og funksjonell informasjon, mange oppføringer er hentet fra genom -sekvenseringsprosjekter . Den inneholder en stor mengde informasjon om den biologiske funksjonen til proteiner som stammer fra forskningslitteraturen. Det vedlikeholdes av UniProt -konsortiet, som består av flere europeiske bioinformatikkorganisasjoner og en stiftelse fra Washington, DC , USA.

UniProt -konsortiet

UniProt -konsortiet består av European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) og Protein Information Resource (PIR). EBI, som ligger på Wellcome Trust Genome Campus i Hinxton, Storbritannia, er vert for en stor ressurs med bioinformatikkdatabaser og tjenester. SIB, som ligger i Genève, Sveits, vedlikeholder ExPASy (Expert Protein Analysis System) -servere som er en sentral ressurs for proteomikkverktøy og databaser. PIR, arrangert av National Biomedical Research Foundation (NBRF) ved Georgetown University Medical Center i Washington, DC, USA, er arving til den eldste proteinsekvensdatabasen, Margaret Dayhoff 's Atlas of Protein Sequence and Structure, første gang utgitt i 1965. I 2002 gikk EBI, SIB og PIR sammen som UniProt -konsortiet.

Røttene til UniProt -databaser

Hvert konsortiummedlem er sterkt involvert i vedlikehold og merknad av proteindatabaser. Inntil nylig produserte EBI og SIB sammen Swiss-Prot- og TrEMBL-databasene, mens PIR produserte Proteinsekvensdatabasen (PIR-PSD). Disse databasene eksisterte samtidig med forskjellig proteinsekvensdekning og annotasjonsprioriteter.

Swiss-Prot ble opprettet i 1986 av Amos Bairoch under doktorgraden og utviklet av Swiss Institute of Bioinformatics og senere utviklet av Rolf Apweiler ved European Bioinformatics Institute . Swiss-Prot hadde som mål å tilby pålitelige proteinsekvenser assosiert med et høyt annotasjonsnivå (for eksempel beskrivelsen av funksjonen til et protein, dets domenestruktur , post-translasjonelle modifikasjoner , varianter, etc.), et minimalt nivå av redundans og høy integrasjonsnivå med andre databaser. I erkjennelse av at sekvensdata ble generert i et tempo som oversteg Swiss-Prots evne til å følge med, ble TrEMBL (Translated EMBL Nucleotide Sequence Data Library) opprettet for å gi automatiserte merknader for de proteinene som ikke er i Swiss-Prot. I mellomtiden vedlikeholdt PIR PIR-PSD og relaterte databaser, inkludert iProClass , en database med proteinsekvenser og kuraterte familier.

Konsortiets medlemmer samlet sine overlappende ressurser og kompetanse, og lanserte UniProt i desember 2003.

Organisering av UniProt -databaser

UniProt tilbyr fire kjernedatabaser: UniProtKB (med underdeler Swiss-Prot og TrEMBL), UniParc, UniRef.

UniProtKB

UniProt Knowledgebase (UniProtKB) er en proteindatabase som er delvis kurert av eksperter, som består av to seksjoner: UniProtKB/Swiss-Prot (som inneholder gjennomgåtte, manuelt kommenterte oppføringer) og UniProtKB/TrEMBL (som inneholder uanmeldte, automatisk kommenterte oppføringer). Fra og med 19. mars 2014 inneholder utgivelsen "2014_03" av UniProtKB/Swiss-Prot 542 782 sekvensoppføringer (omfattende 193 019 802 aminosyrer abstrakt fra 226 896 referanser) og utgivelse "2014_03" av UniProtKB/TrEMBL inneholder 54 247 468 sekvensoppføringer (omfattende 17 207 833 179 aminosyrer).

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot er en manuelt kommentert, ikke-redundant proteinsekvensdatabase. Den kombinerer informasjon hentet fra vitenskapelig litteratur og biocurator -evaluert beregningsanalyse. Målet med UniProtKB/Swiss-Prot er å gi all kjent relevant informasjon om et bestemt protein. Merknader blir jevnlig gjennomgått for å holde tritt med gjeldende vitenskapelige funn. Den manuelle merknaden av en oppføring innebærer detaljert analyse av proteinsekvensen og av den vitenskapelige litteraturen.

Sekvenser fra det samme genet og den samme arten slås sammen til den samme databaseoppføringen. Forskjeller mellom sekvenser identifiseres, og årsaken til dem er dokumentert (for eksempel alternativ spleising , naturlig variasjon , feil initieringssteder , feil eksongrenser , rammeskift , uidentifiserte konflikter). En rekke sekvensanalyseverktøy brukes i kommentaren til UniProtKB/Swiss-Prot-oppføringer. Dataspådommer evalueres manuelt, og relevante resultater velges for inkludering i oppføringen. Disse spådommene inkluderer posttranslasjonelle modifikasjoner, transmembrane domener og topologi , signalpeptider , domeneidentifikasjon og proteinfamilieklassifisering .

Relevante publikasjoner identifiseres ved å søke i databaser som PubMed . Hele teksten i hvert papir blir lest, og informasjon blir trukket ut og lagt til i oppføringen. Merknader fra vitenskapelig litteratur inkluderer, men er ikke begrenset til:

Merkede oppføringer gjennomgår kvalitetssikring før de inkluderes i UniProtKB/Swiss-Prot. Når nye data blir tilgjengelige, oppdateres oppføringene.

UniProtKB/TrEMBL

UniProtKB/TrEMBL inneholder beregningsmessig analyserte poster av høy kvalitet, som er beriket med automatisk merknad. Den ble introdusert som svar på økt dataflyt som følge av genomprosjekter, ettersom den tid- og arbeidskrevende manuelle merkingsprosessen til UniProtKB/Swiss-Prot ikke kunne utvides til å omfatte alle tilgjengelige proteinsekvenser. Oversettelsene av kommenterte kodesekvenser i EMBL-Bank/GenBank/DDBJ-nukleotidsekvensdatabasen blir automatisk behandlet og lagt inn i UniProtKB/TrEMBL. UniProtKB/TrEMBL inneholder også sekvenser fra PDB , og fra genforutsigelse , inkludert Ensembl , RefSeq og CCDS . Siden 22. juli 2021 inkluderer den også spådd med AlphaFold tertiære strukturer.

UniParc

UniProt Archive (UniParc) er en omfattende og ikke-redundant database, som inneholder alle proteinsekvensene fra de viktigste, offentlig tilgjengelige proteinsekvensdatabasene. Proteiner kan eksistere i flere forskjellige kildedatabaser og i flere kopier i samme database. For å unngå redundans lagrer UniParc hver unike sekvens bare én gang. Identiske sekvenser slås sammen, uavhengig av om de er fra samme eller forskjellige arter. Hver sekvens får en stabil og unik identifikator (UPI), noe som gjør det mulig å identifisere det samme proteinet fra forskjellige kildedatabaser. UniParc inneholder bare proteinsekvenser, uten merknad. Databasekryssreferanser i UniParc-oppføringer gjør at ytterligere informasjon om proteinet kan hentes fra kildedatabasene. Når sekvenser i kildedatabasene endres, spores disse endringene av UniParc og historien til alle endringene arkiveres.

Kildedatabaser

For tiden inneholder UniParc proteinsekvenser fra følgende offentlig tilgjengelige databaser:

UniRef

UniProt Reference Clusters (UniRef) består av tre databaser med grupperte sett med proteinsekvenser fra UniProtKB og utvalgte UniParc -poster. UniRef100 -databasen kombinerer identiske sekvenser og sekvensfragmenter (fra hvilken som helst organisme ) til en enkelt UniRef -oppføring. Sekvensen til et representativt protein, tiltredelsesnumrene til alle de sammenslåtte oppføringene og lenker til de tilsvarende UniProtKB- og UniParc -postene vises. UniRef100-sekvenser er gruppert ved hjelp av CD-HIT- algoritmen for å bygge UniRef90 og UniRef50. Hver klynge er sammensatt av sekvenser som har henholdsvis minst 90% eller 50% sekvensidentitet til den lengste sekvensen. Klyngesekvenser reduserer databasestørrelsen betydelig, noe som muliggjør raskere sekvenssøk.

UniRef er tilgjengelig fra UniProt FTP -nettsted .

Finansiering

UniProt er finansiert av tilskudd fra National Human Genome Research Institute , National Institutes of Health (NIH), Europakommisjonen , den sveitsiske føderale regjeringen gjennom Federal Office of Education and Science, NCI-caBIG og det amerikanske forsvarsdepartementet.

Referanser

Eksterne linker