UniProt - UniProt
Innhold | |
---|---|
Beskrivelse | UniProt er Uni versal Prot ein-ressursen, et sentralt arkiv for proteindata som er opprettet ved å kombinere databasene Swiss-Prot, TrEMBL og PIR-PSD . |
Datatyper fanget |
Proteinanmerkning |
Organismer | Alle |
Kontakt | |
Forskningssenter | EMBL-EBI , Storbritannia; SIB , Sveits; PIR , USA. |
Primær sitat | UniProt Consortium |
Adgang | |
Dataformat | Egendefinert flatfil, FASTA , GFF , RDF , XML . |
Nettsted |
www www |
Last ned URL |
www |
Nettjenestens URL | Ja - JAVA API se info her & REST se info her |
Verktøy | |
Internett | Avansert søk, BLAST , Clustal O , bulkhenting /nedlasting, ID -kartlegging |
Diverse | |
Tillatelse | Creative Commons Attribution-NoDerivs |
Versjonering | Ja |
Data frigivelse frekvens |
8 uker |
Curation policy | Ja - manuell og automatisk. Regler for automatisk merking generert av databasekuratorer og beregningsalgoritmer. |
Bokmerkbare enheter |
Ja - både individuelle proteinoppføringer og søk |
UniProt er en fritt tilgjengelig database med proteinsekvens og funksjonell informasjon, mange oppføringer er hentet fra genom -sekvenseringsprosjekter . Den inneholder en stor mengde informasjon om den biologiske funksjonen til proteiner som stammer fra forskningslitteraturen. Det vedlikeholdes av UniProt -konsortiet, som består av flere europeiske bioinformatikkorganisasjoner og en stiftelse fra Washington, DC , USA.
UniProt -konsortiet
UniProt -konsortiet består av European Bioinformatics Institute (EBI), Swiss Institute of Bioinformatics (SIB) og Protein Information Resource (PIR). EBI, som ligger på Wellcome Trust Genome Campus i Hinxton, Storbritannia, er vert for en stor ressurs med bioinformatikkdatabaser og tjenester. SIB, som ligger i Genève, Sveits, vedlikeholder ExPASy (Expert Protein Analysis System) -servere som er en sentral ressurs for proteomikkverktøy og databaser. PIR, arrangert av National Biomedical Research Foundation (NBRF) ved Georgetown University Medical Center i Washington, DC, USA, er arving til den eldste proteinsekvensdatabasen, Margaret Dayhoff 's Atlas of Protein Sequence and Structure, første gang utgitt i 1965. I 2002 gikk EBI, SIB og PIR sammen som UniProt -konsortiet.
Røttene til UniProt -databaser
Hvert konsortiummedlem er sterkt involvert i vedlikehold og merknad av proteindatabaser. Inntil nylig produserte EBI og SIB sammen Swiss-Prot- og TrEMBL-databasene, mens PIR produserte Proteinsekvensdatabasen (PIR-PSD). Disse databasene eksisterte samtidig med forskjellig proteinsekvensdekning og annotasjonsprioriteter.
Swiss-Prot ble opprettet i 1986 av Amos Bairoch under doktorgraden og utviklet av Swiss Institute of Bioinformatics og senere utviklet av Rolf Apweiler ved European Bioinformatics Institute . Swiss-Prot hadde som mål å tilby pålitelige proteinsekvenser assosiert med et høyt annotasjonsnivå (for eksempel beskrivelsen av funksjonen til et protein, dets domenestruktur , post-translasjonelle modifikasjoner , varianter, etc.), et minimalt nivå av redundans og høy integrasjonsnivå med andre databaser. I erkjennelse av at sekvensdata ble generert i et tempo som oversteg Swiss-Prots evne til å følge med, ble TrEMBL (Translated EMBL Nucleotide Sequence Data Library) opprettet for å gi automatiserte merknader for de proteinene som ikke er i Swiss-Prot. I mellomtiden vedlikeholdt PIR PIR-PSD og relaterte databaser, inkludert iProClass , en database med proteinsekvenser og kuraterte familier.
Konsortiets medlemmer samlet sine overlappende ressurser og kompetanse, og lanserte UniProt i desember 2003.
Organisering av UniProt -databaser
UniProt tilbyr fire kjernedatabaser: UniProtKB (med underdeler Swiss-Prot og TrEMBL), UniParc, UniRef.
UniProtKB
UniProt Knowledgebase (UniProtKB) er en proteindatabase som er delvis kurert av eksperter, som består av to seksjoner: UniProtKB/Swiss-Prot (som inneholder gjennomgåtte, manuelt kommenterte oppføringer) og UniProtKB/TrEMBL (som inneholder uanmeldte, automatisk kommenterte oppføringer). Fra og med 19. mars 2014 inneholder utgivelsen "2014_03" av UniProtKB/Swiss-Prot 542 782 sekvensoppføringer (omfattende 193 019 802 aminosyrer abstrakt fra 226 896 referanser) og utgivelse "2014_03" av UniProtKB/TrEMBL inneholder 54 247 468 sekvensoppføringer (omfattende 17 207 833 179 aminosyrer).
UniProtKB/Swiss-Prot
UniProtKB/Swiss-Prot er en manuelt kommentert, ikke-redundant proteinsekvensdatabase. Den kombinerer informasjon hentet fra vitenskapelig litteratur og biocurator -evaluert beregningsanalyse. Målet med UniProtKB/Swiss-Prot er å gi all kjent relevant informasjon om et bestemt protein. Merknader blir jevnlig gjennomgått for å holde tritt med gjeldende vitenskapelige funn. Den manuelle merknaden av en oppføring innebærer detaljert analyse av proteinsekvensen og av den vitenskapelige litteraturen.
Sekvenser fra det samme genet og den samme arten slås sammen til den samme databaseoppføringen. Forskjeller mellom sekvenser identifiseres, og årsaken til dem er dokumentert (for eksempel alternativ spleising , naturlig variasjon , feil initieringssteder , feil eksongrenser , rammeskift , uidentifiserte konflikter). En rekke sekvensanalyseverktøy brukes i kommentaren til UniProtKB/Swiss-Prot-oppføringer. Dataspådommer evalueres manuelt, og relevante resultater velges for inkludering i oppføringen. Disse spådommene inkluderer posttranslasjonelle modifikasjoner, transmembrane domener og topologi , signalpeptider , domeneidentifikasjon og proteinfamilieklassifisering .
Relevante publikasjoner identifiseres ved å søke i databaser som PubMed . Hele teksten i hvert papir blir lest, og informasjon blir trukket ut og lagt til i oppføringen. Merknader fra vitenskapelig litteratur inkluderer, men er ikke begrenset til:
- Protein- og gennavn
- Funksjon
- Enzym -spesifikk informasjon, slik som katalytisk aktivitet , kofaktorer og katalytiske rester
- Subcellulær plassering
- Protein-protein-interaksjoner
- Mønster for uttrykk
- Steder og roller for betydelige domener og nettsteder
- Ion -, substrat -og kofaktorbindingssteder
- Proteinvariantformer produsert av naturlig genetisk variasjon, RNA-redigering , alternativ spleising, proteolytisk prosessering og post-translasjonell modifikasjon
Merkede oppføringer gjennomgår kvalitetssikring før de inkluderes i UniProtKB/Swiss-Prot. Når nye data blir tilgjengelige, oppdateres oppføringene.
UniProtKB/TrEMBL
UniProtKB/TrEMBL inneholder beregningsmessig analyserte poster av høy kvalitet, som er beriket med automatisk merknad. Den ble introdusert som svar på økt dataflyt som følge av genomprosjekter, ettersom den tid- og arbeidskrevende manuelle merkingsprosessen til UniProtKB/Swiss-Prot ikke kunne utvides til å omfatte alle tilgjengelige proteinsekvenser. Oversettelsene av kommenterte kodesekvenser i EMBL-Bank/GenBank/DDBJ-nukleotidsekvensdatabasen blir automatisk behandlet og lagt inn i UniProtKB/TrEMBL. UniProtKB/TrEMBL inneholder også sekvenser fra PDB , og fra genforutsigelse , inkludert Ensembl , RefSeq og CCDS . Siden 22. juli 2021 inkluderer den også spådd med AlphaFold tertiære strukturer.
UniParc
UniProt Archive (UniParc) er en omfattende og ikke-redundant database, som inneholder alle proteinsekvensene fra de viktigste, offentlig tilgjengelige proteinsekvensdatabasene. Proteiner kan eksistere i flere forskjellige kildedatabaser og i flere kopier i samme database. For å unngå redundans lagrer UniParc hver unike sekvens bare én gang. Identiske sekvenser slås sammen, uavhengig av om de er fra samme eller forskjellige arter. Hver sekvens får en stabil og unik identifikator (UPI), noe som gjør det mulig å identifisere det samme proteinet fra forskjellige kildedatabaser. UniParc inneholder bare proteinsekvenser, uten merknad. Databasekryssreferanser i UniParc-oppføringer gjør at ytterligere informasjon om proteinet kan hentes fra kildedatabasene. Når sekvenser i kildedatabasene endres, spores disse endringene av UniParc og historien til alle endringene arkiveres.
Kildedatabaser
For tiden inneholder UniParc proteinsekvenser fra følgende offentlig tilgjengelige databaser:
- INSDC EMBL -Bank / DDBJ / GenBank nukleotidsekvensdatabaser
- Ensembl
- European Patent Office (EPO)
- FlyBase: det primære depotet for genetiske og molekylære data for insektfamilien Drosophilidae (FlyBase)
- H-invitasjonsdatabase (H-Inv)
- Internasjonal proteinindeks (IPI)
- Japan Patent Office (JPO)
- Proteininformasjonsressurs (PIR-PSD)
- Proteindatabank (PDB)
- Protein Research Foundation (PRF)
- RefSeq
- Saccharomyces genomdatabase (SGD)
- The Arabidopsis Information Resource (TAIR)
- TROME
- US Patent Office (USPTO)
- UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot proteinisoformer, UniProtKB/TrEMBL
- Vertebrate and Genome Annotation Database (VEGA)
- WormBase
UniRef
UniProt Reference Clusters (UniRef) består av tre databaser med grupperte sett med proteinsekvenser fra UniProtKB og utvalgte UniParc -poster. UniRef100 -databasen kombinerer identiske sekvenser og sekvensfragmenter (fra hvilken som helst organisme ) til en enkelt UniRef -oppføring. Sekvensen til et representativt protein, tiltredelsesnumrene til alle de sammenslåtte oppføringene og lenker til de tilsvarende UniProtKB- og UniParc -postene vises. UniRef100-sekvenser er gruppert ved hjelp av CD-HIT- algoritmen for å bygge UniRef90 og UniRef50. Hver klynge er sammensatt av sekvenser som har henholdsvis minst 90% eller 50% sekvensidentitet til den lengste sekvensen. Klyngesekvenser reduserer databasestørrelsen betydelig, noe som muliggjør raskere sekvenssøk.
UniRef er tilgjengelig fra UniProt FTP -nettsted .
Finansiering
UniProt er finansiert av tilskudd fra National Human Genome Research Institute , National Institutes of Health (NIH), Europakommisjonen , den sveitsiske føderale regjeringen gjennom Federal Office of Education and Science, NCI-caBIG og det amerikanske forsvarsdepartementet.