Fylogenetisk tildeling av navngitte globale utbruddslinjer - Phylogenetic Assignment of Named Global Outbreak Lineages
Første utgivelse | 30. april 2020 |
---|---|
Stabil utgivelse | |
Oppbevaringssted | github |
Skrevet inn | Python |
Tillatelse | GNU General Public License v3.0 |
Nettsted |
pangolin |
The Phylogenetic Assignment of Named Global Outbreak Lineages ( PANGOLIN ) er et programvareverktøy utviklet av medlemmer av laboratoriet til Andrew Rambaut , med en tilhørende webapplikasjon utviklet av Center for Genomic Pathogen Surveillance i South Cambridgeshire . Formålet er å implementere en dynamisk nomenklatur (kjent som PANGO-nomenklaturen) for å klassifisere genetiske avstamninger for SARS-CoV-2 , viruset som forårsaker COVID-19 . En bruker med en full genom-sekvens av en prøve av SARS-CoV-2 kan bruke verktøyet til å sende inn den sekvensen, som deretter sammenlignes med andre genom-sekvenser, og tilordnes den mest sannsynlige avstamningen (PANGO-avstamning). Enkelt eller flere kjøringer er mulig, og verktøyet kan returnere ytterligere informasjon om den kjente historien til den tildelte slekten. I tillegg grensesnittes det med Microreact for å vise en tidssekvens for plasseringen av rapporter om sekvenserte prøver av samme avstamning. Denne sistnevnte funksjonen bygger på offentlig tilgjengelige genomer hentet fra COVID-19 Genomics UK Consortium og fra dem som er sendt til GISAID . Den er oppkalt etter pangolin .
Kontekst
PANGOLIN er en sentral komponent som ligger til grunn for PANGO -nomenklatursystemet.
Som beskrevet i Andrew Rambaut et al. (2020), er en PANGO Lineage beskrevet som en klynge av sekvenser som er assosiert med en epidemiologisk hendelse, for eksempel en introduksjon av viruset i et tydelig geografisk område med tegn på videre spredning. Linjer er designet for å fange opp den nye kanten av pandemien og har en finkornet oppløsning som er egnet for genomisk epidemiologisk overvåking og utbruddsundersøkelser.
Både verktøyet og PANGOLIN-nomenklatursystemet har blitt brukt mye under COVID-19-pandemien .
Beskrivelse
Slektsbetegnelse
Til forskjell fra PANGOLIN -verktøyet, blir Pango -slektninger regelmessig, kurert manuelt basert på det nåværende globalt sirkulerende mangfoldet. Et stort fylogenetisk tre er konstruert fra en justering som inneholder offentlig tilgjengelige SARS-CoV-2-genomer, og underklynger av sekvenser i dette treet undersøkes manuelt og kryssrefereres mot epidemiologisk informasjon for å utpeke nye avstamninger; disse kan angis av dataprodusenter, og forslag til avstamning kan sendes til Pango -teamet via en GitHub -forespørsel.
Modeltrening
Disse manuelt kuraterte avstamningsbetegnelsene og de tilhørende genom -sekvensene er input til maskinlæringsmodellopplæringen. Denne modellen, både opplæringen og oppgaven, har blitt betegnet som 'pangoLEARN'. Den nåværende versjonen av pangoLEARN bruker et klassifiseringstre, basert på scikit -læringsimplementering av et avgjørelsestre -klassifikator.
Slektstildeling
Opprinnelig brukte PANGOLIN en maksimal sannsynlighetsbasert oppdragsalgoritme for å tildele forespørsel SARS-CoV-2 til den mest sannsynlige avstamningssekvensen. Siden utgivelsen av versjon 2.0 i juli 2020 har den imidlertid brukt den 'pangoLEARN' maskinlæringsbaserte oppdragsalgoritmen for å tildele slektninger til nye SARS-CoV-2-genomer. Denne tilnærmingen er rask og kan tildele et stort antall SARS-CoV-2-genomer på relativt kort tid.
Tilgjengelighet
PANGOLIN er tilgjengelig som et kommandolinjebasert verktøy, som kan lastes ned fra Conda og fra et GitHub-depot, og som et webprogram med et dra-og-slipp grafisk brukergrensesnitt. PANGOLIN-webprogrammet har tildelt mer enn 512 000 unike SARS-CoV-2-sekvenser fra januar 2021.
Skapere og utviklere
PANGOLIN ble opprettet av Áine O'Toole og Rambaut lab og utgitt 5. april 2020. Hovedutviklerne av PANGOLIN er Áine O'Toole og Emily Scher; mange andre har bidratt til forskjellige aspekter av verktøyet, inkludert Ben Jackson, JT McCrone, Verity Hill og Rachel Colquhoun fra Rambaut Lab.
PANGOLIN-webprogrammet ble utviklet av Center for Genomic Pathogen Surveillance, nemlig Anthony Underwood, Ben Taylor, Corin Yeats, Khali Abu-Dahab og David Aanensen.