Proteindesign - Protein design

Proteindesign er den rasjonelle utformingen av nye proteinmolekyler for å designe ny aktivitet, oppførsel eller formål, og for å fremme grunnleggende forståelse av proteinfunksjon. Proteiner kan designes fra bunnen av ( de novo design) eller ved å lage beregnede varianter av en kjent proteinstruktur og dens sekvens (kalt protein redesign ). Rasjonelle tilnærminger til proteindesign gjør spådommer om proteinsekvens som vil kaste seg til spesifikke strukturer. Disse forutsagte sekvensene kan deretter valideres eksperimentelt gjennom metoder som peptidsyntese , stedrettet mutagenese eller kunstig gensyntese .

Rasjonell proteindesign dateres tilbake til midten av 1970-tallet. Nylig var det imidlertid mange eksempler på vellykket rasjonell design av vannløselige og til og med transmembrane peptider og proteiner, delvis på grunn av en bedre forståelse av forskjellige faktorer som bidrar til proteinstrukturstabilitet og utvikling av bedre beregningsmetoder.

Oversikt og historie

Målet i rasjonell protein design er å forutsi aminosyre- sekvenser som kan foldes til en spesifikk proteinstruktur. Selv om antallet mulige proteinsekvenser er stort og vokser eksponensielt med størrelsen på proteinkjeden, vil bare en delmengde av dem brette seg pålitelig og raskt til en native state . Proteindesign innebærer å identifisere nye sekvenser i denne delmengden. Den opprinnelige tilstanden til et protein er minimumsformen for fri energi for kjeden. Proteindesign er således søket etter sekvenser som har den valgte strukturen som et minimum av fri energi. På en måte er det motsatt av forutsigelse av proteinstruktur . I design er en tertiær struktur spesifisert, og en sekvens som vil brette seg til den blir identifisert. Derfor kalles det også invers folding . Proteindesign er da et optimaliseringsproblem: ved hjelp av noen poengkriterier velges en optimalisert sekvens som vil brette seg til ønsket struktur.

Da de første proteinene ble rasjonelt designet i løpet av 1970- og 1980 -årene, ble sekvensen for disse optimalisert manuelt basert på analyser av andre kjente proteiner, sekvenskomposisjonen, aminosyreladninger og geometrien til den ønskede strukturen. De første designet proteiner tilskrives Bernd Gutte, som designet en redusert versjon av en kjent katalysator, bovint ribonuklease og tertiære strukturer bestående av beta-ark og alfa-helixer, inkludert et bindemiddel av DDT . Urry og kolleger senere utformet elastin -lignende fiberholdige peptider basert på regler for sekvenssammensetning. Richardson og kolleger designet et 79-restprotein uten sekvenshomologi med et kjent protein. På 1990-tallet muliggjorde fremkomsten av kraftige datamaskiner, biblioteker med aminosyrekonformasjoner og kraftfelt utviklet hovedsakelig for molekylær dynamikk- simuleringer utviklingen av strukturbaserte verktøy for beregning av proteindesign. Etter utviklingen av disse beregningsverktøyene har det blitt oppnådd stor suksess de siste 30 årene innen proteindesign. Det første proteinet som ble fullstendig designet helt de novo ble gjort av Stephen Mayo og kolleger i 1997, og kort tid etter, i 1999, designet Peter S. Kim og kolleger dimerer, trimere og tetramere av unaturlige høyrehendte spolede spoler . I 2003 designet David Bakers laboratorium et fullt protein til en fold som aldri er sett før i naturen. Senere, i 2008, designet Baker's gruppe beregningsmessig enzymer for to forskjellige reaksjoner. I 2010 ble et av de kraftigste, bredt nøytraliserende antistoffene isolert fra pasientserum ved hjelp av en beregningsmessig utformet proteinsonde. På grunn av disse og andre suksesser (f.eks. Se eksempler nedenfor), har proteindesign blitt et av de viktigste verktøyene som er tilgjengelige for proteinteknikk . Det er stort håp om at utformingen av nye proteiner, små og store, vil ha bruk innen biomedisin og bioingeniør .

Underliggende modeller for proteinstruktur og funksjon

Proteindesignprogrammer bruker datamodeller av de molekylære kreftene som driver proteiner i in vivo -miljøer. For å gjøre problemet håndterbart, forenkles disse kreftene med proteindesignmodeller. Selv om proteindesignprogrammer varierer sterkt, må de ta for seg fire hovedmodelleringsspørsmål: Hva er designens målstruktur, hvilken fleksibilitet er tillatt på målstrukturen, hvilke sekvenser som er inkludert i søket, og hvilket kraftfelt som skal brukes til å score sekvenser og strukturer.

Målstruktur

Den Top7 protein var en av de første proteinene som er laget for en fold som aldri hadde vært sett før i naturen

Proteinfunksjon er sterkt avhengig av proteinstruktur, og rasjonell proteindesign bruker dette forholdet til å designe funksjon ved å designe proteiner som har en målstruktur eller fold. Således må målstrukturen eller ensemblet av strukturer være kjent på forhånd ved rasjonell proteindesign. Dette står i kontrast med andre former for proteinteknikk, for eksempel rettet evolusjon , hvor en rekke metoder brukes for å finne proteiner som oppnår en spesifikk funksjon, og med proteinstrukturforutsigelse der sekvensen er kjent, men strukturen er ukjent.

Oftest er målstrukturen basert på en kjent struktur av et annet protein. Imidlertid har nye folder som ikke er sett i naturen blitt stadig mer mulig. Peter S. Kim og kollegaer designet trimere og tetramere av unaturlige spolede spoler, som ikke hadde blitt sett før i naturen. Proteinet Top7, utviklet i David Bakers laboratorium, ble designet helt ved hjelp av proteindesignalgoritmer, til en helt ny fold. Mer nylig utviklet Baker og kolleger en rekke prinsipper for å designe ideelle globulære proteinstrukturer basert på proteinfoldingstrakter som bygger bro mellom forutsigelser av sekundær struktur og tertiære strukturer. Disse prinsippene, som bygger på både proteinstrukturs prediksjon og proteindesign, ble brukt til å designe fem forskjellige nye proteintopologier.

Sekvensplass

FSD-1 (vist i blått, PDB-id: 1FSV) var den første de novo beregningsmessige utformingen av et fullt protein. Målfoldet var sinkfingeren i restene 33–60 av strukturen til protein Zif268 (vist med rødt, PDB -id: 1ZAA). Den utformede sekvensen hadde svært liten sekvensidentitet med en hvilken som helst kjent proteinsekvens.

I rasjonell proteindesign kan proteiner redesignes fra sekvensen og strukturen til et kjent protein, eller helt fra bunnen av i de novo proteindesign. Ved redesign av proteiner opprettholdes de fleste restene i sekvensen som deres aminosyre av villtype, mens noen få får mutere. I de novo -design er hele sekvensen designet på nytt, basert på ingen tidligere sekvens.

Både de novo design og protein redesign kan etablere regler for sekvensområdet : de spesifikke aminosyrene som er tillatt ved hver mutable restposisjon. For eksempel var sammensetningen av overflaten på RSC3-sonden for å velge HIV-bredt nøytraliserende antistoffer begrenset basert på evolusjonære data og ladningsbalansering. Mange av de tidligste forsøkene på proteindesign var sterkt basert på empiriske regler for sekvensrommet. Dessuten følger utformingen av fibrøse proteiner vanligvis strenge regler for sekvensrommet. Kollagenbaserte designet proteiner, for eksempel, er ofte sammensatt av gjentagende Gly-Pro-X-mønstre. Fremkomsten av beregningsteknikker gjør det mulig å designe proteiner uten menneskelig inngrep i sekvensvalg.

Strukturell fleksibilitet

Vanlige proteindesignprogrammer bruker rotamerbiblioteker for å forenkle konformasjonsrommet til proteinsidekjeder. Denne animasjonen går gjennom alle rotamerene i isoleucin -aminosyren basert på det nest siste Rotamer -biblioteket.

I proteindesign er målstrukturen (eller strukturene) til proteinet kjent. Imidlertid må en rasjonell proteindesign -tilnærming modellere en viss fleksibilitet på målstrukturen for å øke antallet sekvenser som kan utformes for den strukturen og for å minimere sjansen for at en sekvens brettes til en annen struktur. For eksempel, ved et protein-redesign av en liten aminosyre (for eksempel alanin) i den tettpakket kjernen i et protein, vil svært få mutanter bli spådd av en rasjonell designtilnærming for å brette seg til målstrukturen, hvis de omkringliggende sidekjedene har ikke lov til å pakkes om.

Således er en vesentlig parameter for enhver designprosess mengden fleksibilitet som er tillatt for både sidekjedene og ryggraden. I de enkleste modellene holdes protein-ryggraden stiv mens noen av proteinsidekjedene får lov til å endre konformasjoner. Imidlertid kan sidekjeder ha mange frihetsgrader i bindingslengder, bindingsvinkler og χ dihedrale vinkler . For å forenkle dette rommet bruker proteindesignmetoder rotamerbiblioteker som antar ideelle verdier for bindingslengder og bindingsvinkler, mens de begrenser χ dihedrale vinkler til noen få ofte observerte lavenergikonformasjoner som kalles rotamerer .

Rotamer -biblioteker er avledet fra den statistiske analysen av mange proteinstrukturer. Ryggraduavhengige rotamerbiblioteker beskriver alle rotamerer. Ryggradavhengige rotamerbiblioteker , derimot, beskriver rotamerene som hvor sannsynlig de er å vises, avhengig av protein-ryggradarrangementet rundt sidekjeden. De fleste proteindesignprogrammer bruker en konformasjon (f.eks. Modalverdien for rotamer -dihedraler i verdensrommet) eller flere punkter i regionen beskrevet av rotamer; OSPREY proteindesignprogram, derimot, modellerer hele den kontinuerlige regionen.

Selv om rasjonell proteindesign må bevare den generelle ryggmargsbrettet, kan et visst antall fleksibilitet i ryggraden øke antallet sekvenser som foldes til strukturen, samtidig som den generelle folden av proteinet opprettholdes. Ryggradsfleksibilitet er spesielt viktig ved redesign av proteiner fordi sekvensmutasjoner ofte resulterer i små endringer i ryggradstrukturen. Videre kan fleksibilitet i ryggraden være avgjørende for mer avanserte anvendelser av proteindesign, for eksempel bindingsprediksjon og enzymdesign. Noen modeller for proteindesign -ryggradsfleksibilitet inkluderer små og kontinuerlige globale ryggradbevegelser, diskrete ryggradsprøver rundt målfolden, bevegelser i ryggraden og fleksibilitet for proteinløkker.

Energifunksjon

Sammenligning av ulike potensielle energifunksjoner. Den mest nøyaktige energien er de som bruker kvantemekaniske beregninger, men disse er for trege for proteindesign. På den andre ekstremen, heuristiske energifunksjoner, er basert på statistiske termer og er veldig raske. I midten er molekylær mekanikk energifunksjoner som er fysisk basert, men som ikke er så beregningsmessig dyre som kvantemekaniske simuleringer.

Rasjonelle proteindesign-teknikker må være i stand til å skille mellom sekvenser som vil være stabile under målfolden fra de som foretrekker andre lavenergikonkurrerende stater. Dermed krever proteindesign nøyaktige energifunksjoner som kan rangere og score sekvenser etter hvor godt de bretter seg til målstrukturen. Samtidig må imidlertid disse energifunksjoner vurdere beregnings utfordringene bak protein design. En av de mest utfordrende kravene for vellykket design er en energifunksjon som er både nøyaktig og enkel for beregningsberegninger.

De mest nøyaktige energifunksjonene er de som er basert på kvantemekaniske simuleringer. Imidlertid er slike simuleringer for trege og vanligvis upraktiske for proteindesign. I stedet bruker mange proteindesignalgoritmer enten fysikkbaserte energifunksjoner tilpasset molekylærmekaniske simuleringsprogrammer, kunnskapsbaserte energifunksjoner eller en hybridblanding av begge. Trenden har gått mot å bruke flere fysikkbaserte potensielle energifunksjoner.

Fysikkbaserte energifunksjoner, som AMBER og CHARMM , er vanligvis avledet fra kvantemekaniske simuleringer og eksperimentelle data fra termodynamikk, krystallografi og spektroskopi. Disse energifunksjonene forenkler vanligvis den fysiske energifunksjonen og gjør dem parvis nedbrytbare, noe som betyr at den totale energien til en proteinkonformasjon kan beregnes ved å legge til den parvise energien mellom hvert atompar, noe som gjør dem attraktive for optimaliseringsalgoritmer. Fysikkbaserte energifunksjoner modellerer vanligvis et attraktivt-frastøtende Lennard-Jones- begrep mellom atomer og et parvis elektrostatisk coulombisk begrep mellom ikke-binde atomer.

Vannmedierte hydrogenbindinger spiller en nøkkelrolle i protein-proteinbinding. En slik interaksjon er vist mellom restene D457, S365 i den tunge kjeden av det HIV-bredt nøytraliserende antistoffet VRC01 (grønt) og restene N58 og Y59 i HIV-konvoluttproteinet GP120 (lilla).

Statistiske potensialer, i motsetning til fysikkbaserte potensialer, har fordelen av å være raske å beregne, å implisitt redegjøre for komplekse effekter og være mindre følsomme for små endringer i proteinstrukturen. Disse energifunksjonene er basert på å utlede energiverdier fra utseendefrekvens på en strukturell database.

Proteindesign har imidlertid krav som noen ganger kan begrenses i molekylærmekanikkens kraftfelt. Molekylære mekaniske kraftfelt, som hovedsakelig har blitt brukt i molekylær dynamikk simuleringer, er optimalisert for simulering av enkeltsekvenser, men proteindesign søker gjennom mange konformasjoner av mange sekvenser. Dermed må molekylær mekanikk kraftfelt være skreddersydd for proteindesign. I praksis inneholder proteindesign energifunksjoner ofte både statistiske termer og fysikkbaserte termer. For eksempel inneholder Rosetta-energifunksjonen, en av de mest brukte energifunksjonene, fysikkbaserte energitermer med opprinnelse i CHARMM-energifunksjonen, og statistiske energiterm, som rotamer-sannsynlighet og kunnskapsbasert elektrostatikk. Energifunksjoner er vanligvis sterkt tilpasset mellom laboratorier og spesielt skreddersydd for alle design.

Utfordringer for effektive designenergifunksjoner

Vann utgjør de fleste molekylene som omgir proteiner og er hoveddriveren for proteinstruktur. Således er modellering av samspillet mellom vann og protein avgjørende for proteindesign. Antall vannmolekyler som samhandler med et protein til enhver tid er enormt, og hver har et stort antall grader av frihet og samspillspartnere. I stedet modellerer proteindesignprogrammer de fleste slike vannmolekyler som et kontinuum, og modellerer både den hydrofobe effekten og løsningspolarisasjonen.

Individuelle vannmolekyler kan noen ganger ha en avgjørende strukturell rolle i kjernen av proteiner, og i protein -protein eller protein -ligand -interaksjoner. Unnlatelse av å modellere slike farvann kan resultere i feil forutsigelser av den optimale sekvensen til et protein -protein -grensesnitt. Som et alternativ kan vannmolekyler tilsettes rotamerer.

Som et optimaliseringsproblem

Denne animasjonen illustrerer kompleksiteten til et proteinsyntesøk, som vanligvis sammenligner alle rotamer-konformasjonene fra alle mulige mutasjoner ved alle rester. I dette eksemplet får restene Phe36 og His 106 mutere til henholdsvis aminosyrene Tyr og Asn. Phe og Tyr har 4 rotamer hver i rotamer -biblioteket, mens Asn og His har henholdsvis 7 og 8 rotamerer i rotamer -biblioteket (fra Richardsons nest siste rotamer -bibliotek). Animasjonen går gjennom alle (4 + 4) x (7 + 8) = 120 muligheter. Strukturen som vises er myoglobins, PDB -ID: 1mbn.

Målet med proteindesign er å finne en proteinsekvens som vil brette seg til en målstruktur. En proteindesignalgoritme må således søke i alle konformasjonene til hver sekvens, med hensyn til målfolden, og rangere sekvenser i henhold til den laveste energikonformasjonen til hver enkelt, bestemt av proteindesign-energifunksjonen. En typisk inngang til proteindesignalgoritmen er således målfoldingen, sekvensrommet, den strukturelle fleksibiliteten og energifunksjonen, mens utgangen er en eller flere sekvenser som er spådd å brette seg stabilt til målstrukturen.

Antallet kandidatproteinsekvenser vokser imidlertid eksponensielt med antall proteinerester; for eksempel er det 20 ¹⁰⁰ proteinsekvenser med lengde 100. Videre, selv om aminosyresidekjedekonformasjoner er begrenset til noen få rotamerer (se strukturell fleksibilitet ), resulterer dette i et eksponentielt antall konformasjoner for hver sekvens. Således, i vårt 100 restprotein, og forutsatt at hver aminosyre har nøyaktig 10 rotamerer, må en søkealgoritme som søker i dette rommet, søke over 200 ¹⁰⁰ proteinkonformasjoner.

De vanligste energifunksjonene kan brytes ned i parvis mellom rotamerer og aminosyretyper, noe som kaster problemet som en kombinatorisk, og kraftige optimaliseringsalgoritmer kan brukes til å løse det. I disse tilfellene kan den totale energien til hver konformasjon som tilhører hver sekvens formuleres som en sum av individuelle og parvise termer mellom restposisjoner. Hvis en designer bare er interessert i den beste sekvensen, krever proteindesignalgoritmen bare den laveste energikonformasjonen til sekvensen med lavest energi. I disse tilfellene kan aminosyreidentiteten til hver rotamer ignoreres og alle rotamerer som tilhører forskjellige aminosyrer kan behandles likt. La r _i være en rotamer ved restposisjon i i proteinkjeden, og E ( r _i ) den potensielle energien mellom de indre atomene i rotameren. La E ( r _i , r _j ) være den potensielle energien mellom r _i og rotamer r _j ved restposisjon j . Deretter definerer vi optimaliseringsproblemet som et problem med å finne konformasjonen til minimumsenergi ( E _T ):

{\ displaystyle \ min E_ {T} = \ sum _ {i} {\ Big [} E_ {i} (r_ {i})+\ sum _ {i \ neq j} E_ {ij} (r_ {i} , r_ {j}) {\ Big]} \,}

( 1 )

Problemet med å minimere E _T er et NP-hardt problem. Selv om problemklassen er NP-vanskelig, kan mange eksempler på proteindesign i praksis løses nøyaktig eller optimaliseres tilfredsstillende gjennom heuristiske metoder.

Algoritmer

Flere algoritmer er utviklet spesielt for proteindesignproblemet. Disse algoritmene kan deles inn i to brede klasser: eksakte algoritmer, for eksempel eliminering av blindveier , som mangler driftstidsgarantier, men garanterer kvaliteten på løsningen; og heuristiske algoritmer, for eksempel Monte Carlo, som er raskere enn eksakte algoritmer, men som ikke har noen garantier for optimaliteten til resultatene. Nøyaktige algoritmer garanterer at optimaliseringsprosessen produserte det optimale i henhold til proteindesignmodellen. Så hvis spådommene til eksakte algoritmer mislykkes når disse er eksperimentelt validert, kan feilkilden tilskrives energifunksjonen, den tillatte fleksibiliteten, sekvensrommet eller målstrukturen (f.eks. Hvis den ikke kan designes for).

Noen algoritmer for proteindesign er oppført nedenfor. Selv om disse algoritmene bare tar for seg den mest grunnleggende formuleringen av proteindesignproblemet, ligning ( 1 ), når optimeringsmålet endres fordi designere introduserer forbedringer og utvidelser av proteindesignmodellen, for eksempel forbedringer av den tillatte strukturelle fleksibiliteten (f.eks. Protein -ryggrad) fleksibilitet) eller inkludert sofistikerte energibetingelser, mange av utvidelsene på proteindesign som forbedrer modellering er bygget oppå disse algoritmene. For eksempel inkorporerer Rosetta Design sofistikerte energibetingelser og fleksibilitet i ryggraden ved å bruke Monte Carlo som den underliggende optimaliseringsalgoritmen. OSPREYs algoritmer bygger på deaktiveringsalgoritmen og A* for å inkorporere kontinuerlige ryggrad og sidekjedebevegelser. Dermed gir disse algoritmene et godt perspektiv på de forskjellige typene algoritmer som er tilgjengelige for proteindesign.

I juli 2020 rapporterte forskere utviklingen av en AI-basert prosess ved bruk av genomdatabaser for evolusjonsbasert design av nye proteiner. De brukte dyp læring for å identifisere designregler.

Med matematiske garantier

Eliminering av blindvei

Dood-end eliminering (DEE) -algoritmen reduserer søkerommet til problemet iterativt ved å fjerne rotamerer som beviselig ikke kan vises som en del av den globale laveste energikonformasjonen (GMEC). Ved hver iterasjon, sammen dead-end eliminering algoritme alle mulige par av rotamerer ved hver rest stilling, og fjerner alle rotamer r ' _i som kan bli vist til alltid å være av høyere energi enn et annet rotamer r _i , og er således ikke en del av GMEC:

${\ displaystyle E (r_ {i}^{\ prime})+\ sum _ {j \ neq i} \ min _ {r_ {j}} E (r_ {i}^{\ prime}, r_ {j} )> E (r_ {i})+\ sum _ {j \ neq i} \ max _ {r_ {j}} E (r_ {i}, r_ {j})}}$

Andre kraftige utvidelser av eliminasjonsalgoritmen for blindvei inkluderer elimineringskriteriet for par og det generelle elimineringskriteriet for blindvei . Denne algoritmen er også utvidet til å håndtere kontinuerlige rotamerer med bevisbare garantier.

Selv om deaktiveringsalgoritmen kjøres i polynomtid på hver iterasjon, kan den ikke garantere konvergens. Hvis deaktiveringsalgoritmen etter et visst antall iterasjoner ikke beskjærer flere rotamerer, må enten rotamerer slås sammen eller en annen søkealgoritme må brukes for å søke i det gjenværende søkeområdet. I slike tilfeller fungerer blindvei-eliminering som en forfiltreringsalgoritme for å redusere søkeområdet, mens andre algoritmer, for eksempel A*, Monte Carlo, Lineær programmering eller RASKERE brukes til å søke i det gjenværende søkeområdet.

Gren og bundet

Proteindesignets konformasjonsrom kan representeres som et tre , hvor proteinrester ordnes på vilkårlig måte, og treet forgrener seg ved hver av rotamerene i en rest. Gren og bundet algoritmer bruke denne representasjonen for å effektivt utforske konformasjon treet: Ved hver forgrening , gren og bundet algoritmer bundet konformasjon plass og utforske bare lovende grener.

En populær søkealgoritme for proteindesign er A* søkealgoritmen . A* beregner en nedre grense på hver delvise trebane som senker (med garantier) energien til hver av de utvidede rotamerene. Hver delkonformasjon legges til i en prioritetskø, og ved hver iterasjon hoppes den delvise banen med den laveste nedre grensen fra køen og utvides. Algoritmen stopper når en full konformasjon er oppregnet og garanterer at konformasjonen er den optimale.

A* score f i proteindesign består av to deler, f = g+h . g er den eksakte energien til rotamerene som allerede er tildelt i den delvise konformasjonen. h er en nedre grense for energien til rotamerene som ennå ikke er tildelt. Hver er utformet som følger, hvor d er indeksen for den siste tildelte resten i den delvise konformasjonen.

${\ displaystyle g = \ sum _ {i = 1}^{d} (E (r_ {i})+\ sum _ {j = i+1}^{d} E (r_ {i}, r_ {j }))}}$

${\ displaystyle h = \ sum _ {j = d+1}^{n} [\ min _ {r_ {j}} (E (r_ {j})+\ sum _ {i = 1}^{d} E (r_ {i}, r_ {j})+\ sum _ {k = j+1}^{n} \ min _ {r_ {k}} E (r_ {j}, r_ {k}))] }$

Heltall lineær programmering

Problemet med å optimalisere E _T (ligning ( 1 )) kan enkelt formuleres som et heltall lineært program (ILP). En av de kraftigste formuleringene bruker binære variabler for å representere tilstedeværelsen av en rotamer og kanter i den endelige løsningen, og begrenser løsningen til å ha nøyaktig én rotamer for hver rest og en parvis interaksjon for hvert par rester:

${\ displaystyle \ \ min \ sum _ {i} \ sum _ {r_ {i}} E_ {i} (r_ {i}) q_ {i} (r_ {i})+\ sum _ {j \ neq i } \ sum _ {r_ {j}} E_ {ij} (r_ {i}, r_ {j}) q_ {ij} (r_ {i}, r_ {j}) \,}$

st

${\ displaystyle \ sum _ {r_ {i}} q_ {i} (r_ {i}) = 1, \ \ forall i}$

${\ displaystyle \ sum _ {r_ {j}} q_ {ij} (r_ {i}, r_ {j}) = q_ {i} (r_ {i}), \ forall i, r_ {i}, j}$

${\ displaystyle q_ {i}, q_ {ij} \ in \ {0,1 \}}$

ILP -løsere, for eksempel CPLEX , kan beregne den eksakte optimale løsningen for store tilfeller av proteindesignproblemer. Disse løsningerne bruker en lineær programmeringsavslapning av problemet, der q _i og q _ij får ta kontinuerlige verdier, i kombinasjon med en gren- og kuttalgoritme for å bare søke i en liten del av konformasjonsrommet etter den optimale løsningen. ILP-løsningsmenn har vist seg å løse mange forekomster av sidekjedeplasseringsproblemet.

Meldingsoverførende baserte tilnærminger til den lineære programmeringsdualen

ILP -løsere er avhengige av lineær programmering (LP) -algoritmer, for eksempel Simplex- eller barrierebaserte metoder for å utføre LP -avslapning ved hver gren. Disse LP-algoritmene ble utviklet som optimaliseringsmetoder for generelle formål og er ikke optimalisert for proteindesignproblemet (ligning ( 1 )). Følgelig blir LP -avslapningen flaskehalsen til ILP -løsere når problemstørrelsen er stor. Nylig har flere alternativer basert på meldingsoverførende algoritmer blitt designet spesielt for optimalisering av LP-avslapningen av proteindesignproblemet. Disse algoritmene kan tilnærme både den dobbelte eller den primære forekomsten av heltallsprogrammeringen, men for å opprettholde garantier for optimalitet er de mest nyttige når de brukes til å tilnærme dobbelten av proteindesignproblemet, fordi tilnærming til de dobbelte garanterer at ingen løsninger er savnet. Meldingsoverføringsbaserte tilnærminger inkluderer trevektet maks-produktmeldingsoverføringsalgoritme , og meldingen som sender lineær programmeringsalgoritme .

Optimaliseringsalgoritmer uten garantier

Monte Carlo og simulert annealing

Monte Carlo er en av de mest brukte algoritmene for proteindesign. I sin enkleste form velger en Monte Carlo -algoritme en rest tilfeldig, og i den resten evalueres en tilfeldig valgt rotamer (av en hvilken som helst aminosyre). Den nye energien til proteinet, E _ny sammenlignes med den gamle energien E _gammel og den nye rotameren aksepteres med en sannsynlighet for:

${\ displaystyle p = e^{-\ beta (E _ {\ tekst {ny}}-E _ {\ tekst {gammel}}))},}$

hvor β er Boltzmann -konstanten og temperaturen T kan velges slik at den i de første rundene er høy og den langsomt glødes for å overvinne lokale minima.

RASKERE

RASKERE algoritmen bruker en kombinasjon av deterministiske og stokastiske kriterier for å optimalisere aminosyresekvenser. RASKERE bruker først DEE til å eliminere rotamerer som ikke er en del av den optimale løsningen. Deretter optimaliserer en rekke iterative trinn rotamer -oppgaven.

Trospredning

I trosformidling for proteindesign utveksler algoritmen meldinger som beskriver troen på at hver rest har omtrent sannsynligheten for hver rotamer i naborester. Algoritmen oppdaterer meldinger på hver iterasjon og gjentar til konvergens eller til et fast antall iterasjoner. Konvergens er ikke garantert i proteindesign. Meldingen m _{i → j} (r _j som en rest i sender til hver rotamer (r _j ved naboresten j er definert som:

${\ displaystyle m_ {i \ to j} (r_ {j}) = \ max _ {r_ {i}} {\ Big (} e^{\ frac {-E_ {i} (r_ {i})-E_ {ij} (r_ {i}, r_ {j})} {T}} {\ Big)} \ prod _ {k \ in N (i) \ backslash j} m_ {k \ to i (r_ {i} )}}}$

Både utbredelse av maks-produkt og sumprodukt-tro har blitt brukt for å optimalisere proteindesign.

Søknader og eksempler på designet proteiner

Enzymdesign

Utformingen av nye enzymer er en bruk av proteindesign med enorme bioingeniører og biomedisinske applikasjoner. Generelt kan utforming av en proteinstruktur være forskjellig fra å designe et enzym, fordi utformingen av enzymer må vurdere mange tilstander som er involvert i den katalytiske mekanismen . Imidlertid er proteindesign en forutsetning for de novo enzymdesign fordi designen av katalysatorer i det minste krever et stillas der den katalytiske mekanismen kan settes inn.

Store fremskritt innen de novo enzymdesign og redesign ble gjort i det første tiåret av det 21. århundre. I tre store studier designet David Baker og kollegaer de novo enzymer for retroaldolreaksjonen , en Kemp-eliminasjonsreaksjon og for Diels-Alder-reaksjonen . Videre utviklet Stephen Mayo og kolleger en iterativ metode for å designe det mest effektive kjente enzymet for Kemp-eliminasjonsreaksjonen. Også i laboratoriet til Bruce Donald ble beregningsproteindesign brukt til å bytte spesifisitet til et av proteindomenene til den nonribosomale peptidsyntetasen som produserer Gramicidin S , fra dets naturlige substrat fenylalanin til andre ikke -kognate substrater inkludert ladede aminosyrer; de redesignede enzymene hadde aktiviteter nær de av villtypen.

Design for affinitet

Protein -protein -interaksjoner er involvert i de fleste biotiske prosesser. Mange av de sykdommene som er vanskeligst å behandle, for eksempel Alzheimers , mange former for kreft (f.eks. TP53 ) og infeksjon med humant immunsviktvirus ( HIV ) involverer protein-protein-interaksjoner. For å behandle slike sykdommer er det således ønskelig å designe protein eller proteinlignende terapi som binder en av partnerne i interaksjonen og dermed forstyrrer den sykdomsfremkallende interaksjonen. Dette krever å designe proteinerapi for affinitet til partneren.

Protein -protein -interaksjoner kan utformes ved hjelp av proteindesignalgoritmer fordi prinsippene som styrer proteinstabilitet også styrer protein -proteinbinding. Interaksjondesign mellom proteiner og proteiner gir imidlertid utfordringer som ikke er vanlig i proteindesign. En av de viktigste utfordringene er at grensesnittene mellom proteiner generelt er mer polare enn proteinkjerner, og binding innebærer en avveining mellom oppløsning og dannelse av hydrogenbindinger. For å overvinne denne utfordringen utviklet Bruce Tidor og kolleger en metode for å forbedre antistoffers affinitet ved å fokusere på elektrostatiske bidrag. De fant at for antistoffene designet i studien, reduserte kostnadene for oppløsning av restene i grensesnittet for å øke bindingsparets affinitet.

Scorer bindende spådommer

Protein utforming energifunksjoner må tilpasses for å plassere ballen binding prediksjoner fordi binding innebærer en avveining mellom de gir lavest energi konformasjonen av de frie proteiner ( E _P og E _L ) og den laveste energi-konformasjonen av det bundne komplekset ( E _PL ):

${\ displaystyle \ Delta _ {G} = E_ {PL} -E_ {P} -E_ {L}}$ .

K* -algoritmen tilnærmer seg bindingskonstanten til algoritmen ved å inkludere konformasjonell entropi i beregningen av fri energi. K* -algoritmen anser bare de laveste energikonformasjonene til de frie og bundne kompleksene (angitt med settene P , L og PL ) for å tilnærme partisjonsfunksjonene til hvert kompleks:

${\ displaystyle K^{*} = {\ frac {\ sum \ limit _ {x \ in PL} e^{-E (x)/RT}} {\ sum \ limit _ {x \ in P} e^ {-E (x)/RT} \ sum \ limit _ {x \ in L} e^{-E (x)/RT}}}}$

Design for spesifisitet

Utformingen av protein -protein -interaksjoner må være svært spesifikk fordi proteiner kan samhandle med et stort antall proteiner; vellykket design krever selektive permer. Dermed må proteindesignalgoritmer kunne skille mellom målrettet (eller positiv design ) og off-target-binding (eller negativ design ). Et av de mest fremtredende eksemplene på design for spesifisitet er utformingen av spesifikke bZIP -bindende peptider av Amy Keating og kolleger for 19 av de 20 bZIP -familiene; 8 av disse peptidene var spesifikke for deres tiltenkte partner i forhold til konkurrerende peptider. Videre ble positiv og negativ design også brukt av Anderson og kolleger for å forutsi mutasjoner i det aktive stedet for et legemiddelmål som ga resistens mot et nytt stoff; positiv design ble brukt for å opprettholde vildtypeaktivitet, mens negativ design ble brukt for å forstyrre bindingen av stoffet. Nylig beregningsmessig redesign av Costas Maranas og kolleger var også i stand til eksperimentelt å bytte kofaktorspesifisitet for Candida boidinii xylose reduktase fra NADPH til NADH .

Protein resurfacing

Proteinresurfacing består av å designe et proteins overflate og samtidig bevare den totale fold, kjerne og grenseområder for proteinet intakt. Proteinresurfacing er spesielt nyttig for å endre bindingen av et protein til andre proteiner. En av de viktigste applikasjonene for proteinresurfacing var utformingen av RSC3 -sonden for å velge bredt nøytraliserende HIV -antistoffer ved NIH Vaccine Research Center. Først ble rester utenfor bindingsgrensesnittet mellom gp120 HIV-konvoluttproteinet og det tidligere oppdagede b12-antistoffet valgt for å bli designet. Deretter ble sekvensen mellomrom valgt basert på evolusjonær informasjon, løselighet, likhet med villtypen og andre hensyn. Deretter ble RosettaDesign -programvaren brukt til å finne optimale sekvenser i det valgte sekvensområdet. RSC3 ble senere brukt til å oppdage det bredt nøytraliserende antistoffet VRC01 i serumet til et langtids HIV-infisert ikke-progressor individ.

Design av kuleproteiner

Globulære proteiner er proteiner som inneholder en hydrofob kjerne og en hydrofil overflate. Kuleproteiner antar ofte en stabil struktur, i motsetning til fibrøse proteiner , som har flere konformasjoner. Den tredimensjonale strukturen til kuleproteiner er vanligvis lettere å bestemme gjennom røntgenkrystallografi og kjernemagnetisk resonans enn både fibrøse proteiner og membranproteiner , noe som gjør kuleproteiner mer attraktive for proteindesign enn de andre proteintypene. De mest vellykkede proteindesignene har involvert kuleproteiner. Både RSD-1 og Top7 var de novo- design av globulære proteiner. Ytterligere fem proteinstrukturer ble designet, syntetisert og verifisert i 2012 av Baker -gruppen. Disse nye proteinene har ingen biotisk funksjon, men strukturene er ment å fungere som byggesteiner som kan utvides til å inkludere funksjonelle aktive steder. Strukturene ble funnet beregningsmessig ved å bruke ny heuristikk basert på analyse av koblingsløyfene mellom deler av sekvensen som spesifiserer sekundære strukturer.

Design av membranproteiner

Flere transmembrane proteiner har blitt vellykket designet, sammen med mange andre membranassosierte peptider og proteiner. Nylig utviklet Costas Maranas og hans kolleger et automatisert verktøy for å redesigne porestørrelsen på ytre membran Porin Type-F (OmpF) fra E.coli til en hvilken som helst ønsket sub-nm-størrelse og samlet dem i membraner for å utføre presis angstromskilleseparasjon.

Andre applikasjoner

En av de mest ønskelige bruksområdene for proteindesign er for biosensorer , proteiner som vil føle tilstedeværelsen av spesifikke forbindelser. Noen forsøk på design av biosensorer inkluderer sensorer for unaturlige molekyler inkludert TNT . Nylig designet Kuhlman og kolleger en biosensor for PAK1 .

Se også

Referanser

Videre lesning

Donald, Bruce R. (2011). Algoritmer i strukturell molekylærbiologi . Cambridge, MA: MIT Press.
Sander, Chris; Vriend, Gerrit; Bazan, Fernando; Horovitz, Amnon; Nakamura, Haruki; Ribas, Luis; Finkelstein, Alexei V .; Lockhart, Andrew; Merkl, Rainer; et al. (1992). "Proteindesign på datamaskiner. Fem nye proteiner: Shpilka, Grendel, Fingerclasp, Leather og Aida". Proteiner: Struktur, funksjon og bioinformatikk . 12 (2): 105–110. doi : 10.1002/prot.340120203 . PMID 1603799 . S2CID 38986245 .
Jin, Wenzhen; Kambara, Ohki; Sasakawa, Hiroaki; Tamura, Atsuo & Takada, Shoji (2003). "De Novo Design av sammenleggbare proteiner med jevn foldetrakt: automatisert negativ design og eksperimentell verifisering" . Struktur . 11 (5): 581–590. doi : 10.1016/S0969-2126 (03) 00075-3 . PMID 12737823 .
Pokala, Navin & Handel, Tracy M. (2005). "Energifunksjoner for proteindesign: Justering med protein -proteinkomplekse affiniteter, modeller for den utfoldede staten og negativ design av løselighet og spesifisitet". Journal of Molecular Biology . 347 (1): 203–227. doi : 10.1016/j.jmb.2004.12.019 . PMID 15733929 .

Languages

In other projects