www.wikidata.de-de.nina.az
Die Proteinstrukturvorhersage umfasst alle Methoden rein rechnerisch aus der Aminosauresequenz eines Proteins die dreidimensionale Struktur des gefalteten Molekuls zu ermitteln Sie ist eines der wichtigen Ziele der Bioinformatik und der theoretischen Chemie Sie ergibt sich aus der praktischen Schwierigkeit die atomare Struktur eines Proteins in der Natur mit physikalischen Methoden zu messen Insbesondere fur die genauen Atompositionen innerhalb der Tertiarstruktur besteht grosser Bedarf sie bilden die Grundlage fur das Arzneistoffdesign und andere Methoden der Biotechnologie Die bisher entwickelten Methoden der Proteinstrukturvorhersage bauen auf der Kenntnis der Primarstruktur auf um so die Sekundarstruktur und oder die Tertiarstruktur zu postulieren Ein weiteres Detailproblem ist die Ermittlung der Quartarstruktur aus vorliegenden Tertiarstrukturdaten Implementationen der dabei entwickelten Algorithmen stehen grossteils im Quelltext oder als Webserver zur Verfugung ein Sonderfall sind die Kunstliche Intelligenz Systeme der Firma DeepMind uber deren Struktur und Eigenschaften zwar Veroffentlichungen gemacht werden die aber nicht vollstandig offengelegt werden Aufgrund der enormen Bedeutung einer endgultigen Losung des Problems hat sich mit CASP seit 1994 ein zweijahrlicher Wettbewerb fur den Vergleich der besten Losungsmethoden etabliert 2018 und 2020 wurde der Wettbewerb von den DeepMind Produkten AlphaFold bzw AlphaFold2 gewonnen wobei die Vorhersageergebnisse 2020 so gut waren dass erstmals davon gesprochen wurde dass das Problem als prinzipiell gelost betrachtet werden konne 1 2021 veroffentlichten Forscher dann uber 350 000 3D Modelle gefalteter Proteine die mit dieser KI vorhergesagt wurden Darunter sind 98 5 der 20 000 Proteine des menschlichen Korpers Bei etwa einem Drittel der Vorhersagen besteht eine hohe Wahrscheinlichkeit dass diese akkurat sind 2 Inhaltsverzeichnis 1 Motivation 2 Sekundarstrukturbetrachtungen 3 Tertiarstrukturbetrachtungen 3 1 Strukturklassen Domanen 3 2 Vorhersage aus evolutionarer Information 3 3 Ab initio Vorhersage 3 4 Vergleichende Vorhersage 3 5 Homologie Modelling 3 6 Vorhersage aus Contact Maps 3 7 Vorhersage der Seitenkettengeometrie 4 Quartarstrukturbetrachtungen 5 Einzelnachweise 6 Literatur 7 Weblinks 7 1 Server Software zur VorhersageMotivation BearbeitenDie Ermittlung der naturlichen Proteinstruktur mit physikalischen Methoden ist zwar fur viele aber bei weitem nicht alle Proteine moglich und mit hohen Kosten und zeitlichem Aufwand verbunden Bis 2012 konnten mithilfe von NMR und Rontgenstrukturanalyse die Strukturen von etwa 50 000 verschiedenen Proteinen ermittelt werden diese Zahl reduziert sich auf 30 000 wenn Proteine mit mehr als 10 Prozent Sequenzunterschied betrachtet werden Im Jahr 2020 waren schon 100 000 Strukturen bzw Strukturteile bekannt und in Datenbanken erfasst Dem stehen schatzungsweise mehr als 30 Millionen Proteinsequenzen gegenuber Fur eine zuverlassige rein rechnerische Methode zur Bestimmung der Proteinstruktur aus der Aminosauresequenz ergibt sich daher grosser Bedarf Die vorauszusehende Beschleunigung der Sequenzierung ganzer Genome ja sogar ganzer okologischer Metagenome vergrossert die Diskrepanz zwischen bekannten Primar und Tertiarstrukturen und damit eine Dringlichkeit der Losung des Problems zusatzlich 3 Sekundarstrukturbetrachtungen BearbeitenDie Sekundarstrukturvorhersage ist eine Sammlung bioinformatischer Techniken die darauf abzielen die Sekundarstruktur von Proteinen und RNA mithilfe ihrer Primarstruktur vorherzusagen Aminosauren beziehungsweise Nukleotide Bei Proteinen um die es im Folgenden ausschliesslich geht besteht die Vorhersage darin bestimmte Abschnitte der Aminosauresequenz als wahrscheinliche a Helix b Faltblatt b Schleife oder als strukturlos zu markieren Ein Erfolg wird ermittelt indem die Voraussage mit dem Resultat des DSSP Algorithmus verglichen wird der auf die tatsachliche Struktur angewandt wird Uber diese allgemeinen Strukturmotive hinaus gibt es ausserdem Algorithmen zur Erkennung spezieller wohldefinierter Strukturmotive wie Transmembranhelices oder Coiled Coils 4 2012 erreichten die besten Methoden der Sekundarstrukturvorhersage etwa 80 Prozent Genauigkeit was ihre Benutzung bei der Faltungserkennung der Ab Initio Strukturvorhersage und beim Sequenz Alignment erlaubt Die Entwicklung der Genauigkeit von Sekundarstrukturvorhersage Methoden wird durch wochentliche Benchmarks wie LiveBench und EVA dokumentiert 5 Tertiarstrukturbetrachtungen BearbeitenDa eine vollige Neuberechnung ab initio der Proteinstruktur mittels rein physikalisch energetischer und quantenchemischer Methoden selbst fur kleine Proteine zu aufwandig ist haben sich Algorithmen zur Strukturvorhersage durchgesetzt die entweder auf eine Klassifikation einzelner Teile der Aminosaurensequenz oder auf vorhergesagte Contact Maps zuruckgreifen und erst in einem zweiten Schritt die endgultigen Atompositionen berechnen Strukturklassen Domanen Bearbeiten Verschiedene statistische Methoden haben sich zur Klassifizierung unbekannter Proteine herausgebildet Die erfolgreichsten verwenden Hidden Markov Models die auch bei der Losung des Problems der Spracherkennung erfolgreich sind Die entsprechenden Zuordnungen konnen von Strukturbiologie Datenbanken wie Pfam und InterPro heruntergeladen werden Ist bereits eine Proteinstruktur innerhalb einer Klasse bekannt konnen die Strukturen weiterer Mitglieder durch vergleichende Vorhersage berechnet werden Im andern Fall steht mit der Vorhersage der Contact Map einer Strukturklasse eine neue Methode zur Verfugung die nicht mehr auf physikalische Strukturbestimmung angewiesen ist 6 7 8 9 Vorhersage aus evolutionarer Information Bearbeiten Mit der Verfugbarkeit grosser Mengen genomischer Sequenzen wird es moglich die Koevolution von Aminosauren in Proteinfamilien zu untersuchen Man kann annehmen dass sich im Lauf der Evolution innerhalb einer strukturell konservierten Proteinfamilie die dreidimensionale Struktur der Proteine nicht wesentlich andert Die Faltung des Proteins ergibt sich dabei durch die Wechselwirkungen zwischen den einzelnen Aminosauren Verandert sich durch eine Mutation eine der Aminosauren im Protein kann sich die Stabilitat des Proteins verringern und muss durch kompensatorische korrelierte Mutationen wiederhergestellt werden Mehrere statistische Methoden existieren evolutionar gekoppelte Positionen innerhalb einer strukturell klassifizierten Proteinfamilie zu ermitteln wobei als Input das multiple Sequenzalignment der jeweiligen Familie dient Fruhe Methoden bedienten sich dazu lokaler statistischer Modelle die immer nur zwei Aminosaurepositionen in der Sequenz gleichzeitig betrachten was zu unzureichender Vorhersagegenauigkeit aufgrund transitiver Effekte fuhrt 10 Beispiele hierfur sind die McLachlan Based Substitution correlation McBASC 11 observed versus expected frequencies of residue pairs OMES 12 statistische Kopplungsanalyse statistical coupling analysis SCA sowie Methoden basierend auf gegenseitiger Information Mutual Information MI 13 Erst durch die Verwendung globaler statistischer Ansatze wie der Maximum Entropie Methode inverses Potts Modell oder partiellen Korrelationen wurde es moglich die kausale Koevolution zwischen Aminosauren von indirekten transitiven Effekten zu unterscheiden 14 15 16 17 18 Neben der Uberlegenheit globaler Modelle zur Kontaktvorhersage wurde im Jahr 2011 erstmals gezeigt dass die vorhergesagten Aminosaurekontakte verwendet werden konnen um 3D Proteinstrukturen allein aus Sequenzinformation vorherzusagen 14 Dabei werden weder verwandte Strukturen oder Fragmente verwendet und die Berechnungen konnen selbst fur Proteine mit mehreren hundert Aminosauren innerhalb weniger Stunden auf einem normalen Rechner durchgefuhrt werden 14 19 Darauffolgende Publikationen zeigten dass auch Transmembranproteine mit betrachtlicher Genauigkeit vorhergesagt werden konnen 20 21 Ab initio Vorhersage Bearbeiten Jede naive mit Vorwissen unbelastete Proteinstruktur Vorhersagemethode muss in der Lage sein die astronomische Grosse des zu durchsuchenden Raums moglicher Strukturen zu durchmessen Zur Veranschaulichung dient das Levinthal Paradox Ab initio auch de novo Methoden beruhen dabei lediglich auf der Anwendung physikalischer Prinzipien Quantenchemie auf die bekannte Primarstruktur um eine Simulation des Faltungsvorgangs zu erreichen Andere Methoden gehen von den moglichen Strukturen aus und versuchen eine geeignete Bewertungsfunktion die meist die Berechnung der freien Enthalpie enthalt zu optimieren Anfinsen Dogma Solche Berechnungen erfordern nach wie vor einen Supercomputer und konnen nur fur die kleinsten Proteine durchgefuhrt werden Die Idee durch verteiltes Rechnen Rechenkraft fur die ab initio Vorhersage zur Verfugung zu stellen fuhrte zur Realisierung der Projekte Folding home Human Proteome Folding Project und Rosetta home Trotz der erforderlichen Rechenkraft ist ab initio ein aktives Gebiet der Forschung 22 Vergleichende Vorhersage Bearbeiten Vergleichendes Proteinmodelling verwendet bekannte physikalisch gemessene Strukturen als Startpunkt oder Vorlage Das funktioniert in den Fallen in denen ein homologes Protein mit bekannter Struktur existiert Da sich die Proteinstrukturen nicht beliebig entwickelt haben sondern stets mit einer biologischen Funktion assoziiert sind konnen Proteine zu Gruppen zusammengefasst werden die sowohl strukturell homolog als auch funktionell einheitlich sind wobei die Zugehorigkeit zu einer solchen Gruppe leicht mittels maschinellem Lernen HMM auffindbar ist s o Auf der anderen Seite bemuhen sich Strukturbiologen mindestens zu jeder dieser Proteingruppen ein reprasentatives Protein physikalisch zu vermessen so dass im Idealfall alle restlichen Proteinstrukturen mittels Vergleich vorhergesagt werden konnten Homologie Modelling Bearbeiten Bei der vergleichenden Vorhersage hat sich mittlerweile das Homologie Modelling durchgesetzt Auf bekannte Proteinstrukturen Template wird die zu untersuchende Aminosauresequenz mittels Peptidbindung ubertragen und die resultierenden Raumerfullungen untersucht Daraus kann abgeleitet werden welche Struktur die untersuchte Sequenz einnimmt in Abhangigkeit von der Template Struktur 23 Vorausgesetzt ist dass Template und Probesequenz zu einer gemeinsamen Strukturfaltung geeignet sind und aneinander ausgerichtet werden konnen denn das Sequenzalignment stellt beim vergleichenden Modelling das Hauptproblem dar Ohne Zweifel gelingen mit sehr ahnlichen Sequenzen die besten Resultate 24 22 Vorhersage aus Contact Maps Bearbeiten Die Einteilung von Proteinen in strukturelle Gruppen erlaubt die Vorhersage einer Contact Map fur diese Gruppe durch Berechnung gekoppelter Positionen im Alignment s o Auf der anderen Seite erhalten Strukturbiologen auch bei der physikalischen Vermessung der Proteinstruktur mittels NMR zunachst eine Contact Map Es haben sich daher schon fruh Algorithmen entwickelt um von einer Contact Map Ruckschlusse auf die Protein Tertiarstruktur zu erhalten Damit ist es nun prinzipiell moglich zuverlassig aus beliebigen Sequenzen die Proteinstruktur vorherzusagen solange eine grosse Menge an Sequenzen von Proteinen gleicher Gruppierung zur Verfugung steht um gekoppelte Positionen und damit eine Contact Map zu ermitteln Mit dem zunehmenden Tempo der Sequenzierung stehen bereits genug Bakteriengenome nahezu 10 000 zur Verfugung um die Methode erfolgreich auf diese anzuwenden und beispielsweise auch Membranproteine zu modellieren Aber auch die Anzahl eukaryotischer Sequenzen ist in manchen Fallen ausreichend und die Situation entspannt sich diesbezuglich zusehend 25 26 Vorhersage der Seitenkettengeometrie Bearbeiten Das exakte Einpassen der Aminosaure Seitenketten stellt ein eigenes Problem innerhalb der Proteinstrukturvorhersage dar Dabei wird das Proteinruckgrat als starr vorausgesetzt und die moglichen Konformationen Rotamere der einzelnen Seitenketten so verandert dass die Gesamtenergie minimiert wird Methoden die speziell die Seitenkettenvorhersage durchfuhren sind beispielsweise die Sackgassen Eliminierung DEE und self consistent mean field SCMF Beide Methoden benutzen Rotamer Bibliotheken in denen erfahrungsgemass gunstige Konformationen mit Detaildaten verzeichnet sind Diese Bibliotheken konnen ruckgratunabhangig sekundarstrukturabhangig oder ruckgratabhangig indiziert sein 27 28 29 30 Die Seitenkettenvorhersage ist besonders bei der Bestimmung des hydrophoben Proteinkerns nutzlich wo die Seitenketten am engsten gepackt sind sie ist weniger geeignet fur die flexibleren Oberflachenabschnitte wo die Anzahl moglicher Rotamere wesentlich ansteigt 31 32 Quartarstrukturbetrachtungen BearbeitenIn den Fallen in welchen aufgrund von Laborergebnissen bekannt ist dass ein Protein mit einem anderen oder gleichen einen Proteinkomplex bildet und ebenso die Tertiarstruktur en vorliegen kann mithilfe von Docking Software herausgefunden werden wie die Proteine im Komplex zueinander orientiert sind Quartarstruktur Daruber hinaus stehen mit den genomischen Contact Maps Daten zur Verfugung die Ruckschlusse uber Beruhrungspositionen zulassen da diese funktionell gekoppelt sind Dies gilt gleichermassen fur Protein Protein Interaktionen wobei hier Beruhrungspositionen von Genpaaren derselben Spezies betrachtet werden Erste Anwendungen auf Toxin Antitoxin Systeme und andere Signalnetzwerke in Bakterien wurden bereits vorgestellt 33 17 Einzelnachweise Bearbeiten heise online Deepmind KI schafft Durchbruch bei der Proteinfaltung Abgerufen am 6 Dezember 2020 DeepMind s AI predicts structures for a vast trove of proteins In Nature 22 Juli 2021 Abgerufen am 1 August 2021 RCSB Redundancy in the Protein Data Bank Mount DM 2004 Bioinformatics Sequence and Genome Analysis 2 Cold Spring Harbor Laboratory Press ISBN 0 87969 712 1 Leong Lee Leopold J L Frank R L Protein Secondary Structure Prediction Using BLAST and Exhaustive RT RICO the Search for Optimal Segment Length and Threshold In IEEE Xplore Digital Library Mai 2012 ieee org Chen C Zhou X Tian Y Zou X Cai P Predicting protein structural class with pseudo amino acid composition and support vector machine fusion network In Anal Biochem 357 Jahrgang Nr 1 Oktober 2006 S 116 21 doi 10 1016 j ab 2006 07 022 PMID 16920060 Chen C Tian YX Zou XY Cai PX Mo JY Using pseudo amino acid composition and support vector machine to predict protein structural class In J Theor Biol 243 Jahrgang Nr 3 Dezember 2006 S 444 448 doi 10 1016 j jtbi 2006 06 025 PMID 16908032 Lin H Li QZ Using pseudo amino acid composition to predict protein structural class approached by incorporating 400 dipeptide components In J Comput Chem 28 Jahrgang Nr 9 Juli 2007 S 1463 6 doi 10 1002 jcc 20554 PMID 17330882 Xiao X Wang P Chou KC Predicting protein structural classes with pseudo amino acid composition an approach using geometric moments of cellular automaton image In J Theor Biol 254 Jahrgang Nr 3 Oktober 2008 S 691 696 doi 10 1016 j jtbi 2008 06 016 PMID 18634802 B G Giraud John M Heumann Alan S Lapedes Superadditive correlation In Physical Review E Band 59 5 Pt A Mai 1999 S 4983 4991 PMID 11969452 Ulrike Gobel Chris Sander Reinhard Schneider Alfonso Valencia Correlated mutations and residue contacts in proteins In Proteins Band 18 Nr 4 April 1994 S 309 317 doi 10 1002 prot 340180402 Itamar Kass Amnon Horovitz Mapping pathways of allosteric communication in GroEL by analysis of correlated mutations In Proteins Band 48 Nr 4 September 2002 S 611 617 doi 10 1002 prot 10180 Wollenberg K R and Atchley W R 2000 Separation of phylogenetic and functional associations in biological sequences by using the parametric bootstrap In Proc Natl Acad Sci USA 97 3288 3291 doi 10 1073 pnas 97 7 3288 JSTOR 121884 a b c Debora S Marks Lucy J Colwell Robert Sheridan Thomas A Hopf Andrea Pagnani Riccardo Zecchina Chris Sander Protein 3D Structure Computed from Evolutionary Sequence Variation In PLOS ONE Band 6 Nr 12 Dezember 2011 S e28766 doi 10 1371 journal pone 0028766 PMID 22163331 freier Volltext Alan Lapedes Bertrand Giraud Christopher Jarzynski Using Sequence Alignments to Predict Protein Structure and Stability With High Accuracy In arXiv Juli 2012 arxiv 1207 2484v1 Lukas Burger Erik van Nimwegen Disentangling Direct from Indirect Co Evolution of Residues in Protein Alignments In PLOS Computational Biology Band 6 Nr 1 Januar 2010 S e1000633 doi 10 1371 journal pcbi 1000633 PMID 20052271 freier Volltext a b F Morcos A Pagnani B Lunt A Bertolino D S Marks C Sander R Zecchina J N Onuchic T Hwa M Weigt Direct coupling analysis of residue coevolution captures native contacts across many protein families PNAS Band 108 Nummer 49 Dezember 2011 S E1293 E1301 doi 10 1073 pnas 1111471108 PMID 22106262 PMC 3241805 freier Volltext David T Jones Daniel W A Buchan Domenico Cozzetto Massimiliano Pontil PSICOV precise structural contact prediction using sparse inverse covariance estimation on large multiple sequence alignments In Bioinformatics Band 28 Nr 2 Januar 2012 S 184 190 doi 10 1093 bioinformatics btr638 freier Volltext Debora S Marks Thomas A Hopf Chris Sander Protein structure prediction from sequence variation In Nature Biotechnology Band 30 Nr 11 November 2012 S 1072 1080 doi 10 1038 nbt 2419 PMID 23138306 freier Volltext Thomas A Hopf Lucy J Colwell Robert Sheridan Burkhard Rost Chris Sander Debora S Marks 3D structures of membrane proteins from genomic sequencing In Cell Band 149 Nr 7 Juni 2012 S 1607 1621 doi 10 1016 j cell 2012 04 012 PMC 3641781 freier Volltext Nugent T Jones D T 2012 Accurate de novo structure prediction of large transmembrane protein domains using fragment assembly and correlated mutation analysis PNAS Band 109 Nr 24 S E1540 E1547 doi 10 1073 pnas 1120036109 a b Zhang Y Progress and challenges in protein structure prediction In Curr Opin Struct Biol 18 Jahrgang Nr 3 2008 S 342 348 doi 10 1016 j sbi 2008 02 004 PMID 18436442 PMC 2680823 freier Volltext X Qu R Swanson R Day J Tsai A guide to template based structure prediction Current Protein amp Peptide Science Band 10 Nummer 3 Juni 2009 S 270 285 doi 10 2174 138920309788452182 Zhang Y and Skolnick J The protein structure prediction problem could be solved using the current PDB library In Proc Natl Acad Sci USA 102 Jahrgang Nr 4 2005 S 1029 1034 doi 10 1073 pnas 0407152101 PMID 15653774 PMC 545829 freier Volltext A Kolinski J Skolnick Reduced models of proteins and their applications Polymer Band 45 Nr 2 Jan 2004 S 511 524 J I Sulkowska F Morcos M Weigt et al Genomics aided structure prediction PNAS Band 109 2012 S 10340 10345 doi 10 1073 pnas 1207864109 Dunbrack RL Rotamer Libraries in the 21st Century In Curr Opin Struct Biol 12 Jahrgang Nr 4 2002 S 431 440 doi 10 1016 S0959 440X 02 00344 5 PMID 12163064 Lovell SC Word JM Richardson JS Richardson DC The penultimate rotamer library In Proteins Struc Func Genet 40 Jahrgang 2000 S 389 408 doi 10 1002 1097 0134 20000815 40 3 lt 389 AID PROT50 gt 3 0 CO 2 2 Richardson Rotamer Libraries Shapovalov MV Dunbrack RL A smoothed backbone dependent rotamer library for proteins derived from adaptive kernel density estimates and regressions In Structure Cell Press 19 Jahrgang Nr 6 2011 S 844 858 doi 10 1016 j str 2011 03 019 PMID 21645855 PMC 3118414 freier Volltext Voigt CA Gordon DB Mayo SL Trading accuracy for speed A quantitative comparison of search algorithms in protein sequence design In J Mol Biol 299 Jahrgang Nr 3 2000 S 789 803 doi 10 1006 jmbi 2000 3758 PMID 10835284 Krivov GG Shapovalov MV Dunbrack RL Improved prediction of protein side chain conformations with SCWRL4 In Proteins 77 Jahrgang Nr 3 2009 S 778 795 doi 10 1002 prot 22488 PMID 19603484 PMC 2885146 freier Volltext A Procaccini B Lunt H Szurmant T Hwa M Weigt Dissecting the specificity of protein protein interaction in bacterial two component signaling orphans and crosstalks In PloS one Band 6 Nummer 5 2011 S e19729 doi 10 1371 journal pone 0019729 PMID 21573011 PMC 3090404 freier Volltext Literatur BearbeitenG L Butterfoss B Yoo u a De novo structure prediction and experimental characterization of folded peptoid oligomers PNAS Band 109 2012 S 14320 14325 doi 10 1073 pnas 1209945109 Weblinks BearbeitenExPASy Proteomics tools Linkliste zum ThemaServer Software zur Vorhersage Bearbeiten NetSurfP Secondary Structure and Surface Accessibility predictor DomPred London s Global University DOMpro University of California Irvine DomainSplit University of Pittsburgh PredictProtein SCRATCH Protein structure prediction suite that includes SSpro PSSpred A multiple neural network training program for protein secondary structure prediction Abgerufen von https de wikipedia org w index php title Proteinstrukturvorhersage amp oldid 235769899