www.wikidata.de-de.nina.az
Der Zuker Algorithmus berechnet die optimale Sekundarstruktur einer RNA Sequenz mit der minimalen freien Energie unter einem gegebenen thermodynamischen Modell Es ist also ein Algorithmus zur RNA Strukturvorhersage Der Algorithmus verwendet die Methode der dynamischen Programmierung und wurde 1981 veroffentlicht Das RNA Strukturvorhersageprogramm mfold 1 implementiert eine veranderte Version dieses Algorithmus Inhaltsverzeichnis 1 Idee 2 Algorithmus 3 Komplexitat 4 Fallunterscheidung 5 Backtracing 6 Abgrenzung 7 Literatur 8 QuellenIdee Bearbeiten nbsp Kleeblattartige Sekundarstruktur der Konsensus Sequenz eines CIS Elements der Enterovirus Familie Eine gegebene RNA Sequenz kann aufgrund vieler moglicher Kombinationen von Basenpaarungen in exponentiell viele verschiedene Sekundarstrukturen gefaltet werden Bei der Strukturvorhersage muss uber dem Suchraum nach einem bestimmten Kriterium optimiert werden Beispielsweise kann die Struktur mit den meisten Basenpaarungen ausgewahlt werden Diese Struktur kann allerdings biologisch bzw biochemisch unrealistisch sein da sie z B eine Hairpin Loop mit nur einer ungepaarten Base enthalt oder eine energetisch sehr instabile Struktur darstellt Ein biologisch sinnvolleres Kriterium ist die Betrachtung der freien Energie einer Sekundarstruktur Ist die freie Energie einer Struktur kleiner als die freie Energie einer anderen Struktur dann ist die erste Struktur stabiler als die zweite Unter Laborbedingungen kann die freie Energie von vielfaltigen Teilstrukturen einer RNA Sekundarstruktur gemessen werden Ein Beispiel fur so eine Datensammlung ist 2 Aus diesen Daten kann dann die freie Energie einer gegebenen RNA Sekundarstruktur einer gegebenen RNA Sequenz approximiert werden Der Algorithmus berechnet nun bei einer gegebenen RNA Sequenz die Struktur mit der minimalen freien Energie Die unter diesem Modell optimalen Sekundarstrukturen werden von Experten Biologen Biochemikern als biologisch realistischer beurteilt Algorithmus BearbeitenDie RNA Sequenz wird mit s displaystyle s nbsp bezeichnet wobei n s displaystyle n s nbsp Die minimale freie Energie einer optimalen Sekundarstruktur wird rekursiv fur alle Teilsequenzen von s displaystyle s nbsp berechnet Die Matrix W displaystyle W nbsp speichert in der Zelle W i j displaystyle W i j nbsp die minimale freie Energie MFE fur die Teilsequenz s i j displaystyle s i j nbsp von s displaystyle s nbsp Die Matrix V displaystyle V nbsp speichert in der Zelle V i j displaystyle V i j nbsp die MFE der Struktur der Teilsequenz s i j displaystyle s i j nbsp wobei s i displaystyle s i nbsp und s j displaystyle s j nbsp ein Basenpaar sind Initialisierung W i j 0 j i 4 displaystyle W i j 0 j i 4 nbsp V i j 8 4 k c a l m o l j i 4 displaystyle V i j 8 4 mathrm kcal mol j i 4 nbsp Kurze RNA Molekule formen keine stabile Sekundarstruktur Rekursion W i j min W i 1 j W i j 1 min i lt k lt j 1 W i k W k 1 j V i j i lt j j i gt 4 0 lt i lt n 0 lt j lt n displaystyle W i j min begin Bmatrix W i 1 j W i j 1 min i lt k lt j 1 W i k W k 1 j V i j end Bmatrix i lt j j i gt 4 0 lt i lt n 0 lt j lt n nbsp Die Fallunterscheidung berucksichtigt vier Falle Im ersten bzw zweiten Fall setzt sich die optimale Struktur fur s i j displaystyle s i j nbsp aus der optimalen Struktur der Teilsequenz s i 1 j displaystyle s i 1 j nbsp bzw s i j 1 displaystyle s i j 1 nbsp und einer ungepaarten Base links bzw rechts davon zusammen In beiden Fallen andert sich nichts an der MFE Im dritten Fall wird die optimale Struktur fur s i j displaystyle s i j nbsp gebildet indem die optimalen Strukturen der geteilten Sequenz konkateniert werden Die MFE ist die Summe der MFE der Teilstrukturen der Teilsequenzen s i k displaystyle s i k nbsp bzw s k 1 j displaystyle s k 1 j nbsp Der 4 Fall ermittelt die MFE fur eine Teilsequenz von s i j displaystyle s i j nbsp falls die Basen s i displaystyle s i nbsp und s j displaystyle s j nbsp ein Basenpaar darstellen Falls s i displaystyle s i nbsp nicht mit s j displaystyle s j nbsp ein Basenpaar bilden kann dann wird V i j inf displaystyle V i j inf nbsp gesetzt Ansonsten wird V i j displaystyle V i j nbsp wie folgt berechnet V i j min f h i j min i lt a lt b lt j f l i j a b V a b min i 1 lt k lt j 2 W i 1 k W k 1 j 1 i lt j j i gt 4 0 lt i lt n 0 lt j lt n displaystyle V i j min begin Bmatrix fh i j min i lt a lt b lt j fl i j a b V a b min i 1 lt k lt j 2 W i 1 k W k 1 j 1 end Bmatrix i lt j j i gt 4 0 lt i lt n 0 lt j lt n nbsp Die Funktion f h displaystyle fh nbsp gibt die freie Energie fur einen Hairpin Loop der Teilsequenz s i j displaystyle s i j nbsp zuruck Beispielsweise konnen die Werte fur verschiedene Loop Grossen und Basenpaare experimentell unter einheitlichen Bedingungen ermittelt werden und sind in einer Hilfstabelle gespeichert Die Funktion f l displaystyle fl nbsp ist ein Stellvertreter und liefert die freie Energie fur eine Internal Loop eine Bulge Loop oder eine Stacking Region an der die Teilsequenzen s i a displaystyle s i a nbsp s b j displaystyle s b j nbsp beteiligt sind Die MFE ist in diesem Fall die Summe dieses Konstruktes und der MFE fur die Teilsequenz s a b displaystyle s a b nbsp welche von einem Basenpaar eingeschlossen sein muss Der dritte Fall modelliert eine Verzweigung der rekursiv konstruierten Struktur Backtracing In der Zelle W 0 n 1 displaystyle W 0 n 1 nbsp ist nach der Berechnung der Matrix Rekurrenzen die MFE fur die gesamte RNA Sequenz unter einer optimalen Sekundarstruktur gespeichert Um eine optimale Sekundarstruktur zu ermitteln welche die MFE hat muss Optimierung via Backtracking zuruckverfolgt werden Komplexitat BearbeitenDie beiden Tabellen W displaystyle W nbsp und V displaystyle V nbsp sind quadratisch also liegt der Speicherbedarf in O n 2 displaystyle O n 2 nbsp Fur jede Zelle muss bei trivialer Implementierung uber O n 2 displaystyle O n 2 nbsp Moglichkeiten optimiert werden denn interior loops benotigen 2 Variablen Durch ein geschicktes Preprocessing also ein Vorab Berechnen der Werte fur interior loops kann man aber auch diesen Energiebeitrag in linearer Zeit bestimmen Alternativ kann man die Grosse eines loops mit einer Konstante beschranken Damit liegt die Laufzeit des Algorithmus in O n 3 displaystyle O n 3 nbsp Fallunterscheidung BearbeitenDie Fallunterscheidung in der Rekursion der W displaystyle W nbsp Rekurrenz des Algorithmus lasst sich auch kompakter formulieren wenn die Sekundarstrukturen als Vienna Strings Dot Bracket Strings abgebildet werden Wenn ein Punkt eine ungepaarte Base und eine Klammer eine gepaarte Base bezeichnet dann entspricht die Fallunterscheidung in der Rekursion von W displaystyle W nbsp folgender Fallunterscheidung u v v v v w displaystyle u v v v vw nbsp wobei u displaystyle u nbsp die Gesamtsekundarstruktur eines Teilstrings bezeichnet und v displaystyle v nbsp bzw w displaystyle w nbsp Teilstrukturen von u displaystyle u nbsp bezeichnen Diese Beschreibung ist aquivalent zu folgenden grafischen Darstellung nbsp j ungepaart nbsp i ungepaart nbsp i und j gepaart nbsp VerzweigungBacktracing BearbeitenBeim Backtracing konnen aufgrund der Fallunterscheidung des Zuker Algorithmus mehrere unterschiedliche Backtracing Pfade die gleiche Sekundarstruktur reprasentieren Die Fallunterscheidung ist semantisch mehrdeutig Beispielsweise eine Rekursion in W displaystyle W nbsp von Fall 1 nach Fall 2 nach Fall 1 erzeugt die gleiche Struktur wie die Rekursion von Fall 1 nach Fall 1 nach Fall 2 Fur ein weiteres Beispiel siehe 3 Diese Mehrdeutigkeit ist nicht problematisch bei der Ausgabe einer optimalen Sekundarstruktur Wenn allerdings alle co optimalen Sekundarstrukturen ausgegeben oder gezahlt oder alle suboptimalen Strukturen bis zu einer gewissen Schranke ausgegeben oder gezahlt werden sollen dann ist das Backtracing zumindest nur noch schwer fehlerfrei effizient und vollstandig implementiertbar Bei einer Standard Backtracing Implementation werden die redundanten Strukturen in exponentieller Anzahl ausgegeben bzw gezahlt Abgrenzung BearbeitenDer Algorithmus verwendet eine weitere Tabelle im Vergleich zu dem Nussinov Algorithmus um eine Folge von gepaarten Basen also eine Stacking Region unterschiedlich bewerten zu konnen Ein ahnliches Muster verwendet auch der Gotoh Algorithmus zur Berechnung des paarweisen Sequenzalignment bei affinen Gapkosten Der Nussinov Algorithmus von 1978 berechnet die Sekundarstruktur einer RNA Eingabesequenz welche die maximale Anzahl von Basenpaaren hat Da diese Strukturen nicht unbedingt biologisch sinnvoll sind ist der Nussinov Algorithmus nicht praxisrelevant In der Praxis werden unter anderem RNA Sekundarstrukturvorhersage Algorithmen verwendet die die Struktur mit der minimalen freien Energie berechnen bzw die Strukturen mit den kleinsten freien Energien bis zu einer gewissen Schwelle bestimmen Die Verwendung des Zuker Algorithmus in der mfold Implementation ist immer noch verbreitet obwohl inzwischen auch Algorithmen zur Sekundarstrukturvorhersage existieren die eine detaillierte Fallunterscheidung vornehmen und deren Fallunterscheidung nicht mehrdeutig ist Ein Beispiel fur so einen verbesserten mfe Algorithmus ist der Wuchty98 Algorithmus Literatur BearbeitenMichael Zuker Patrick Stiegler Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information In Nucleic Acids Research Band 9 Nr 1 1981 S 133 148 Durbin et al Biological sequence analysis Cambridge 2006 ISBN 0 521 62971 3 S 274 276 Jens Reeder Algorithms for RNA secondary structure analysis prediction of pseudoknots and the consensus shapes approach Dissertation 2007 S 13 15 urn nbn de hbz 361 12764 uni bielefeld de Quellen Bearbeiten The mfold Web Server Abgerufen am 4 August 2020 Offizielle Website zur Software mfold Michael Zuker Free Energy and Enthalpy Tables for RNA Folding Memento vom 4 April 2008 im Internet Archive 3 November 2000 Jens Reeder Algorithms for RNA secondary structure analysis prediction of pseudoknots and the consensus shapes approach Dissertation 2007 urn nbn de hbz 361 12764 Abgerufen von https de wikipedia org w index php title Zuker Algorithmus amp oldid 227406769