www.wikidata.de-de.nina.az
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Es gibt zwar Literaturangaben aber keine Einzelnachweise fur besitmmte Aussagen Ilikelifesciences Diskussion 11 03 23 Mar 2016 CET Sequenzalignment von lateinisch sequentia Aufeinanderfolge und englisch alignment Abgleich Anordnung Ausrichtung bezeichnet den methodischen Vergleich zweier oder mehrerer Nukleotid oder Aminosauresequenzen in linearer Abfolge Sequenzalignment ist ein Teilgebiet des Pattern Matching Es wird in der molekularen Phylogenie verwendet um die funktionelle oder evolutionare Verwandtschaft Homologie von Nukleotidsequenzen oder Aminosauresequenzen zu untersuchen In der Fachsprache werden anstelle des Anglizismus alignment auch die eingedeutschten Begriffe Alignierung oder Alinierung benutzt Inhaltsverzeichnis 1 Das Prinzip 1 1 Kostenfunktion bei automatisierten Alignment 1 2 Beispiel 2 Paarweises Alignment 2 1 Globales Alignment 2 2 Free Shift Alignment 2 3 Lokales Alignment 3 Multiples Sequenzalignment 4 Alignment Algorithmen 5 Verwandte Themen 6 Software 7 Siehe auch 8 LiteraturDas Prinzip BearbeitenBeim Sequenzalignment ordnet man die linear abfolgenden Elemente eines untersuchten Strings Zeichenfolge von englisch string Schnur Saite aus dem Datensatz einer Nukleotid oder Aminosauresequenz einem anderen String zu Es gibt vor allem automatisierte Sequenzalignmentmethoden fur grosse Datensatze von Nukleotid oder Aminosauresequenzen Man kann kleinere Datensatze jedoch auch manuell alignieren Die manuelle Methode ermoglicht eine grossere Sorgfalt und den Ausschluss von hochvariablen und somit nicht alignierbaren Positionen die spatere Analysen storen wurden Beim Sequenzalignment soll die Reihenfolge der linear abfolgenden Elemente erhalten bleiben und jedes Element einem anderen Element oder einem Gap Leerstelle Lucke in jedem String paarig zugeordnet werden Fehlpaarungen werden als Mutationen interpretiert Gaps hingegen als Gendeletionen oder Insertionen Indel Die einander zugeordneten Elemente sollten identisch oder biochemisch moglichst ahnlich sein weil viele gleiche oder ahnliche Elemente in gleicher Reihenfolge auf eine evolutionare oder funktionelle Verwandtschaft hinweisen Die Ahnlichkeit der Elemente wird meist vorgegeben und hangt von den Eigenschaften der verwendeten Daten oder Substitutionsmatrizes ab Damit ein sinnvolles Alignment moglich ist und da die untersuchten Sequenzen oft unterschiedlich lang sind durfen kunstlich Gaps in die Strings eingefugt werden nbsp Ein Sequenzalignment erstellt mit ClustalW zwischen zwei menschlichen Zinkfingerproteinen aus der GenBankDas Alignment von zwei Sequenzen wird als paarweises Alignment bezeichnet das von mehreren als multiples Alignment Beim paarweisen Alignment unterscheidet man weiterhin zwischen globalem lokalem und semiglobalem Alignment Kostenfunktion bei automatisierten Alignment Bearbeiten Die Aufgabe eines Alignment Algorithmus ist ein Alignment zu finden das unter einer Kostenfunktion alignment score optimal ist Die Kostenfunktion in der Bioinformatik wird meist in einer so genannten Ahnlichkeitsmatrix auch Austauschmatrix engl similarity matrix oder mutation data matrix vorgegeben Diese geben fur jedes Paar zu vergleichender Sequenzelemente an wie wahrscheinlich es ist dass diese Paarung durch Evolution entstanden ist Identische Elemente werden hoch bewertet ahnliche Elemente weniger hoch stark unterschiedliche Elemente setzen den score herab Die Kostenfunktion hat zur Folge dass das rechnerisch beste Alignment auch dasjenige ist das zu erwarten ware wenn die beiden Sequenzen homolog sind Ein Problem stellen dabei Gaps dar fur die Entstehung von Insertionen oder Deletionen in biologischen Sequenzen gibt es bislang keine genauen mathematischen Modelle Man benutzt deswegen empirisch motivierte sogenannte affine gap scores die einen konstanten Beitrag fur die Einfuhrung jedes Gaps vom Ergebnis abziehen und einen weiteren Beitrag der linear mit der Lange des Gaps wachst Beispiel Bearbeiten AAACGG AAAACCG Das oben dargestellte Alignment von zwei kurzen DNA Sequenzen zeigt an der ersten Position A dass ein Gap eingefugt werden kann um Langenunterschiede auszugleichen Das Gap wurde am Anfang der oberen Sequenz eingefugt und nicht in der Mitte weil es aus der Sicht der Biologie wahrscheinlicher ist dass eine Sequenz an den Enden mutiert als in der Mitte An der vorletzten Stelle wurden C und G aligniert da in der DNA durchaus Mutationen moglich sind in denen statt eines C zufallig ein G eingebaut wird oder umgekehrt Es ware auch moglich gewesen G und C jeweils mit einem Gap in der anderen Sequenz zu alignieren Diese Entscheidung hangt von der verwendeten Kostenfunktion ab Beim Proteinsequenzalignment entsprechen die Aminosauresequenzen den Strings Die Kostenfunktionen fur die Ahnlichkeiten der einzelnen Aminosauren untereinander sind etwas komplexer als bei der DNA Paarweises Alignment BearbeitenEin Alignment von zwei Symbol Sequenzen S T displaystyle S T nbsp ist eine Sequenz von Edit Operationen die eine Transformation von S displaystyle S nbsp nach T displaystyle T nbsp beschreibt Dabei kann ein Symbol durch ein anderes Symbol ersetzt mismatch ein Symbol geloscht deletion oder ein Symbol eingefugt werden insert Ublicherweise werden die an einer Edit Operation beteiligten Symbole ubereinandergeschrieben wobei das Symbol eine durch ein in die andere Sequenz eingefugtes bzw geloschtes Symbol entstandene Lucke bezeichnet Jeder Edit Operation kann durch eine Bewertungsfunktion ein Wert zugeordnet werden Die Summe der Werte aller Edit Operationen eines Alignments wird als Alignment Score bezeichnet Ein optimales Alignment ist ein Alignment dessen Score unter einem Bewertungsschema optimal ist Dabei wird manchmal zwischen den Begriffen Score und Edit Distanz unterschieden Der Begriff Score bzw Distanz wird dann bei einem Schema verwendet das Sequenz Ahnlichkeiten bzw Sequenz Unterschiede durch positive Werte bewertet D h nach dieser Unterscheidung ist ein optimaler Score bzw eine optimale Distanz maximal bzw minimal Ein Beispiel fur ein Bewertungsschema sind die Einheitskosten unit costs Die Bewertungsfunktion d displaystyle delta nbsp ist definiert als d a b 0 a b match 1 a b mismatch displaystyle delta a b begin Bmatrix 0 amp a b text match 1 amp a neq b text mismatch end Bmatrix nbsp d a 1 Deletion displaystyle delta a 1 text Deletion nbsp d b 1 Insertion displaystyle delta b 1 text Insertion nbsp Globales Alignment Bearbeiten Bei einem globalen Alignment zwischen zwei Sequenzen werden alle Symbole berucksichtigt Globale Alignments werden hauptsachlich verwendet wenn die zu untersuchenden Sequenzen ahnlich lang sind und starke Sequenzhomologien erwartet werden Die Berechnung des optimalen Alignment Score bzw des optimalen Alignment ist ein Optimierungsproblem das beim paarweisen Alignment mit der Methode der dynamischen Programmierung Needleman Wunsch Algorithmus effizient Laufzeit in O n 2 displaystyle O n 2 nbsp gelost werden kann Beispiel Gegeben Zwei Sequenzen S und T Einheitskosten als Bewertungsschema Annahme S und T haben gemeinsame Vorfahren sind homolog Frage Welche Positionen in S und T sind homolog Fur S GAC und T GC sind mogliche Losungen Moglichkeit Alignment Score1 GAC GC 0 1 1 22 GAC GC 1 1 1 1 1 53 GAC G C 0 1 0 1Free Shift Alignment Bearbeiten Das Free Shift Alignment auch als Semiglobales Alignment oder End Gap Free Alignment bezeichnet zweier Sequenzen ist eine Variante des globalen Alignments bei dem eine Folge von Insertionen bzw Deletionen am Anfang bzw am Ende des Alignments in der Berechnung des Scores nicht berucksichtigt werden Die Berechnung des optimalen Free Shift Alignment kann in bestimmten Anwendungen sinnvoller sein als die Berechnung des optimalen globalen Alignment wenn beispielsweise eine Sequenz deutlich langer als die andere ist und ein uberstehendes Suffix bzw Prafix keine Relevanz hat Lokales Alignment Bearbeiten Ein lokales Alignment von zwei Sequenzen S T displaystyle S T nbsp ist ein globales Alignment von einer Teilsequenz Substring von S displaystyle S nbsp und einer Teilsequenz von T displaystyle T nbsp D h zur Berechnung des optimalen lokalen Alignment zweier Sequenzen mussen die beiden Teilsequenzen gefunden werden deren optimaler Alignment Score maximal ist Anwendungsbeispiele fur die Berechnung von lokalen Alignments sind die Suche nach gleichen Sequenzmotiven oder Domanen bei Proteinen Der klassische Algorithmus zur Berechnung von optimalen lokalen Alignments ist der Smith Waterman Algorithmus Multiples Sequenzalignment BearbeitenWahrend das optimale Alignment von zwei Sequenzen mit Hilfe eines Computers recht schnell d h in polynomieller Zeit exakt berechnet werden kann Laufzeit O n m displaystyle nm nbsp n und m sind die Langen der Sequenzen ist dies beim multiplen Sequenzalignment engl multiple sequence alignment nicht mehr moglich da die Laufzeit des Algorithmus zur exakten Berechnung des multiplen Alignment mit der Anzahl der Sequenzen exponentiell wachst O 2 k n k displaystyle O 2 k n k nbsp wobei k die Anzahl der Sequenzen und n die langste der zu vergleichenden Sequenzen ist Um jedoch ein biologisch bzw evolutionar sinnvolles Alignment berechnen zu konnen aus dem sich tatsachlich Gemeinsamkeiten und Unterschiede in Sequenz Struktur und Funktion ableiten lassen braucht man viele lange Sequenzen Deshalb werden Heuristiken verwendet beispielsweise sogenannte Progressive Strategien auch Hierarchische Methoden genannt Hierbei werden zunachst alle optimalen paarweisen Alignments der zu untersuchenden Sequenzen berechnet und daraus durch Clusteranalyse zum Beispiel unter Verwendung eines Neighbour Joining Algorithmus ein phylogenetischer Baum abgeleitet der sogenannte Guide Tree Entlang dieses Baumes wird schliesslich schrittweise progressiv nach dem Prinzip eines Greedy Algorithmus ein multiples Alignment bestimmt wobei durch dieses heuristische Vorgehen die optimale Losung nicht garantiert ist Alignment Algorithmen BearbeitenNeedleman Wunsch Algorithmus globales Alignment Hirschberg Algorithmus globales Alignment auf linearem Speicherplatz Smith Waterman Algorithmus lokales Alignment Gotoh Algorithmus globales Alignment bei affinen Gapkosten Heuristische Algorithmen fur paarweises Alignment BLAST FASTAHeuristische Algorithmen fur multiples Alignment Populare Fragment Basierte Methode DIALIGN TX Hierarchische Methoden zum Beispiel Feng Doolittle PSI BLASTVerwandte Themen BearbeitenMethoden wie Jukes amp Cantor Kimura 2 Parameter Felsenstein 81 HKY 85 Hasegawa Kushino amp Yano 1985 oder General time reversible GTR oder REV korrigieren Distanzdaten von Sequenzalignments Software BearbeitenHaufig genutzte Programme fur allgemeine Sequenzalignments sind ClustalW MAFFT und T Coffee sowie BLAST fur die Datenbanksuche Online Interface Das Programm STRAP Software integriert fast alle frei verfugbaren Programme zur Berechnung von Sequenzalignments Diese werden automatisch installiert und sind dann mit einer komfortablen graphischen Benutzeroberflache aufrufbar Dadurch erspart sich der Nutzer die individuelle Installation und das Erlernen der Kommandozeilensyntax der einzelnen Programme Da das Berechnen grosser Alignments viel Zeit in Anspruch nehmen kann werden Ergebnisse langwieriger Berechnungen im Cache gespeichert Wenn fur mindestens zwei der Proteine auch 3D Strukturen vorhanden sind ist die kombinierte Anwendung von Sequenzalignment und 3D Strukturuberlagerung zu empfehlen Siehe auch BearbeitenClustal DotplotLiteratur BearbeitenMichael S Waterman Introduction to Computational Biology Maps Sequences and Genomes 1995 Chapman amp Hall ISBN 0 412 99391 0 Dan Gusfield Algorithms on Strings Trees and Sequences 1997 Cambridge University Press ISBN 0 521 58519 8 Andreas D Baxevanis amp B F Francis Ouellette Hrsg Bioinformatics a practical guide to the analysis of genes and proteins 2001 Wiley Interscience ISBN 0 471 38391 0 Andrea Hansen Bioinformatik Ein Leitfaden fur Naturwissenschaftler 2004 Birkhaeuser Verlag ISBN 3 7643 6253 7 Roland Fleissner Sequence alignment and phylogenetic inference 2004 Logos Berlin ISBN 3 8325 0588 1 Bernhard Haubold Thomas Wiehe Introduction to Computational Biology An Evolutionary Approach 2006 Birkhaeuser Verlag ISBN 3 7643 6700 8 Abgerufen von https de wikipedia org w index php title Sequenzalignment amp oldid 231720632