www.wikidata.de-de.nina.az
Netzwerkinferenz Rekonstruktion von Netzwerken Inferenz aus lateinisch inferre Schlussfolgerung bezeichnet die Identifikation oder Rekonstruktion eines Netzwerkmodells eines realen Systems unter Verwendung von Messdaten und Vorwissen In der Systembiologie bezeichnet Netzwerkinferenz die Identifikation von biologischen Netzwerken insbesondere Genregulationsnetzwerken unter Verwendung sowohl von gemessenen biomedizinischen oder und molekularbiologischen Daten insbesondere Daten aus der Genexpressionsanalyse als auch von molekularbiologischem Vorwissen In der Gerate und Software Technik wird die Netzwerkinferenz Reverse Engineering genannt dieser Begriff wird im ubertragenen Sinne auch fur die Netzwerkinferenz in der Systembiologie verwendet Inhaltsverzeichnis 1 Biologisches Netzwerk 2 Netzwerkinferenz als Losung eines Optimierungsproblems 3 Messdaten 4 Netzwerktypen 5 Reduktion der Komplexitat 6 Vorwissen fur die Netzwerkinferenz 7 Validierung der Netzwerkmodelle 8 Beispiele fur Algorithmen zur Inferenz von Genregulationsnetzwerken 9 Literatur 10 EinzelnachweiseBiologisches Netzwerk BearbeitenDie Eigenschaften und das Verhalten vieler Systeme konnen durch Netzwerkmodelle abgebildet und simuliert werden Ein Netzwerk besteht aus Komponenten Knoten die uber Kanten miteinander verbunden sind In der Systembiologie reprasentieren Knoten insbesondere Gene Proteine Metabolite Zellen Gewebe Organe Organismen oder Arten Die Kanten reprasentieren molekularbiologische und biochemische Prozesse z B Transkription Translation enzymatisch katalysierte Reaktionen Interaktionen z B Protein Protein Interaktionen metabolische Vorgange Informationsflusse oder trophische Beziehungen in Nahrungsketten Beispielsweise besteht ein Genregulationsnetzwerk GRN aus Knoten die die Gene reprasentieren und aus Kanten die die Gene verbinden Die Verbindungen reprasentieren vereinfachend die Prozesse der Genexpression uber die Synthese bestimmter Proteine mit genregulatorischer oder katalytischer Funktion Transkriptionsfaktoren Repressoren Induktoren oder Enzyme die uber biochemische Reaktionen die Synthese von Metaboliten katalysieren die auf die Signaltransduktion einwirken und so die Expression von Genen beeinflussen Netzwerkinferenz als Losung eines Optimierungsproblems Bearbeiten nbsp Zyklische Inferenz von NetzwerkmodellenNetzwerkinferenz wird als die Losung eines Optimierungsproblems verstanden bei dem die Eigenschaften des Netzwerkmodells mit den gemessenen Daten unter bestimmten Randbedingungen in moglichst grosse Ubereinstimmung Ahnlichkeit gebracht werden Zur Quantifizierung der Ubereinstimmung gibt es verschiedene Masse fur den Abstand zwischen den Messdaten einerseits und den Werten andererseits die im Ergebnis der Simulation des Netzwerkmodells erhalten werden Bei dynamischen Systemen wie einem GRN wird die Antwort des biologischen Systems z B eines Organs oder Organismus auf eine aussere Storung z B Temperatursprung Infektion Gabe eines Wirkstoffs gemessen und mit der simulierten Antwort des GRN verglichen d h der Abstand von Messung und Berechnung bestimmt Wenn anstelle nur eines Storimpulses die Antworten auf mehrere verschiedene Storungen in die Netzwerkinferenz einbezogen werden konnen komplexere Netzwerke identifiziert werden 1 Die Randbedingungen fur das Optimierungsproblem werden u a durch das vorhandene Vorwissen uber das Netzwerk bestimmt Wenn das Vorwissen mit Ungewissheiten behaftet ist oder seinerseits eine Optimierungsaufgabe impliziert z B Die Zahl der aktiven Kanten soll moglichst klein sein kann das Vorwissen auch in die Formulierung der Zielfunktion Bewertungsfunktion neben der Minimierung des Abstands zwischen Netzwerkmodell und Systemverhalten z B additiv aufgenommen werden Die verschiedenen Algorithmen der Netzwerkinferenz unterscheiden sich hinsichtlich 2 der Verwendung und Vorverarbeitung von Messdaten des Netzwerktyps und der Methodik der Modellsimulation der Art und Weise der Reduktion der Komplexitat des Netzwerkmodells der Verwendung von Vorwissen und Hypothesen Messdaten BearbeitenDie gemessenen Daten sollen das Systemverhalten mit einem moglichst hohen Informationsgehalt wiedergeben Bei dynamischen Systemen wie einem GRN wird zu diesem Zweck die Antwort des biologischen Systems z B eines Organs oder Organismus auf eine aussere Storung gemessen und mit der simulierten Antwort des GRN Modells verglichen d h der Abstand beider Zeitreihen beispielsweise als Euklidischer Abstand oder mit der Manhattan Metrik bestimmt Die Art der Storung ggf die Anzahl der Versuchswiederholungen und auch die Anzahl und Allokation der Messungen z B Messzeitpunkte kann durch optimale statistische Versuchsplanung bestimmt werden Die zu wahlende Messmethodik ist vor allem durch das System und die verfugbaren Ressourcen bestimmt Fur die Inferenz von GRN stehen verschiedene Methoden der Genexpressionsanalyse z B RNA Seq zur Verfugung Netzwerktypen BearbeitenEin Netzwerk ist ein Modell eines realen Systems Netzwerke werden oft durch Graphen visualisiert und konnen mit Methoden der Graphentheorie analysiert werden so dass auch metrische Eigenschaften der Graphen beispielsweise die Cliquenzahl in die Zielfunktion des o g Optimierungsproblems aufgenommen werden konnen 3 Man unterscheidet bezuglich der Eigenschaft der Kanten gerichtete und ungerichtete Graphen je nachdem ob Verbindungen oder Zusammenhange zwischen den Knoten bevorzugte Richtungen aufweisen Und man unterscheidet gewichtete und ungewichtete Kanten je nachdem ob den Kanten Werte z B reelle Zahlen fur Reaktionsgeschwindigkeiten zugeordnet werden Verschiedene Netzwerktypen werden hinsichtlich der verschiedenen Moglichkeiten der mathematischen Darstellung der Knoten und Kanten unterschieden Im einfachsten Fall kann das Netzwerk mit Methoden der Booleschen Algebra beschrieben werden In einem solchen Booleschen Netzwerk reprasentiert beispielsweise Wert 1 ein exprimiertes Gen und Wert 0 ein nicht exprimiertes schlafendes Gen Eine Erweiterung fuhrt dazu dass anstelle der zweiwertigen Logik mit Wahrscheinlichkeiten gerechnet wird Typischerweise wird damit ein Bayessches Netz formuliert wobei die Knoten mit der Wahrscheinlichkeit dass ein Gen exprimiert ist bewertet werden und die Kanten von Gen A zu Gen B mit der bedingten Wahrscheinlichkeit dass Gen B hochreguliert ist falls A hochreguliert ist Drittens kann die relative oder absolute Menge des Transkripts Expressionsintensitat also die Menge der mRNA im Ergebnis der Transkription eines Gens durch eine reelle Zahl quantifiziert werden Die einen Knoten reprasentierenden Werte Boolesche Einheit Wahrscheinlichkeit reelle Zahl konnen entweder konstant oder zeitlich variabel sein so dass man zwischen statischen und dynamischen Netzwerken unterscheidet Kanten eines Netzwerks werden haufig nicht nur durch Zahlen bewertet sondern durch mathematische Funktionen unterschiedlicher Komplexitat Wenn in dynamischen Netzwerken die Knoten durch reelle Zahlen reprasentiert werden werden vielfach fur die mathematische Darstellung von Kanten gewohnliche Differentialgleichungen oder Differenzengleichungen verwendet Reduktion der Komplexitat BearbeitenDie Komplexitat eines Netzwerks hangt vom Netzwerktyp der Anzahl der Knoten und Kanten sowie der mathematischen Funktion mit der die Kanten bewertet werden ab Biologische Systeme sind mit ihren Tausenden von Genen Proteinen Metaboliten Zellen usw hochdimensional Die Beziehungen zwischen diesen Komponenten sind nichtlinear und dynamisch Somit sind biologische Netzwerke typischerweise hochkomplex Die Inferenz d h die Rekonstruktion komplexer Netzwerke aus vorhandenen Daten und verfugbarem Wissen ist nicht nur numerisch aufwandig NP schwer sondern solche Netzwerk sind auch oft nicht eindeutig identifizierbar Dieses Problem besteht bei der Inferenz vollgenomischer genregulatorischer Netzwerke aufgrund ihrer Komplexitat einerseits und der beschrankten Zahl und Qualitat Messfehler der Messdaten sowie der mangelhaften Vollstandigkeit des verfugbaren Vorwissens andererseits Um solche nicht identifizierbaren Netzwerke identifizierbar zu gestalten muss entweder die Zahl und Qualitat der Messdaten erhoht oder die Komplexitat des Netzwerkmodells reduziert werden Da die Anzahl und Qualitat der Messdaten beschrankt ist bedingt durch die praktisch verfugbaren Ressourcen und Techniken kommt der Reduktion der Komplexitat die entscheidende Aufgabe bei der Netzwerkinferenz in der Systembiologie zu Die Reduktion der Komplexitat kann auf verschiedene Weise geschehen Reduktion der Zahl der Knoten Reduktion der Zahl der Kanten Vereinfachung der Funktionen die die Kanten reprasentierenDiese Vereinfachungen stehen im Konflikt mit dem Ganzheitlichkeitsanspruch der Systembiologie Zu 1 Systembiologie hat den Anspruch ein biologisches System in seiner Gesamtheit zu untersuchen Jede Reduktion der Zahl der Knoten d h der einbezogenen Komponenten Gene Proteine Metabolite u a beruht auf Hypothesen oder auf bewussten Beschrankungen oder falls vorhanden auf erkannten Gesetzmassigkeiten Eine typische Beschrankung besteht darin dass nur differenziell exprimierte Gene als Knoten in Betracht gezogen werden Ferner werden in gleicher Weise exprimierte oder regulierte ko regulierte Gene mittels der Clusteranalyse in Gruppen 4 oder mittels Vorwissen uber die Genfunktion und regulation zu Modulen 3 zusammengefasst Merkmalsselektion Die Gruppen oder Module bilden dann die Knoten des Netzwerks Zu 2 Fur die Reduktion der fur die Netzwerkinferenz freigegebenen Kanten wurden in der Systembiologie verschiedene Hypothesen bemuht Nach einer dieser Hypothesen ist das genregulatorische Netzwerk nur sparlich englisch sparse vernetzt Es wird dann als zusatzliches Kriterium bei der Netzwerkinferenz die Minimierung der Kantenanzahl berucksichtigt Zu 3 Die einfachste Funktion um Kanten zu bewerten ist binar Mit derartigen Booleschen Netzwerken gelingt bei gegebener Knoten und Kantenanzahl die weitestgehende Reduktion der Komplexitat Das Problem liegt dann auf der Abbildung von i d R reellwertigen Messwerten z B Intensitaten der Genexpression auf diese zwei Werte Fur eine etwas weniger schwerwiegende Vereinfachung der Funktionen die die Kanten reprasentieren werden anstelle nichtlinearer Differentialgleichungsysteme mit nichtlinearen zeitvariablen Funktionen lineare Differentialgleichungen verwendet oder noch weiter vereinfachend Differenzengleichungen die dann in ein algebraisches Gleichungssystem uberfuhrt werden Vorwissen fur die Netzwerkinferenz BearbeitenIm Falle biologischer Systeme ohne Reduktion der Komplexitat insbesondere bei vollgenomischen GRN ist die Aufgabe der Netzwerkinferenz nicht nur schlecht konditioniert sondern auch unterbestimmt d h die Zahl der experimentellen Daten ist zu gering fur eine eindeutige Identifikation der Netzwerk Struktur und Parameter Da die Anzahl und Qualitat der Messdaten nicht beliebig zu erhohen ist u a aufgrund finanzieller Beschrankungen kommt neben der im Sinne der Systembiologie problematischen Reduktion der Komplexitat der Berucksichtigung von Vorwissen eine entscheidende Rolle zu Das Vorwissen bezieht sich dabei sowohl auf die Aggregation von Knoten zu Clustern oder Modulen s o als auch auf die Kanten also auf das vorhandene Wissen uber die Zusammenhange zwischen den Knoten Im einfachsten Falle ist es faktisches oder hypothetisches Wissen uber die Abwesenheit eines Zusammenhangs Bei Tausenden Knoten eines GRN ist das Vorwissen uber Millionen Kanten gefragt Die Menge derartigen Wissens ist zwar in der Fachliteratur stetig steigend aber fur die Nutzung dieses Wissens in numerischen Algorithmen muss das Wissen maschinenlesbar z B aus Datenbanken auslesbar sein Beispielsweise wurde fur die Inferenz eines GRN von Leberzellen das Vorwissen uber Transkriptionsfaktoren und andere Regulatorproteine sowie deren DNA Bindestellen aus mehreren Datenbanken Gene Ontology oPOSSUM JASPAR TRANSFAC PathwayStudio extrahiert 5 Wahrend Datenbanken fur Protein Protein Interaktionen bei einigen biologischen Arten einen fortgeschrittenen Stand erreicht haben sind derartige Datenbanken fur Gen Protein Gen Beziehungen wie die hochwertige weil manuell gepflegte Datenbank TRANSFAC fur fast alle Arten stark luckenhaft oder sie enthalten unsichere weil automatisch generierte hypothetische und nicht experimentell validierte Eintrage Dies ist begrundet vor allem dadurch dass die Gen Protein Gen Beziehungen vermittelt uber die Genexpression Transkription RNA Prozessierung Translation Proteinreifung und Protein DNA Wechselwirkungen an Transkriptionsfaktorbindestellen ihrerseits komplex dynamisch und nichtlinear sind Mit jeder erfolgten und zuverlassigen Inferenz eines GRN wachst allerdings das Wissen das fur nachfolgende Netzwerkinferenz mit neuen Messdaten eingesetzt werden kann Validierung der Netzwerkmodelle BearbeitenDa sowohl die Messdaten als auch oft das Vorwissen mit Fehlern und Unsicherheiten behaftet sind sowie ein Netzwerkmodell nur unvollkommen die Eigenschaften eines realen Systems abbildet muss das inferierte Netzwerkmodell validiert werden Hier unterscheidet man zwischen der internen und der externen Validitat Ohne weiteren experimentellen Aufwand ist die interne Validitat auf den gegebenen Mengen von Messdaten und Vorwissen mittels einer Resampling Methode z B mittels Kreuzvalidierung zu bestimmen 6 Entscheidend fur die Qualitat eines inferierten Netzwerkmodells ist die Verallgemeinerungsfahigkeit d h die Vorhersagegute fur das System unter veranderten experimentellen Bedingungen Dieser Test geschieht dadurch dass mittels Simulation des Netzwerkmodells Vorhersagen unter veranderten Bedingungen getroffen werden die nachtraglich experimentell realisiert werden und dabei erneut experimentelle Daten gemessen und mit dem vorhergesagten Systemverhalten verglichen werden 7 Aufgrund der unvermeidlichen aber nur hypothetisch begrundeten Reduktion der Komplexitat eines fur die Netzwerkinferenz geeigneten Netzwerkmodells und auch aufgrund von moglichen Messfehlern sowie Unsicherheiten im verwendeten Vorwissen sind die mit bioinformatischen Methoden gewonnenen Schlussfolgerungen ihrerseits lediglich Hypothesen Diese Hypothesen sind wertvoll fur die fokussierte und damit ressourcensparende Planung von Experimenten die der Verifikation der gewonnenen Hypothesen dienen Als Mass fur die Validitat wird z B die Flache unter der Kurve AUC area under the curve der ROC Kurve Receiver Operating Characteristic verwendet Beispiele fur Algorithmen zur Inferenz von Genregulationsnetzwerken BearbeitenDie Fulle verschiedener Netzwerkinferenz Algorithmen kann in folgende Kategorien gruppiert werden wobei verschiedene Algorithmen auch parallel in Kombinationen oder komplementar eingesetzt werden konnen 8 REVEAL und andere Algorithmen fur Boolesche Netzwerke 9 Statistische Methoden wie LASSO Least Absolute Shrinkage and Selection Operator 10 11 und LARS Least Angle Regression 12 Gewohnliche Differentialgleichungssysteme in Verbindung mit Methoden der nichtlinearen Optimierung wie NetGenerator 4 oder in Verbindung mit Regressionsmethoden wie INFERELATOR 13 Bayessches Netze 14 wie ScanBMA 15 16 Graphische Gausssche Modelle 17 Informationstheorie basierte Methoden wie ARACNE 18 Die Eignung eines Algorithmus hangt vom Modelltyp den verfugbaren Messdaten dem zuganglichen Vorwissen der Komplexitat des Systems insbesondere der Anzahl der Netzknoten und vor allem von der Zielstellung der Netzwerkinferenz ab Seit 2006 werden im Rahmen des internationalen Projekts Dialogue on Reverse Engineering and Assessment Methods DREAM anhand vorgegebener Daten und ein nur fur die Jury jeweils bekanntes System die jeweils leistungsfahigsten Algorithmen fur die Netzwerkinferenz ermittelt 19 Ein Ergebnis dieses Projekts ist die Erkenntnis dass die Aggregation der Vorhersagen uber mehrere Netzwerkmodelle die mit verschiedenen Netzwerkinferenz Algorithmen berechnet wurden die Qualitat und Robustheit der Vorhersagen verbessert 20 Ausserdem wurde gefunden dass fur die genomweite Netzwerkinferenz LASSO Methoden am besten geeignet sind sofern sie gut konfiguriert sind und die Messdaten sowie das Vorwissen in ausreichender Quantitat und Qualitat verfugbar sind eine Voraussetzung die fur das Bakterium Escherichia coli gegeben ist Boolesche Netze eignen sich bevorzugt zur Modellierung stationarer Situationen auf der Grundlage von Gen Knockout Daten und fur die Identifikation von Signalwegen Literatur BearbeitenM Bansal V Belcastro A Ambesi Impiombato D di Bernardo How to infer gene networks from expression profiles In Molecular Systems Biology Band 3 2007 S 78 doi 10 1038 msb4100120 M Hecker S Lambeck S Toepfer E van Someren R Guthke Gene regulatory network inference data integration in dynamic models A review In BioSystems Band 96 2009 S 86 103 doi 10 1016 j biosystems 2008 12 004 T Ideker N J Krogan Differential network biology In Molecular Systems Biology Band 8 2012 S 565 doi 10 1038 msb 2011 99 PMID 22252388 S R Maetschke P B Madhamshettiwar M J Davis M A Ragan Supervised semi supervised and unsupervised inference of gene regulatory networks In Briefings in Bioinformatics Band 15 2014 S 195 211 doi 10 1093 bib bbt034 P Meyer T Cokelaer D Chandran K H Kim P R Loh G Tucker M Lipson B Berger C Kreutz A Raue B Steiert J Timmer E Bilal H M Sauro G Stolovitzky J Saez Rodriguez Network topology and parameter estimation from experimental design methods to gene regulatory network kinetics using a community based approach In BMC Systems Biology Band 8 2014 S 13 doi 10 1186 1752 0509 8 13 S Hill L Heiser T Cokelaer et al Inferring causal molecular networks empirical assessment through a community based effort In Nature Methods Band 13 2016 S 310 318 doi 10 1038 nmeth 3773 M M Saint Antoine A Singh Network inference in systems biology recent developments challenges and applications In Current Opinion in Biotechnology Band 63 2020 S 89 98 doi 10 1016 j copbio 2019 12 002 Einzelnachweise Bearbeiten M Weber S G Henkel S Vlaic R Guthke E J van Zoelen D Driesch Inference of dynamical gene regulatory networks based on time resolved multi stimuli multi experiment data applying NetGenerator V2 0 In BMC Systems Biology Band 7 2013 S 1 doi 10 1186 1752 0509 7 1 PMID 23280066 J Linde S Schulze S G Henkel R Guthke Data and knowledge based modeling of gene regulatory networks An update In EXCLI Journal Band 14 2015 ISSN 1611 2156 S 346 378 PMID 27047314 a b S Vlaic T Conrad C Tokarski Schnelle M Gustafsson U Dahmen R Guthke S Schuster ModuleDiscoverer Identification of regulatory modules in protein protein interaction networks In Scientific Reports Band 8 Nr 1 2018 S 433 doi 10 1038 s41598 017 18370 2 PMID 29323246 a b R Guthke U Moller M Hoffmann F Thies S Topfer Dynamic network reconstruction from gene expression data applied to immune response during bacterial infection In Bioinformatics Band 21 2005 S 1626 1634 PMID 15613398 S Vlaic W Schmidt Heck M Matz Soja E Marbach J Linde A Meyer Baese S Zellmer R Guthke R Gebhardt The extended TILAR approach a novel tool for dynamic modeling of the transcription factor network regulating the adaption to in vitro cultivation of murine hepatocytes In BMC Systems Biology Band 6 2012 S 147 doi 10 1186 1752 0509 6 147 S M Colby R S McClure C C Overall et al Improving network inference algorithms using resampling methods In BMC Bioinformatics Band 19 2018 S 376 doi 10 1186 s12859 018 2402 0 J Linde P Hortschansky E Fazius A Brakhage R Guthke H Haas Regulatory interactions for iron homeostasis in Aspergillus fumigatus inferred by a Systems Biology approach In BMC Systems Biology Band 6 19 Januar 2012 S 6 doi 10 1186 1752 0509 6 6 Omid Abbaszadeh Ali Reza Khanteymoori Ali Azarpeyvand Parallel Algorithms for Inferring Gene Regulatory Networks A Review In Current Genomics Band 19 S 603 614 doi 10 2174 1389202919666180601081718 S Liang S Fuhrman R Somogyi Reveal a general reverse engineering algorithm for inference of genetic network architectur In Pacific Symposium on Biocomputing Band 1998 1998 S 18 29 PMID 9697168 R Tibshirani Regression shrinkage and selection via the Lasso In Journal of the Royal Statistical Society Series B Band 58 1996 S 267 288 JSTOR 2346178 E P van Someren B L Vaes W T Steegenga A M Sijbers K J Dechering M J Reinders Least absolute regression network analysis of the murine osteoblast differentiation network In Bioinformatics Band 22 2006 S 477 doi 10 1093 bioinformatics bti816 PMID 16332709 B Efron T Hastie I Johnstone R Tibshirani Least angle regression In Annals of Statistics Band 32 2004 S 409 499 doi 10 1214 009053604000000067 R Bonneau D J Reiss P Shannon M Facciotti L Hood N S Baliga et al The Inferelator an algorithm for learning parsimonious regulatory networks from systems biology data sets de novo In Genome Biology Band 7 Nr 5 2006 S R36 PMID 16686963 N Friedman M Linial I Nachman D Pe er Using bayesian networks to analyze expression data In Journal of Computational Biology Band 7 2000 S 601 620 doi 10 1089 106652700750050961 PMID 11108481 W C Young A E Raftery K Y Yeung Fast Bayesian inference for gene regulatory networks using ScanBMA In BMC Systems Biology Band 8 2014 S 47 PMID 24742092 X Liang W C Young L H Hung A E Raftery K Y Yeung Integration of Multiple Data Sources for Gene Network Inference Using Genetic Perturbation Data In Journal of Computational Biology Band 26 Nr 10 2019 S 1113 1129 doi 10 1089 cmb 2019 0036 A Wille P Zimmermann E Vranova A Furholz O Laule S Bleuler L Hennig A Prelic P von Rohr L Thiele E Zitzler W Gruissem P Buhlmann Sparse graphical gaussian modeling of the isoprenoid gene network in Arabidopsis thaliana In Genome Biology Band 5 Nr 11 2004 S R92 doi 10 1186 gb 2004 5 11 r92 PMID 15535868 K Basso A A Margolin G Stolovitzky U Klein R Dalla Favera A Califano Reverse engineering of regulatory networks in human B cells In Nature Genetics Band 37 2005 S 382 390 doi 10 1038 ng1532 PMID 15778709 Dialogue for Reverse Engineering Assessment and Methods DREAM Abgerufen am 17 Mai 2020 D Marbach J C Costello R Kuffner N M Vega R J Prill D M Camacho et al Wisdom of crowds for robust gene network inference In Nature Methods Band 9 2012 S 796 804 doi 10 1038 nmeth 2016 PMID 22796662 Abgerufen von https de wikipedia org w index php title Netzwerkinferenz Systembiologie amp oldid 232446242