www.wikidata.de-de.nina.az
Biclustering Co Clustering oder Two Mode Clustering 1 ist eine Data Mining Technik die das gleichzeitige Clustering von Zeilen und Spalten einer Matrix ermoglicht Der Begriff wurde von Mirkin 2 eingefuhrt aber die Technik selbst wurde ursprunglich bereits viel fruher eingefuhrt 2 z B von J A Hartigan 3 unter dem Begriff Direct Clustering Inhaltsverzeichnis 1 Definition 2 Komplexitat 3 Typen von Biclustern 4 Algorithmen 5 Siehe auch 6 Literatur 7 EinzelnachweiseDefinition BearbeitenSei A a i j m n displaystyle A a ij m times n nbsp eine Datenmenge in Form einer rechteckigen Matrix die sich aus n displaystyle n nbsp Spalten und m displaystyle m nbsp Zeilen zusammensetzt Jede Spalte steht fur ein Sample Datenprobe und jede Zeile fur ein Feature Komponente eines Samples 4 Jedem Sample ist somit eine Serie von Features zugeordnet 5 Das Element a i j displaystyle a ij nbsp reprasentiert die Expression des i displaystyle i nbsp ten Features im j displaystyle j nbsp ten Sample 4 Weiters seien die Klassen S 1 S r displaystyle S 1 S r nbsp eine Klassifikation der Samples und die Klassen F 1 F r displaystyle F 1 F r nbsp eine Klassifikation der Features 4 Eine Submatrix von A displaystyle A nbsp die als Paar S k F k displaystyle S k F k nbsp mit k 1 r displaystyle k in 1 r nbsp dargestellt wird wird als Bicluster bezeichnet 4 5 Beim Biclustering entsteht eine Partition B S 1 F 1 S r F r displaystyle B S 1 F 1 S r F r nbsp von A displaystyle A nbsp bestehend aus r displaystyle r nbsp Biclustern 5 Manche Biclustering Methoden erlauben Bicluster die Sample und Feature Klassen mit unterschiedlichen Indizes beinhalten das sind Paare S k F l displaystyle S k F l nbsp mit k l 1 r displaystyle k l in 1 r nbsp und k l displaystyle k neq l nbsp 4 Komplexitat BearbeitenDie Komplexitat des Biclustering Problems ist abhangig von der exakten Problemformulierung insbesondere von der Gutefunktion die zur Evaluierung der Qualitat des gegebenen Biclusters verwendet wird Die interessantesten Varianten dieses Problems sind jedoch NP vollstandig und erfordern entweder einen hohen Rechenaufwand oder die Verwendung einer verlustbehafteten Heuristik um die Berechnung zu verkurzen 6 Typen von Biclustern BearbeitenVerschiedene Biclustering Algorithmen haben verschiedene Definitionen fur den Bicluster 6 Bicluster mit konstanten Werten a Bicluster mit konstanten Zeilenwerten b oder Spaltenwerten c Bicluster mit koharenten Werten d e a Bicluster mit konstanten Werten 2 0 2 0 2 0 2 0 2 02 0 2 0 2 0 2 0 2 02 0 2 0 2 0 2 0 2 02 0 2 0 2 0 2 0 2 02 0 2 0 2 0 2 0 2 0 b Bicluster mit konstanten Zeilenwerten 1 0 1 0 1 0 1 0 1 02 0 2 0 2 0 2 0 2 03 0 3 0 3 0 3 0 3 04 0 4 0 4 0 4 0 4 04 0 4 0 4 0 4 0 4 0 c Bicluster mit konstanten Spaltenwerten 1 0 2 0 3 0 4 0 5 01 0 2 0 3 0 4 0 5 01 0 2 0 3 0 4 0 5 01 0 2 0 3 0 4 0 5 01 0 2 0 3 0 4 0 5 0d Bicluster mit koharenten Werten additiv 1 0 4 0 5 0 0 0 1 54 0 7 0 8 0 3 0 4 53 0 6 0 7 0 2 0 3 55 0 8 0 9 0 4 0 5 52 0 5 0 6 0 1 0 2 5 e Bicluster mit koharenten Werten multiplikativ 1 0 0 5 2 0 0 2 0 82 0 1 0 4 0 0 4 1 63 0 1 5 6 0 0 6 2 44 0 2 0 8 0 0 8 3 25 0 2 5 10 0 1 0 4 0Die Beziehung zwischen diesen Clustermodellen und anderen Clusteringtypen wie Correlation Clustering wird diskutiert in 7 Algorithmen BearbeitenZahlreiche Biclustering Algorithmen wurden fur die Bioinformatik entwickelt darunter Block Clustering CTWC Coupled Two Way Clustering ITWC Interrelated Two Way Clustering d Bicluster d pCluster d Pattern FLOC OPC Plaid Model OPSMs Order preserving Submatrices Gibbs SAMBA Statistical Algorithmic Method for Bicluster Analysis 8 Robust Biclustering Algorithm RoBA Crossing Minimization 9 cMonkey 10 PRMs DCC LEB Localize and Extract Biclusters QUBIC QUalitative BIClustering BCCA Bi Correlation Clustering Algorithm und FABIA Factor Analysis for Bicluster Acquisition 11 Auch in anderen Anwendungsgebieten werden Biclustering Algorithmen vorgeschlagen und eingesetzt Dort sind sie unter den Bezeichnungen Co Clustering Bidimensional Clustering sowie Subspace Clustering zu finden 6 Biclustering hat sich zur Erkennung lokaler Muster in Zeitreihendaten als relevant gezeigt Daher haben sich neueste Ansatze fur Zeitreihendaten von Genexpressionen dem Biclustering Problem gewidmet mit dem interessante Bicluster auf Bicluster mit aneinander angrenzenden Spalten beschrankt werden konnen Diese Einschrankung fuhrt zu einem Problem das in polynomieller Zeit gelost werden kann Zudem ermoglicht es die Entwicklung von effizienten erschopfenden Enumerationsalgorithmen wie CCC Biclustering 12 und e CCC Biclustering 13 Manche der neuesten Algorithmen haben versucht zusatzliche Unterstutzung fur das Biclustering von rechteckigen Matrizen mit anderen Datentypen darunter cMonkey zu inkludieren Es gibt eine fortlaufende Debatte uber die Beurteilung der Ergebnisse dieser Methoden da Biclustering die Uberlappung von Clustern erlaubt und manche Algorithmen die Exklusion schwierig vereinbarter Spalten Bedingungen erlauben Nicht alle der verfugbaren Algorithmen sind deterministisch Der Analytiker muss die Aufmerksamkeit auf das Ausmass jener Ergebnisse richten die stabile Minima darstellen Da sich das Problem auf unuberwachtes Lernen bezieht erweist sich die Fehlererkennung in den Ergebnissen wegen des fehlenden Goldstandards als schwierig Ein Ansatz ist die Anwendung mehrerer Biclustering Algorithmen deren Mehrheit oder qualifizierte Mehrheit das beste Ergebnis ermittelt Eine andere Moglichkeit ist eine Qualitatsanalyse der Shifting und Scaling Pattern von Biclustern 14 Biclustering wird auch im Bereich des Text Mining oder der Klassifizierung unter dem Begriff Co Clustering eingesetzt 15 Textkorpora werden in Vektorform als eine Matrix D dargestellt deren Zeilen fur die Dokumente und deren Spalten fur die Worter eines Worterbuches stehen Die Matrix Elemente Dij bezeichnen das Vorkommen des Wortes j im Dokument i Co Clustering Algorithmen werden anschliessend zur Erkennung von Blocken in D angewandt welche einer Gruppe von Dokumenten Zeilen entsprechen die durch eine Gruppe von Wortern Spalten gekennzeichnet sind Mehrere Ansatze wurden basierend auf den Informationsinhalten der erhaltenen Blocke vorgeschlagen Matrix basierte Ansatze wie SVD und BVD sowie Graph basierte Informationstheoretische Algorithmen weisen iterativ jeder Zeile einen Cluster von Dokumenten und jeder Spalte einen Cluster von Wortern zu sodass die gegenseitige Information maximiert wird Matrix basierte Methoden fokussieren sich auf die Dekomposition von Matrizen in Blocke damit der Fehler der Dekomposition zwischen der ursprunglichen Matrix und den neu gebildeten Matrizen minimiert wird Graph basierte Methoden neigen dazu die Uberschneidungen zwischen den Clustern zu minimieren Sind zwei Gruppen von Dokumenten d1 und d2 gegeben kann die Anzahl der Uberschneidungen anhand der Anzahl der Worter die in Dokumenten der Gruppen d1 und d2 auftreten gemessen werden Bisson und Hussain 15 haben einen neuen Ansatz zur Verwendung der Ahnlichkeit zwischen Wortern und der Ahnlichkeit zwischen Dokumenten zum Co Clustering einer Matrix vorgeschlagen Ihre Methode x Sim Cross Similarity basiert auf dem Finden einer Ahnlichkeit zwischen Dokumenten und Wortern und der anschliessenden Verwendung von klassischen Clusteringmethoden wie dem hierarchischen Clustering Siehe auch BearbeitenFormale Begriffsanalyse GaloisverbindungLiteratur BearbeitenAmos Tanay Roded Sharan Ron Shamir Biclustering Algorithms A Survey In Srinivas Aluru Hrsg Handbook of Computational Molecular Biology Chapman 2004 Yuval Kluger Ronen Basri Joseph T Chang Mark Gerstein Spectral Biclustering of Microarray Data Coclustering Genes and Conditions In Genome Research 13 Jahrgang Nr 4 2003 S 703 716 doi 10 1101 gr 648603 PMID 12671006 PMC 430175 freier Volltext Einzelnachweise Bearbeiten Iven Van Mechelen Hans Hermann Bock Paul De Boeck Two mode clustering methods a structured overview In Statistical Methods in Medical Research 13 Jahrgang Nr 5 2004 S 363 94 doi 10 1191 0962280204sm373ra PMID 15516031 a b Boris Mirkin Mathematical Classification and Clustering Kluwer Academic Publishers 1996 ISBN 0 7923 4159 7 J A Hartigan Direct clustering of a data matrix In Journal of the American Statistical Association 67 Jahrgang Nr 337 American Statistical Association 1972 S 123 9 doi 10 2307 2284710 a b c d e Stanislav Busygin Oleg Prokopyev Panos M Pardalos Biclustering in data mining In Computers amp Operations Research 35 Jahrgang Nr 9 2008 S 2964 2987 doi 10 1016 j cor 2007 01 005 a b c Antonio Mucherino Sonia Cafieri A New Heuristic for Feature Selection by Consistent Biclustering In Cornell University 2010 arxiv 1003 3279v1 a b c Sara C Madeira Arlindo L Oliveira Biclustering Algorithms for Biological Data Analysis A Survey In IEEE Transactions on Computational Biology and Bioinformatics 1 Jahrgang Nr 1 2004 S 24 45 doi 10 1109 TCBB 2004 2 PMID 17048406 Hans Peter Kriegel Peer Kroger Arthur Zimek Clustering High Dimensional Data A Survey on Subspace Clustering Pattern based Clustering and Correlation Clustering In ACM Transactions on Knowledge Discovery from Data TKDD 3 Jahrgang Nr 1 Marz 2009 S 1 58 doi 10 1145 1497577 1497578 Amos Tanay Roded Sharan Martin Kupiec Ron Shamir Revealing modularity and organization in the yeast molecular network by integrated analysis of highly heterogeneous genomewide data In Proc Natl Acad Sci USA 101 Jahrgang Nr 9 2004 S 2981 2986 doi 10 1073 pnas 0308661100 PMID 14973197 PMC 365731 freier Volltext Ahsan Abdullah Amir Hussain A new biclustering technique based on crossing minimization In Neurocomputing 69 Jahrgang Nr 16 18 2006 S 1882 1896 doi 10 1016 j neucom 2006 02 018 elsevier com David J Reiss Nitin S Baliga Richard Bonneau Integrated biclustering of heterogeneous genome wide datasets for the inference of global regulatory networks In BMC Bioinformatics 2 Jahrgang 2006 S 280 302 doi 10 1186 1471 2105 7 280 PMID 16749936 PMC 1502140 freier Volltext Sepp Hochreiter Ulrich Bodenhofer Martin Heusel Andreas Mayr Andreas Mitterecker Adetayo Kasim Tatsiana Khamiakova Suzy Van Sanden Dan Lin Willem Talloen Luc Bijnens Hinrich W H Gohlmann Ziv Shkedy Djork Arne Clevert FABIA factor analysis for bicluster acquisition In Bioinformatics 26 Jahrgang Nr 12 2010 S 1520 1527 doi 10 1093 bioinformatics btq227 PMID 20418340 PMC 2881408 freier Volltext Sara C Madeira Miguel C Teixeira Isabel Sa Correia Arlindo L Oliveira Identification of Regulatory Modules in Time Series Gene Expression Data using a Linear Time Biclustering Algorithm In IEEE Transactions on Computational Biology and Bioinformatics 1 Jahrgang Nr 7 2010 S 153 165 doi 10 1109 TCBB 2008 34 Sara C Madeira Arlindo L Oliveira A polynomial time biclustering algorithm for finding approximate expression patterns in gene expression time series In Algorithms for Molecular Biology 4 Jahrgang Nr 8 2009 Jesus S Aguilar Ruiz Shifting and scaling patterns from gene expression data In Bioinformatics 21 Jahrgang Nr 10 2005 S 3840 3845 doi 10 1093 bioinformatics bti641 PMID 16144809 a b Gilles Bisson Fawad Hussain Chi Sim A new similarity measure for the co clustering task In ICMLA 2008 S 211 217 doi 10 1109 ICMLA 2008 103 Abgerufen von https de wikipedia org w index php title Biclustering amp oldid 211882933