www.wikidata.de-de.nina.az
Ein Textkorpus Neutrum Plural Textkorpora kurz auch nur Korpus oder Corpus lateinisch corpus Korper ist eine Sammlung von schriftlichen Texten oder textlich aufgezeichneten mundlichen Ausserungen einer bestimmten Sprache oder Textgattung Inhaltsverzeichnis 1 Allgemeines 2 Arten von Textkorpora 2 1 Papierkorpora und elektronische Korpora 2 2 Teilkorpora und Referenzkorpora 2 3 Statische Korpora und Monitorkorpora 2 4 Rohkorpora und annotierte Korpora 2 5 Einsprachige und mehrsprachige Korpora 3 Textkorpora in der Sprachwissenschaft 4 Referenzkorpora von Einzelsprachen 5 Spezielle Textkorpora 6 Literatur 7 Weblinks 8 EinzelnachweiseAllgemeines BearbeitenTextkorpora werden in unterschiedlichen wissenschaftlichen Disziplinen untersucht hauptsachlich in Sprach und Literaturwissenschaften sowie historisch und sozialwissenschaftlich orientierten Fachern wie Ethnologie oder Kulturanthropologie Die Korpora sind ein Mittel mit dem beispielsweise eine bestimmte Sprache oder Sprachvarietat beschrieben oder die Werke eines bestimmten Autors oder einer Gruppe von Autoren erfasst und erforscht werden konnen Sie dienen aber auch als Quellen zur Untersuchung anderer Fragestellungen etwa der Soziolinguistik Fur die Rechtswissenschaft und Rechtsgeschichte sind Textkorpora als Rechtsquellen von Bedeutung Ein Gesetzeskorpus zum Beispiel das Corpus iuris civilis ist eine gewachsene Sammlung normativer Texte Fur sprachwissenschaftliche Zwecke werden in Textkorpora bestimmte Arten und Mengen von Texten aus lebenden Sprachen nach wissenschaftlichen Kriterien zusammengestellt Solche Sammlungen haben mit Aufkommen maschineller Erfassungsmoglichkeiten durch die Digitalisierung in vielen sprachwissenschaftlichen Disziplinen sehr grosse Bedeutung erlangt Hieraus entwickelte sich die neue Hilfswissenschaft der Korpuslinguistik Ein Textkorpus liegt heute typischerweise in digitaler Form vor Fur Zwecke der Sprachbeschreibung wurden fur zahlreiche Nationalsprachen grosse das heisst viele Millionen und teils mehrere Milliarden Worter umfassende Korpora erstellt die ein gewisses Verhaltnis einzelner Textsorten in der jeweiligen Sprache abbilden sollen Zudem existieren zahlreiche Spezialkorpora wie etwa Kindersprachkorpora Dialektkorpora Korpora die aus Gesamtausgaben von literarischen Werken bestehen u a m Auch werden in zunehmendem Masse fur linguistische Einzeluntersuchungen eigens konzipierte Textkorpora erstellt Arten von Textkorpora BearbeitenNach formalen und inhaltlichen Kriterien konnen Textkorpora in unterschiedlicher Weise kategorisiert werden 1 In erster Linie unterscheidet man Papierkorpora und elektronische Korpora Bearbeiten Auf Papier zusammengetragene Textkorpora waren aufwandig zu erstellen und dementsprechend selten anzutreffen Sie spielten in der Vergangenheit beispielsweise in der Worterbuchschreibung eine bedeutende Rolle da anhand dieser Sammlungen die Bedeutungen einzelner Worter ausgemacht bzw belegt wurden Fur die Nutzung der heute ublichen maschinenlesbaren Korpora ist eine spezielle Software wie beispielsweise WordSmith notwendig Etliche Korpora sind aber online zuganglich und ohne solche Software auf dem eigenen PC nutzbar Teilkorpora und Referenzkorpora Bearbeiten Teilkorpora sind solche die nur einen Ausschnitt aus dem gesamten Spektrum einer Sprache bieten wie beispielsweise Textkorpora die nur Texte aus der alltaglichen Umgangssprache oder nur Texte aus Tageszeitungen enthalten Ein Referenzkorpus ist ein Textkorpus das nach linguistischen Kriterien eine einzelne Sprache also das Deutsche das Englische usw in ihrer Gesamtheit dergestalt reprasentativ erfassen soll dass anhand eines Referenzkorpus einer bestimmten Sprache gultige Aussagen uber das System ebendieser Sprache generell gemacht werden konnen Statische Korpora und Monitorkorpora Bearbeiten Statische Korpora sind abgeschlossen und werden nicht mehr erweitert so etwa Textkorpora mit den Werken eines verstorbenen Schriftstellers ein Korpus bestehend aus der Gesamtheit aller in einer ausgestorbenen Sprache vorhandenen schriftlichen Quellen oder ein Korpus aus den verschrifteten Aufzeichnungen von Aufnahmen eines die Sprache erwerbenden Kleinkindes Alte Sprachen die nur in wenigen Dokumenten oder gar nur fragmentarisch belegt sind bezeichnet man auch als Korpussprachen weil sie nur anhand dieses einen begrenzten nicht mehr erweiterbaren Textkorpus rekonstruierbar und beschreibbar sind Monitorkorpora hingegen sind Textkorpora die auf eine Erweiterung hin konzipiert sind wie etwa Textsammlungen bestehend aus den Artikeln einer aktuellen Tageszeitung Sie werden deshalb als Monitorkorpora bezeichnet weil sie unter einer bestandigen systematischen Beobachtung und Erfassung einem Monitoring stehen Rohkorpora und annotierte Korpora Bearbeiten Unter Rohkorpora versteht man Textkorpora die rein aus den Sprachdaten bestehen die zur Untersuchung herangezogen werden Annotierte Korpora sind solche Textkorpora die neben diesen Primardaten auch zusatzliche Angaben sogenannte Metadaten enthalten Diese Annotationen konnen sehr unterschiedlicher Art sein Gangig sind beispielsweise Korpora in denen fur jedes einzelne Wort zusatzlich die jeweilige Wortart angegeben wird Korpora die Glossen enthalten wobei die Zielsprache nicht jener des Korpus entsprechen muss oder Korpora die mit Angaben betreffend die Syntax der einzelnen Satze versehen sind Letztere werden analog zum Ausdruck Datenbank auch als Baumbanken bezeichnet da in ihnen sogenannte syntaktische Baumstrukturen annotiert sind Textkorpora bestehend aus Daten der gesprochenen Sprache sind haufig mit phonologischen Daten angereichert Zu den Metadaten eines Textkorpus zahlen auch Angaben uber den Zeitpunkt der Textentstehung uber die Autorenschaft uber die Korpuserstellung u a m Annotierte Korpora bieten gerade fur Fragestellungen der theoretischen Linguistik oder der Computerlinguistik grundsatzlich verbesserte Forschungsmoglichkeiten Jedoch ist die Annotation gerade von umfangreicheren Textkorpora verhaltnismassig aufwandig und demzufolge kostenintensiv sodass gerade die grossen Referenzkorpora nur zum Teil mit Annotationen versehen sind Einsprachige und mehrsprachige Korpora Bearbeiten Einsprachige Korpora erlauben Aussagen uber die jeweilige Einzelsprache Mehrsprachige Korpora enthalten Texte aus mehrheitlich zwei gegebenenfalls mehreren Sprachen Entweder sind dabei die Texte in der zweiten Sprache eine Ubersetzung der Texte der ersten Sprache man bezeichnet solche Falle als Parallelkorpora oder das Korpus der zweiten Sprache besteht im selben Ausmass aus denselben Textsorten wie das Korpus der ersten Sprache z B Zeitungsartikel zu denselben Themen Mehrsprachige Korpora spielen hauptsachlich fur die maschinelle Ubersetzung und fur die Sprachlehrforschung eine Rolle Dabei ist die automatische oder statistische Analyse z B der Haufigkeit und Verteilung von bestimmten Wortern innerhalb einzelner Sprachen fur die automatische Erstellung eines zweisprachigen Worterbuches hilfreich Einige Funktionen eines mehrsprachigen Textkorpus ohne tatsachlich ein solches zu sein ubernimmt oftmals die Bibel weil sie auch in kleineren weniger oft gesprochenen Sprachen vorliegt Daher ist sie nicht nur fur sprachwissenschaftliche Vergleichszwecke dienlich sondern auch in der Bibelwissenschaft beispielsweise in Bezug auf die Erforschung der Ubersetzungsgewohnheiten und auf die Erfassung biblischer Begriffe von grosser Bedeutung Textkorpora in der Sprachwissenschaft BearbeitenTextkorpora bieten die Moglichkeit das System einer Sprache und deren Gebrauch anhand von tatsachlich geausserten Sprachdaten in verschiedener Hinsicht zu untersuchen Der Begriff Korpus im Sinne einer Zusammenstellung von Sprachdaten um aufgrund dieser Stichproben allgemeine Aussagen zu treffen wird in verschiedenen Disziplinen der Sprachwissenschaft schon seit Jahrzehnten verwendet 2 Diese empirische Ausrichtung steht im Gegensatz zur rationalistischen Orientierung der Generativen Grammatik die augenblicklich ein dominierendes Paradigma in der theoretischen Linguistik darstellt Dementsprechend kritisch wird von Vertretern dieser Richtung der Einsatz und Nutzen von Textkorpora gerade in Hinblick auf Fragen zur Grammatik gesehen Jedoch werden Korpora auch in diesem Bereich in zunehmendem Masse zur Verifizierung von Hypothesen in Anspruch genommen Linguistische Teilbereiche in denen derzeit Textkorpora vermehrt herangezogen werden sind die Korpuslinguistik und die Computerlinguistik Hier werden moglichst grosse Korpora ausgewertet um allgemeine Aussagen uber eine Sprache treffen zu konnen Beispiele fur den Einsatz von Korpora in der Korpuslinguistik sind etwa das Bestimmen von Wortbedeutungen anhand von Konkordanzen also anhand von Belegstellen in konkreten Texten das Eruieren von Kollokationen also von gemeinsamem Auftreten eines Wortes mit bestimmten anderen Wortern oder die Beantwortung von Fragen zur Syntax einer Sprache 3 Im Bereich der Computerlinguistik und mathematischen Linguistik sind unter anderem Worthaufigkeiten und Wortverteilungen in Texten Wortkollokationen oder Satz und Wortlangen und Ahnliches von Interesse Im sprachwissenschaftlichen Teilgebiet der Diskursanalyse werden Textkorpora unterschiedlicher Grosse vornehmlich aus dem offentlichen Sprachbereich Politik Medien herangezogen um aus solchen Sprachdaten Ruckschlusse auf latent vorhandene Einstellungen und Haltungen einer gesellschaftlichen Gruppierung zu bestimmten Dingen und Sachverhalten herauszufinden oder deren Verstandnis von bestimmten Begriffen ausfindig zu machen 4 Zwar stellt auch das World Wide Web eine Sammlung konkret verwendeter Sprache dar es ist jedoch nach sprachwissenschaftlichem Verstandnis nicht als Textkorpus im eigentlichen Sinne zu betrachten Dennoch wird es unter gewissen Einschrankungen fur bestimmte Fragestellungen mit entsprechender Vorsicht genutzt Beispielsweise wurden neben verschiedenen gedruckten Texten auch regionale Websites im Rahmen der Erstellung des Variantenworterbuchs des Deutschen herangezogen 5 Referenzkorpora von Einzelsprachen BearbeitenZur Beschreibung nationaler Sprachen oder sprachlicher Varietaten werden umfangreiche Textkorpora erstellt die heute sehr haufig auch online nutzbar sind In letzteren Fallen ist die dazu benotigte Analysesoftware bereits im World Wide Web implementiert und kann von den Nutzern ohne ein solches Programm auf dem eigenen PC installieren zu mussen angewendet werden Das erste Textkorpus in einer nationalen Sprachvarietat war das bereits in den 1960er Jahren erstellte und vollstandig nach 80 definierten Wortarten annotierte Brown Corpus welches das zeitgenossische amerikanische Englisch reprasentieren sollte Der Name leitet sich von der Brown University in Providence im US Bundesstaat Rhode Island her an der das Korpus erstellt wurde Es umfasst 1 Million Worter und setzt sich aus 500 Textauszugen zu je 2000 Wortern zusammen wobei Texte aus 15 unterschiedlichen Textsorten verschiedene Zeitungs und literarische Textsorten religiose Texte Fachliteratur etc herangezogen wurden Die Ansicht dass ein Textsample in der Grosse von 2 000 Wortern die Textsorte fur ein Textkorpus reprasentativ abbildet gilt bis heute Das Brown Corpus diente als Grundlage fur das American Heritage Dictionary das erste Worterbuch das ausschliesslich auf Basis eines derartigen Korpus erstellt wurde Dem Brown Corpus folgte unter anderem in den 1980er Jahren das ebenfalls vollstandig annotierte Lancaster Oslo Bergen Corpus kurz LOB Corpus welches nach dem Vorbild des Brown Corpus aus Texten im britischen Englisch besteht Heute sind fur das Englische unter anderem das British National Corpus das American National Corpus und das International Corpus of English mit Texten aus unterschiedlichen englischsprachigen Landern von Bedeutung Als das derzeit umfangreichste Korpus des Deutschen gilt das am Leibniz Institut fur Deutsche Sprache in Mannheim zusammengestellte Deutsche Referenzkorpus das aus uber 43 Milliarden Wortern Stand Marz 2019 aus geschriebener Sprache besteht und grundsatzlich allen zur Benutzung offensteht 6 Im Rahmen des Forschungsprojekts Digitales Worterbuch der deutschen Sprache des 20 Jahrhunderts wurde das grosste ausgewogene Textkorpus der deutschen Sprache des 20 Jahrhunderts bereitgestellt Ausserdem finden sich dort weitere Korpora so etwa die kompletten Online Archive der Zeitschrift Die Zeit ab 1996 des Tagesspiegels ab 1996 und der Potsdamer Neuesten Nachrichten sowie ein grosses Korpus judischer Periodika Germania Judaica Die Korpora sind verknupft mit einem grossen einsprachigen deutschen Worterbuch dem Worterbuch der deutschen Gegenwartssprache Bei der Abfrage eines Stichwortes werden dabei nicht nur die Konkordanzen sondern auch Informationen zu Synonymen Hyponymen Hyperonymen und Kollokationen generiert In der Abteilung Automatische Sprachverarbeitung der Universitat Leipzig arbeitet man ebenfalls an und mit grossen Korpora und pflegt unter anderem ein Korpus im Umfang von rund 1 5 Mrd Wortern rund 100 Mio Satze Die statistischen Daten eines reduzierten Korpus sind auch online im Wortschatz Portal der Universitat Leipzig abfragbar Des Weiteren gibt es seit 2010 ein online zugangliches Schweizer Textkorpus fur die Standardsprache in der deutschen Schweiz Es wurde an der Universitat Basel erarbeitet und wird seit 2014 vom Schweizerischen Idiotikon gepflegt und aktualisiert Derzeit Stand 2021 wird es durch ein schweizerdeutsches Mundartkorpus erganzt 7 Auch in sehr vielen anderen Nationalsprachen existieren heute grosse Korpora Das gilt nicht nur fur den indogermanischen Sprachraum sondern auch fur andere sprecherreiche Sprachen besonders im asiatischen Raum Aber auch kleinere Sprachen Asiens und Afrikas werden in Form von Textarchiven oder weniger umfangreichen annotierten Textkorpora dokumentiert Spezielle Textkorpora BearbeitenNeben den grossen Referenzkorpora existiert eine immer grosser werdende Anzahl von Textsammlungen die nicht nur unter der Bezeichnung Korpus sondern auch als Text archive oder unter dem Stichwort Datenbank zu finden sind Darunter gibt es beispielsweise Dialektkorpora oder Korpora gesprochener Sprache wie sie beispielsweise im Bayerischen Archiv fur Sprachsignale und am Archiv fur gesprochenes Deutsch vorliegen Eine andere Art von Spezialkorpora sind Textgesamtausgaben wie zum Beispiel das an der Osterreichischen Akademie der Wissenschaften erstellte Austrian Academy Corpus das die Gesamtausgaben der essayistischen Zeitschriften Die Fackel und Der Brenner umfasst Besonders fur die Psycholinguistik und die Klinische Linguistik ist zur Erforschung des normalen und auch des gestorten Spracherwerbs von Kindern die Datenbank CHILDES von Bedeutung in welchem Transkripte von gesprochener Kindersprache in umfangreichem Masse vorliegen Im Rahmen gross angelegter Projekte zur Digitalisierung alter Buchbestande werden immer mehr Lexika Worterbucher Enzyklopadien und literarische Werke erfasst und online zur Verfugung gestellt Darunter finden sich Unternehmungen wie etwa das Deutsche Textarchiv das eine umfassende Auswahl an historischen Texten aus mehreren Jahrhunderten bereitstellen mochte Derartige Textsammlungen bieten im optimalen Fall eine kostenlose online durchfuhrbare Volltextsuche im gesamten Bestand Jedoch besteht in solchen Fallen haufig nicht die Moglichkeit diese Texte fur sprachwissenschaftliche Zwecke auf dieselbe bequeme Weise zu nutzen wie speziell dafur konzipierte Korpora da die Suchsoftware nicht danach ausgelegt ist Ein weiteres spezielles Korpus ist das Google Books Korpus dessen Rohdaten von jedermann online mit dem Google Books Ngram Viewer in Form von Diagrammen zu Zeichen oder Worthaufigkeiten ausgewertet werden kann Siehe auch Canterbury CorpusLiteratur BearbeitenDeutsches Institut f Normung e V Hrsg Aufbau und Nutzung von Terminologie Datenbanken und Textkorpora Deutsche Ubersetzung des internationalen Fachbereichs ISO TR 12618 erstellt im NA Terminologie 1 Auflage Berlin Wien Zurich 1997 Paul Baker Using Corpora in Discourse Analysis Continuum London New York 2009 ISBN 978 0 8264 7724 8 Reinhard Fiehler Peter Wagener Die Datenbank Gesprochenes Deutsch DGD Sammlung Dokumentation Archivierung und Untersuchung gesprochener Sprache als Aufgabe der Sprachwissenschaft In Gesprachsforschung Online Zeitschrift zur verbalen Interaktion 6 2005 S 136 147 www gespraechsforschung ozs de Hagen Hirschmann Korpuslinguistik Eine Einfuhrung Metzler Stuttgart 2019 ISBN 978 3 476 05493 7 Werner Kallmeyer Gisela Zifonun Hrsg Sprachkorpora Datenmengen und Erkenntnisfortschritt de Gruyter Berlin New York 2007 IDS Jahrbuch 2006 Lothar Lemnitzer Heike Zinsmeister Korpuslinguistik Eine Einfuhrung Gunther Narr Verlag Tubingen 2006 Narr Studienbucher Wilfried Lenders Gerd Willee Linguistische Datenverarbeitung Ein Lehrbuch Westdeutscher Verlag Opladen Wiesbaden 1998 Anton Naf Rolf Duffner Hrsg Korpuslinguistik im Zeitalter der Textdatenbanken Linguistik online Band 28 Nr 3 1 Juli 2006 bop unibe ch abgerufen am 13 April 2020 Rainer Perkuhn Holger Keibel Marc Kupietz Korpuslinguistik Fink Paderborn 2012 ISBN 978 3 8252 3433 1 Carmen Scherer Korpuslinguistik Winter Heidelberg 2006 ISBN 3 8253 5164 5 Thomas Schmidt Datenarchive fur die Gesprachsforschung Perspektiven Probleme und Losungsansatze In Gesprachsforschung Online Zeitschrift zur verbalen Interaktion 6 2005 S 103 126 www gespraechsforschung ozs de P Wagener K H Bausch Hrsg 1997 Tonaufnahmen des gesprochenen Deutsch Dokumentation der Bestande von sprachwissenschaftlichen Forschungsprojekten und Archiven Niemeyer Tubingen 1997 Phonai Band 40 Weblinks Bearbeiten Wiktionary Textkorpus Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Digitales Worterbuch der deutschen Sprache Online Recherche im DWDS Corpus und dem Worterbuch der Deutschen Gegenwartssprache Deutsches Textarchiv DTA Grundlage fur ein Referenzkorpus der neuhochdeutschen Sprache COSMAS II Recherche und Analysesystem zum Deutschen Referenzkorpus und anderen schriftsprachlichen Korpora am Leibniz Institut fur Deutsche Sprache IDS Archiv fur Gesprochenes Deutsch Forschungsdatenzentrum fur Korpora des gesprochenen Deutsch am Leibniz Institut fur Deutsche Sprache IDS Projekt Deutscher Wortschatz Online Recherche Schweizer Textkorpus Online Recherche Universitat Hamburg Sammlung von Korpora des Sonderforschungsbereichs 538 Mehrsprachigkeit Bayerisches Archiv fur Sprachsignale Sammlung von Korpora gesprochener Sprache und deren BeschreibungEinzelnachweise Bearbeiten Einen diesbezuglichen Uberblick bietet zum Beispiel die Einfuhrung in die Korpuslinguistik von Scherer 2006 So etwa in einer phonetischen Studie our corpus consisted of monosyllabic words spoken in isolation by two males and one female dt bestand unser Korpus aus einsilbigen Wortern die von zwei mannlichen und einer weiblichen Person unter Isolationsbedingungen gesprochen worden sind M Halle G W Hughes J P A Radley Acoustic Properties of Stop Consonants Journal of the Acoustical Society of America Vol 20 1967 abgedruckt in Ilse Lehiste ed Readings in Acoustic Phonetics second printing MIT Press Cambridge Mass 1969 ISBN 0 262 12025 9 S 171 Beispielsweise analysiert John Sinclair die Bedeutung des englischen Wortes to yield oder kategorisiert die Hauptwortkonstruktionen mit of wie sie in bottle of wine vorkommen John Sinclair Corpus Concordance Collocation 4th Impression Oxford University Press Oxford 1997 ISBN 0 19 437144 1 So untersucht etwa Noah Bubenhofer exemplarisch wie Namen fur Ethnien oder der Begriff Terrorismus in der Neuen Zurcher Zeitung tatsachlich verwendet wird Noah Bubenhofer Sprachgebrauchsmuster Korpuslinguistik als Methode der Diskurs und Kulturanalyse de Gruyter Berlin 2009 ISBN 978 3 11 021584 7 Ruth Esterhammer Das Variantenworterbuch des Deutschen Von der Idee zum fertigen Produkt In Rudolf Muhr Manfred B Sellner Hrsg Zehn Jahre Forschung zum Osterreichischen Deutsch 1995 2005 Eine Bilanz Peter Lang Frankfurt am Main 2006 ISBN 3 631 55450 8 S 65 78 Das Deutsche Referenzkorpus DeReKo Ausbau und Pflege der Korpora geschriebener Gegenwartssprache In Digitale Sprachwissenschaft Institut fur Deutsche Sprache Marz 2019 abgerufen am 3 Mai 2019 Schweizerdeutsches Mundartkorpus Abgerufen von https de wikipedia org w index php title Textkorpus amp oldid 220478651