www.wikidata.de-de.nina.az
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Siehe Diskussionsseite Die Korpuslinguistik ist ein Bereich der Sprachwissenschaft Darin werden neue Erkenntnisse uber Sprache generell oder uber bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen uberpruft wobei als Grundlage quantitative oder qualitative Daten dienen die aus der Analyse von speziellen Textkorpora oder seltener Korpora gesprochener Sprache gewonnen werden Grosse Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Halfte der 1990er Jahre Es ist nach wie vor umstritten ob es sich bei der Korpuslinguistik um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt Inhaltsverzeichnis 1 Datenmaterial und Forschungsgegenstand 2 Methodische Probleme 3 Korpuslinguistik vs Generative Grammatik 4 Geschichte und Anwendungsgebiete 5 Korpuslinguistik Methode oder Disziplin 6 Literatur 7 Weblinks 8 EinzelnachweiseDatenmaterial und Forschungsgegenstand BearbeitenGegenstand der Korpuslinguistik ist die Sprache in ihren verschiedenen Erscheinungsformen Die Korpuslinguistik ist dabei durch das Verwenden von authentischen Sprachdaten charakterisiert die in grossen Korpora dokumentiert sind Bei solchen Textkorpora handelt es sich um Sammlungen von sprachlichen Ausserungen die nach bestimmten Kriterien und mit einem bestimmten Forschungsziel zusammengestellt werden Die Erkenntnisse der Korpuslinguistik basieren somit auf naturlichen Ausserungen einer Sprache also auf Sprache wie sie tatsachlich verwendet wird Diese Ausserungen konnen entweder schriftlich entstanden sein oder es kann sich um spontane oder elizitierte gesprochene Sprache handeln Die meisten Korpora liegen heute in digitaler Form vor und sind mittels bestimmter Software fur die linguistische Recherche nutzbar Ziel der Korpuslinguistik ist es anhand dieser Daten entweder bestehende linguistische Hypothesen zu uberprufen bestatigen oder widerlegen oder durch explorative Datenanalyse neue Hypothesen und Theorien uber den Gegenstand zu gewinnen Man spricht im ersten Fall von korpusgestutzter linguistischer Analyse und im zweiten Fall von korpusbasierter linguistischer Analyse Korpuslinguistische Fragestellungen betreffen sowohl das sprachliche System selbst Langue nach Ferdinand de Saussure bzw Kompetenz nach Noam Chomsky als auch den Gebrauch von Sprache Parole nach de Saussure bzw Performanz nach Chomsky Die Korpuslinguistik ist also dahingehend im Begriff die in der Linguistik dominierende dichotome Sprachbetrachtung aufzuheben Eine typische Fragestellung das Sprachsystem betreffend ist beispielsweise Kann das Vorfeld eines deutschen Satzes mehrfach besetzt sein Wenn ja mit welchen Satzgliedern Gibt es Regeln die die Moglichkeiten der mehrfachen Vorfeldbesetzung beschreiben konnen Typische Fragestellungen den Sprachgebrauch betreffend sind etwa Kommt es in Texten von E Mails ofter zu Schreibfehlern als in traditionellen Briefen Welche Typen von Fehlern sind charakteristisch fur E Mails Welche Fehler machen Lernende des Deutschen verschiedener Ausgangssprache auf einem bestimmten Niveau besonders haufig werden bestimmte Worter oder grammatische Konstruktionen von diesen Lernenden vermieden Bei zahlreichen Forschungsfragen die die Korpuslinguistik versucht zu beantworten ist jedoch nicht eindeutig zu entscheiden welchem der beiden Domanen Langue und Parole ein Phanomen zuzuordnen ist wie beispielsweise bei den Fragen Mit welchen Adjektiven tritt das Nomen Haar typischerweise gemeinsam auf nbsp Vorkommenshaufigkeit von Partikeln in einem Korpus des Serbokroatischen 1 Werden Partikel in der gesprochenen Sprache haufiger weniger haufig oder anders verwendet als in geschriebener Sprache Denn einerseits kann die Verteilung der Adjektive mit Haar und der Modalpartikeln als Phanomen einer bestimmten Sprache oder nach Vergleich mit anderen Sprachen als Merkmal von Sprache generell gelten aber andererseits auch als Ergebnis eines spezifischen Sprachgebrauchs angesehen werden Einen Einblick in die Facetten korpuslinguistischer Forschung bieten z B die Arbeiten von Lemnitzer Zinsmeister 2010 fur das Deutsche und McEnery Xiao Tono 2006 fur das Englische Methodische Probleme BearbeitenEin bedeutendes methodisches Problem der Korpuslinguistik ist das Verhaltnis der Datenbasis also des Korpus zum untersuchten Gegenstand Die Datenbasis konnte theoretisch den Gegenstand komplett abdecken wenn es sich um eine heute noch verwendete Sprache handelt Doch man kann einen Korpus nicht als eine im Sinne der schliessenden Statistik valide Stichprobe betrachten da der Gegenstand auf den sich die Stichprobe bezieht in der Praxis als Ganzes also eine bestimmte Sprache oder ein bestimmter Sprachgebrauch nicht erfassbar ist 2 Man behilft sich heute damit ein Korpus nicht mehr wie ursprunglich gefordert als reprasentativ im statistischen Sinne fur den untersuchten Gegenstand zu bezeichnen und Erkenntnisse die auf Grund von Korpora gewonnen werden lediglich als vorlaufig plausibel zu betrachten Die Zusammenstellung von grossen Korpora soll daher ausgewogen sein also in einem bestimmten Verhaltnis aus unterschiedlichen Textsorten bestehen Die Grundannahme der Korpuslinguistik dass Erkenntnisse uber Sprache anhand von realen sprachlichen Ausserungen gewonnen oder uberpruft werden konnen bringt zwei weitere methodische Probleme oder Einwande mit sich Irrefuhrende positive Evidenz In spontanen gesprochenen und sogar in uberlegt formulierten schriftsprachlichen Ausserungen konnen bis zu einem gewissen Grad Abweichungen von der sprachlichen Norm auftreten Bei der Untersuchung eines Korpus kann es im Einzelfall schwierig sein zu entscheiden ob eine meist kleine Menge von Belegen eines bestimmten sprachlichen Phanomens Ausdruck eines tatsachlich existierenden systematischen Sprachgebrauchs ist und somit eine linguistische These stutzt oder ob man diese Belege als normabweichendend bzw fehlerhaften Sprachgebrauch ansehen muss Negative Evidenz Viele Aussagen zu sprachlichen Phanomenen lassen sich dann selbst in sehr grossen Korpora nicht belegen wenn der Gebrauch bestimmter sprachlicher Konstruktionen sehr selten ist Aus dem Nichtvorhandensein einer solchen gesuchten Konstruktion im Korpus kann aber nicht zwingend geschlossen werden dass es nicht existiere oder ungrammatisch ware Im ersten Fall kann man Ergebnisse die durch Korpusanalyse gewonnen wurden durch eine parallele Sprecherbefragung zu stutzen versuchen Im zweiten Fall hilft nur die Untersuchung weiterer Daten oder als ultima ratio ebenfalls eine Sprecherbefragung Korpuslinguistik vs Generative Grammatik BearbeitenDie Korpuslinguistik geht vom Gebrauch naturlicher Sprachen aus Sie ist eine induktive empirische Methode zum Gewinn von Wissen uber die Sprache Die Beobachtung von moglichst vielen konkreten Einzelbeispielen fuhrt zur Formulierung einer allgemeinen Aussage uber den Gegenstand Dieses Vorgehen vom Speziellen zum Allgemeinen ist dem Empirismus zuzuordnen der davon ausgeht dass alles Wissen auf Erfahrung beruht Im Gegensatz dazu steht die deduktive Methode die sich aus der philosophischen Tradition des Rationalismus herleitet Ausgehend von der Uberlegung wie ein bestimmtes sprachliches Phanomen beschaffen ist wird versucht in den Sprachen Belege als Bestatigung dafur zu finden vom Allgemeinen zum Speziellen Das unterscheidet die Korpuslinguistik grundsatzlich von der von Noam Chomsky begrundeten Generativen Transformationsgrammatik und ihren Nachfolgern deren erklartes Ziel auch die Untersuchung der Sprachfahigkeit des kompetenten Sprechers als eine kognitive Leistung ist Chomsky selbst hat mehrfach klar den Wert von authentischen Sprachbelegen fur den linguistischen Erkenntnisgewinn bestritten Er stellte fest dass fur die Untersuchung der Performanz authentische Sprachdaten wie sie in Textkorpora vorliegen ungeeignet sind da bei der Produktion von Sprache immer Fehler auftreten 3 Daher konnten anhand so erhaltener Daten keine gultigen Aussagen uber das sprachliche System getroffen werden Chomsky konzentrierte sich daher methodisch auf Introspektion und auf Sprecherurteile die unter Laborbedingungen von kompetenten Muttersprachlern elizitiert werden Die Korpuslinguistik dagegen verzichtet auf die Betrachtung des Unterschieds zwischen Sprachkompetenz und performanz den Chomsky fur wesentlich halt Es ist in jungster Zeit aber eine Annaherung zwischen diesen beiden Positionen zu beobachten In beiden Lagern betrachtet man mittlerweile die eigene Datenbasis kritischer und ist bereit die von der jeweils anderen Seite bevorzugten Daten zumindest als Instrument zur Kontrolle der eigenen Erkenntnisse heranzuziehen 4 Geschichte und Anwendungsgebiete BearbeitenDie weite Verbreitung und die hohe Bedeutung der englischen Sprache sowie eine insgesamt hohe Affinitat zur empirischen Forschung in der Sprachwissenschaft sind zwei Grunde weshalb sich die computergestutzte Datenanalyse wie sie die Korpuslinguistik eine ist zuerst im anglo amerikanischen Raum entwickelt hat Die dortige moderne Korpuslinguistik wurde 1967 von Henry Kucera 1925 2010 und Nelson Francis durch ihre Arbeit Computational Analysis of Present Day American English begrundet Deren Ergebnisse wurden anhand des Brown Corpus genau Brown University Standard Corpus of Present Day American English gewonnen Dieses umfasste ursprunglich rund 1 Million Worter Weitere englischsprachige Korpora folgten wie etwa in den 1980er Jahren das gleich grosse Lund Oslo Bergen Korpus LOB Eine neue Wegmarke wurde durch die Erstellung eines diese Zahl weit uberschreitenden Textkorpus im Rahmen der lexikographischen Arbeiten beim englischen Collins Verlag erreicht Dessen Ergebnis war die erste Auflage des Collins Cobuild Dictionary of English Ihm folgte in einer neuen Grossenordnung die nicht kommerzielle Erstellung eines ausgewogenen 100 Millionen laufende Worter umfassenden British National Corpus das heute immer noch als Referenzkorpus fur linguistische Untersuchungen des britischen Englisch verwendet wird Ihm tritt heute das American National Corpus zur Seite Andere regionale Varietaten des Englischen werden im International Corpus of English ICE erfasst Vorreiter der deutschen Korpuslinguistik waren das Institut fur Kommunikationswissenschaft und Phonetik IKP an der Universitat Bonn und das Institut fur Deutsche Sprache in Mannheim Heute sind als deutschsprachige Korpora besonders folgende zu nennen das Deutsche Referenzkorpus DeReKo am Institut fur Deutsche Sprache in Mannheim das mehrere Milliarden Textworter umfasst das Kernkorpus des Digitalen Worterbuchs der Deutschen Sprache DWDS an der Berlin Brandenburgischen Akademie der Wissenschaften das Korpus des Projekts Deutscher Wortschatz 5 an der Universitat Leipzig 30 Mio Satze vorwiegend Texte aus Online Medien das Schweizer Textkorpus der Universitat Basel heute am Schweizerischen Idiotikon mit gegen 25 Mio Textwortern Neben diesen der Offentlichkeit kostenlos zuganglichen Korpora mit garantierter Langzeitpflege gibt es eine Vielzahl von Spezialkorpora fur viele Sprachstufen und Varietaten des Deutschen Eine Ubersicht hieruber geben Lemnitzer Zinsmeister 2010 Korpora werden wie das Beispiel des Collins Cobuild Projekts aber auch das American Heritage Dictionary 1969 zeigen von einer Lexikographie genutzt die dem Benutzer nicht nur praskriptive wie soll ein Wort benutzt werden sondern auch deskriptive wie wird ein Wort tatsachlich benutzt Beschreibungen anbieten will Quantitative Erhebungen zu Worthaufigkeitsstatistiken konnen die Lemmaauswahl fur viele Arten von Worterbuchern steuern und objektivieren Heute ist die Verwendung von Korpora auch in deutschen Worterbuchverlagen etabliert Einige Arten von lexikalischen Informationen konnen erst auf Grund der Analyse grosser Textkorpora gewonnen werden z B zeitlich gestaffelte Frequenzprofile andere konnen durch Korpora besser abgesichert werden als durch die Sprachkompetenz einzelner Lexikographen Korpora werden heute auch vermehrt in der Sprachdidaktik als Forschungsgrundlage genutzt Anhand der Ergebnisse wie eine Sprache tatsachlich gebraucht wird werden auch die Unterrichtsmaterialien gestaltet und so genannte Lernerkorpora zeigen auf in welchen Lernstadien welche Fehler bei der Sprachproduktion vorherrschen Fur spezielle linguistische Fragestellungen werden in zunehmendem Ausmass auch andere spezielle Korpora erarbeitet die im Umfang erklarlicherweise weitaus kleiner sind als Referenzkorpora die eine Sprache insgesamt erfassen sollen Solche gibt es beispielsweise im Bereich der Untersuchungen des Sprachgebrauchs in der Politik und in den Medien Korpuslinguistik Methode oder Disziplin BearbeitenDie Frage ob die Korpuslinguistik eine Methode der Allgemeinen oder der Angewandten Linguistik ist oder eine eigene sprachwissenschaftliche Disziplin darstellt ist noch nicht abschliessend beantwortet Fur die Einschatzung als Methode spricht dass viele Zweige der Linguistik von der Theoretischen bis zur Forensischen Linguistik sich einer empirischen korpusbezogenen Analysetechnik in methodisch reflektierter Weise bedienen wenn auch meistens nicht ausschliesslich Ein genuiner Gegenstand der Korpuslinguistik ist hingegen nicht erkennbar Ein solcher ware aber notwendig wollte man ihr den Status einer eigenstandigen wissenschaftlichen Disziplin zusprechen Fur die Einschatzung dass die Korpuslinguistik eine eigenstandige Disziplin ist spricht der Umstand dass sie dezidiert den Sprachgebrauch als ihren Erkenntnisgegenstand bestimmt und sich damit von Schulen der Linguistik absetzt die die Sprachfahigkeit des Menschen oder die generellen Strukturen von Sprache als semiotisches System zum Gegenstand haben Ungeachtet dieser grundsatzlichen Erwagung hat sich die Korpuslinguistik als Wissenschaftszweig im akademischen Leben etabliert Darauf deuten die Existenz mehrerer thematischer Fachzeitschriften eines zwei Bande umfassenden Handbuchs Ludeling Kyto 2008 2009 sowie zweier dedizierter Lehrstuhle an der Universitat Birmingham und an der Berliner Humboldt Universitat hin Literatur BearbeitenDruckwerkAndrea Abel Renata Zanin Korpora in Lehre und Forschung Bozen Bolzano University Press Bozen 2011 ISBN 978 88 6046 040 0 Noah Bubenhofer Sprachgebrauchsmuster Korpuslinguistik als Methode der Diskurs und Kulturanalyse De Gruyter Berlin New York 2009 ISBN 978 3 11 021584 7 Noam Chomsky Knowledge of Language Praeger New York 1986 Reinhard Fiehler Peter Wagener Die Datenbank Gesprochenes Deutsch DGD In Gesprachsforschung Online Zeitschrift zur verbalen Interaktion Band 6 2005 S 136 147 Hagen Hirschmann Korpuslinguistik Eine Einfuhrung Metzler Verlag Stuttgart 2019 ISBN 978 3 476 05493 7 Werner Kallmeyer Gisela Zifonun Hrsg Sprachkorpora Datenmengen und Erkenntnisfortschritt IDS Jahrbuch 2006 De Gruyter Berlin New York 2007 Andras Kertesz Csilla Rakosi Daten und Evidenz in linguistischen Theorien Ein Forschungsuberblick In A Kertesz Cs Rakosi Hrsg New Approaches to Linguistic Evidence Pilot Studies Neue Ansatze zu linguistischer Evidenz Pilotstudien Lang Frankfurt am Main u a 2008 S 21 60 Reinhard Kohler Korpuslinguistik Zu wissenschaftstheoretischen Grundlagen und methodologischen Perspektiven In LDV Forum 20 2 PDF 5 4 MB 2005 S 1 16 Snjezana Kordic Der Relativsatz im Serbokroatischen Lincom Studies in Slavic Linguistics Band 10 Lincom Europa Munchen 1999 ISBN 3 89586 573 7 S 330 Lothar Lemnitzer Heike Zinsmeister Korpuslinguistik 2 uberarbeitete Auflage Gunter Narr Verlag Tubingen 2010 Winfried Lenders Computational lexicography and corpus linguistics until ca 1970 1980 In R H Gouws U Heid W Schweickard H E Wiegand Hrsg Dictionaries An International Encyclopedia of Lexicography Supplementary Volume Recent Developments with Focus on Electronic and Computational Lexicography de Gruyter Mouton Berlin 2013 ISBN 978 3 11 214665 1 S 982 1000 Anke Ludeling Merja Kyto Corpus Linguistics An International Handbook Vol 1 De Gruyter Berlin New York 2008 Vol 2 2009 Tony McEnery Andrew Wilson Corpus linguistics an introduction 2 Auflage Edinburgh University Press 2001 Tony McEnery Richard Xiao Yukio Toni Corpus Based Language Studies An advanced resource book Routledge New York 2006 ISBN 0 415 28622 0 Rainer Perkuhn Holger Keibel Marc Kupietz Korpuslinguistik Fink UTB Paderborn 2012 ISBN 978 3 8252 3433 1 Carmen Scherer Korpuslinguistik Kurze Einfuhrungen in die germanistische Linguistik Band 2 Winter Heidelberg 2006 P Wagener K H Bausch Hrsg Tonaufnahmen des gesprochenen Deutsch Dokumentation der Bestande von sprachwissenschaftlichen Forschungsprojekten und Archiven Phonai Band 40 Niemeyer Tubingen 1997 OnlineausgabenTony McEnery Andrew Wilson Corpus Linguistics 1996 Erganzende Website zur ersten Auflage des gleichnamigen Buches der beiden Autoren Rainer Perkuhn Holger Keibel Marc Kupietz Korpuslinguistik 2012 Erganzende Website zum gleichnamigen Lehrbuch der Autoren Marco Zierl Entwicklung und Implementierung eines Datenbanksystems zur Speicherung und Verarbeitung von Textkorpora Magisterarbeit 1997 mit einem grossen Teil zu Grundlagen der Korpuslinguistik Weblinks Bearbeiten nbsp Wiktionary Korpuslinguistik Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Lehrgange und LinklistenNoah Bubenhofer Einfuhrung in die Korpuslinguistik Praktische Grundlagen und Werkzeuge Online Kurs Bookmarks for Corpus based Linguists Linksammlung zu verschiedenen Korpora sowie korpuslinguistischen Arbeiten und Lehrmaterialien Kristin Berberich Ingo Kleiber Tools for Corpus Linguistics eine Liste von Werkzeugen fur die KorpusanalyseKorporaWortschatzlexikon der Universitat Leipzig Digitales Worterbuch der Deutschen Sprache der Berlin Brandenburgischen Akademie der Wissenschaften Deutsches Textarchiv DTA Grundlage fur ein historisches Referenzkorpus der deutschen Sprache Deutsches Referenzkorpus recherchierbar uber die webbasierte Software COSMAS II des Instituts fur Deutsche Sprache Forschungs und Lehrkorpus Gesprochenes Deutsch FOLK recherchierbar uber die Datenbank fur Gesprochenes Deutsch DGD des Instituts fur Deutsche Sprache Schweizer Textkorpus der Universitat Basel Austrian Academy Corpus vollstandige recherchierbare Ausgaben der Zeitschriften Die Fackel und Der Brenner an der Osterreichischen Akademie der Wissenschaften Mehrsprachige Korpora des Hamburger Zentrums fur Sprachkorpora Google Books Ngram Viewer wertet N Gramme der Google Books Corpora in Form von Diagrammen aus englisch SoftwareCorpusExplorer Open Source Software zur einfachen Aufbereitung uber 100 Dateiformate automatischer Annotation uber 60 Sprachen und Auswertung uber 40 verschiedene Analysen Ausserdem stehen fur den CorpusExplorer bereits annotierte Referenzkorpora Plenarprotokolle Historische Sprachstufen schriftliche mundliche Korpora uvm mit uber 5 5 Mrd Token zur Verfugung Einzelnachweise Bearbeiten Snjezana Kordic Worter im Grenzbereich von Lexikon und Grammatik im Serbokroatischen Lincom Studies in Slavic Linguistics Band 18 Lincom Europa Munchen 2001 ISBN 3 89586 954 6 S 280 Burghard Rieger Reprasentativitat von der Unangemessenheit eines Begriffs zur Kennzeichnung eines Problems linguistischer Korpusbildung In H Bergenholtz B Schaeder Hrsg Empirische Textwissenschaft Aufbau und Auswertung von Text Corpora Monographien Linguistik und Kommunikationswissenschaft 39 Scriptor Konigstein im Taunus 1979 S 52 70 Vgl Chomsky 1986 Einen historischen Abriss geben Kertesz Rakosi 2008 sowie Lenders 2013 Deutscher Wortschatz In Universitat Leipzig Abgerufen am 28 Februar 2023 Normdaten Sachbegriff GND 4165338 5 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Korpuslinguistik amp oldid 234423371