www.wikidata.de-de.nina.az
Die Computerlinguistik CL oder linguistische Datenverarbeitung LDV 1 untersucht wie naturliche Sprache in Form von Text oder Sprachdaten mit Hilfe des Computers algorithmisch verarbeitet werden kann Sie erarbeitet die theoretischen Grundlagen der Darstellung Erkennung und Erzeugung gesprochener und geschriebener Sprache durch Maschinen 2 und ist Schnittstelle zwischen Sprachwissenschaft und Informatik In der englischsprachigen Literatur und Informatik ist neben dem Begriff natural language processing NLP auch computational linguistics CL gebrauchlich Inhaltsverzeichnis 1 Geschichte 2 Funktionsweise 3 Das Saarbrucker Pipelinemodell 4 Beispiele fur Probleme der Sprachverarbeitung 5 Anwendungen in der Praxis 5 1 Studiengange 5 2 Tagungen 5 3 Organisationen 6 Siehe auch 7 Literatur 8 Weblinks 9 EinzelnachweiseGeschichte BearbeitenComputerlinguistik lasst sich als Begriff in die 1960er Jahre zuruckverfolgen 3 Mit den Anfangen der kunstlichen Intelligenz war die Aufgabenstellung schon nahegelegt Noam Chomskys Syntactic Structures von 1957 prasentierte eine Sprachauffassung nach der die Sprache in einem formalen Rahmen beschreibbar wurde Chomsky Hierarchie der formalen Sprachen Hinzu kamen die Sprachlogiken von Saul Kripke und Richard Montague Die teilweise aus dem US Verteidigungsbudget sehr hoch geforderten Forschungen brachten jedoch nicht die erhofften Durchbruche Besonders Chomsky und Joseph Weizenbaum dampften die Erwartungen an Automatisierungen von Sprachubersetzung Der Wende von behavioristischen Wissenschaftskonzeptionen zu mentalistischen Chomsky folgten umfassende Konzipierungen in den Kognitionswissenschaften In den siebziger Jahren erschienen zunehmend haufiger Publikationen mit dem Begriff Computerlinguistik im Titel Es gab bereits finanziell aufwandige Versuche der Anwendungen Konkordanzen Wort und Formstatistik aber auch schon grossere Projekte zur maschinellen Sprachanalyse und zu Ubersetzungen Die ersten Computerlinguistik Studiengange in Deutschland wurden in den 1980er Jahren an der Universitat des Saarlandes und in Stuttgart eingerichtet Die Computerlinguistik bekam mit der Verbreitung von Arbeitsplatzrechnern Personal Computer und mit dem Aufkommen des Internets neue Anwendungsgebiete Im Gegensatz zu einer Internetlinguistik die insbesondere menschliches Sprachverhalten und die Sprachformen im und mittels Internet untersucht entstand in der Computerlinguistik eine starker informatisch praktische Ausrichtung Dennoch gab das Fach die klassischen philosophisch linguistischen Fragen nicht ganz auf und wird heute in theoretische und praktische Computerlinguistik unterschieden Funktionsweise BearbeitenNatural language processing NLP verwendet verschiedene Techniken um gesprochene und geschriebene Sprache zu verarbeiten Dazu zahlen Interpretationen statistischer Daten Datenmaterial aus sozialen Netzwerken Suchergebnisse sowie Methoden des machine learning und von Regeln durchsetzte algorithmische Herangehensweisen 4 Methoden verschiedener Disziplinen wie Informatik Kunstliche Intelligenz Linguistik und Datenwissenschaft werden genutzt um Computern das Verstandnis naturlicher Sprache zu ermoglichen NLP gliedert sich in die Unterbereiche natural language understanding NLU and natural language generation NLG 5 Kunstliche Intelligenz wird auch in Ubersetzungsprogrammen wie zum Beispiel DeepL verwendet wodurch Sprachbarrieren reduziert werden konnen 6 Mittels Computerlinguistik wird die digitale Transformation in Unternehmen und Gesellschaft beschleunigt da Arbeitsprozesse durch Algorithmen ausgefuhrt werden So nutzt zum Beispiel das Software Unternehmen Nvidia NLP 7 Allerdings gibt es auch Gefahren durch inhaltliche Verzerrungen die in den verarbeiteten sprachlichen Daten enthalten sind und durch Algorithmen dann verstarkt werden z B eine Benachteiligung marginalisierter Bevolkerungsgruppen 8 Das Saarbrucker Pipelinemodell BearbeitenComputer verarbeiten Sprache entweder in der Form von akustischer Information oder in der Form von Buchstabenketten wenn die Sprache in Schriftform vorliegt Um die Sprache zu analysieren arbeitet man sich schrittweise von dieser Eingangsreprasentation in Richtung Bedeutung vor und durchlauft dabei verschiedene sprachliche Reprasentationsebenen In praktischen Systemen werden diese Schritte typischerweise sequentiell durchgefuhrt daher spricht man vom Pipelinemodell 9 mit folgenden Schritten Spracherkennung Falls der Text als Schallinformation vorliegt muss er erst in Textform umgewandelt werden Tokenisierung Die Buchstabenkette wird in Worter Satze etc segmentiert Morphologische Analyse Personalformen oder Fallmarkierungen werden analysiert um die grammatische Information zu extrahieren und die Worter im Text auf Grundformen Lemmata zuruckzufuhren wie sie z B im Lexikon stehen Syntaktische Analyse Die Worter jedes Satzes werden auf ihre strukturelle Funktion im Satz hin analysiert z B Subjekt Objekt Modifikator Artikel etc Semantische Analyse Den Satzen bzw ihren Teilen wird Bedeutung zugeordnet Dieser Schritt umfasst potentiell eine Vielzahl verschiedener Einzelschritte da Bedeutung schwer fassbar ist Dialog und Diskursanalyse Die Beziehungen zwischen aufeinander folgenden Satzen werden erkannt Im Dialog konnten das z B Frage und Antwort sein im Diskurs eine Aussage und ihre Begrundung oder ihre Einschrankung Es ist allerdings nicht so dass samtliche Verfahren der Computerlinguistik diese komplette Kette durchlaufen Die zunehmende Verwendung von maschinellen Lernverfahren hat zu der Einsicht gefuhrt dass auf jeder der Analyseebenen statistische Regelmassigkeiten existieren die zur Modellierung sprachlicher Phanomene genutzt werden konnen Beispielsweise verwenden viele aktuelle Modelle der maschinellen Ubersetzung Syntax nur in eingeschranktem Umfang und Semantik so gut wie gar nicht stattdessen beschranken sie sich darauf Korrespondenzmuster auf Wortebene auszunutzen 10 Am anderen Ende der Skala stehen Verfahren die nach dem Prinzip Semantics first syntax second arbeiten So baut die auf dem MultiNet Paradigma beruhende kognitiv orientierte Sprachverarbeitung auf einem semantikbasierten Computerlexikon auf das auf einem im Wesentlichen sprachunabhangigen semantischen Kern mit sprachspezifischen morphosyntaktischen Erganzungen beruht 11 Dieses Lexikon wird beim Parsing von einer Wortklassen gesteuerten Analyse zur unmittelbaren Erzeugung von semantischen Strukturen eingesetzt Beispiele fur Probleme der Sprachverarbeitung BearbeitenAuflosung syntaktischer Mehrdeutigkeiten In einigen Fallen lasst sich ein Satz auf mehrere Arten analysieren und deuten Die richtige auszuwahlen erfordert manchmal semantische Information uber den Sprechakt und die Intention der Sprecher mindestens jedoch statistisches Vorwissen uber das gemeinsame Auftreten von Wortern Beispiel Peter sah Maria mit dem Fernglas hier ist nicht zwangslaufig klar ob Peter Maria gesehen hat die ein Fernglas in der Hand hielt oder ob Peter Maria mit Hilfe eines Fernglases sehen konnte Bestimmen der Semantik Die gleiche Wortform kann je nach Kontext eine andere Bedeutung aufweisen vergleiche Homonym Polysem Man muss die fur den Kontext zutreffende Bedeutung auswahlen Auf der anderen Seite braucht man Formalismen zur Reprasentation von Wortbedeutungen Erkennen der Absicht einer sprachlichen Ausserung siehe Pragmatik Manche Satze sind nicht wortlich gemeint Beispielsweise erwartet man auf die Frage Konnen Sie mir sagen wie spat es ist nicht eine Antwort wie Ja oder Nein sondern bittet damit um Auskunft uber die Uhrzeit Anwendungen in der Praxis BearbeitenPraktische Computerlinguistik ist ein Begriff der sich im Lehrangebot einiger Universitaten etabliert hat Solche Ausbildungsgange sind nahe an konkreten Berufsbildern um die informatisch technische Wartung und Entwicklung von sprachverarbeitenden Maschinen und ihrer Programme Dazu gehoren zum Beispiel Die Unterstutzung des Computerbenutzers bei der Textverarbeitung beispielsweise die automatische Korrektur von Tipp und Rechtschreibfehlern die Prufung auf grammatische Richtigkeit oder die Umwandlung in Bedeutungszeichen in Japanisch oder Chinesisch Das Auffinden von Informationen in grossen sprachlichen Datenmengen Text Mining Informationsextraktion von der automatischen Suche nach relevanten Textstellen Information Retrieval und Suchmaschinen bis hin zur direkten Beantwortung von Fragen Question Answering QA Die Unterstutzung beim Ubersetzen von Texten in eine andere Sprache Computer aided Translation CAT oder auch die vollstandige automatische Ubersetzung Die Verarbeitung von gesprochener Sprache zum Beispiel bei digitalen Diktiergeraten Spracherkennung oder Lesegeraten fur Blinde Sprachsynthese Die Generierung von naturlichsprachlichen Texten wie Wegbeschreibungen oder Wettervorhersagen Die Aufbereitung von sprachlich vorliegenden Daten beispielsweise die automatische Verschlagwortung von Literatur Anfertigung von Registern und Inhaltsverzeichnissen Herstellung von Zusammenfassungen und Abstracts Die Unterstutzung von Autoren beim Verfassen von Texten zum Beispiel das Finden des treffenden Ausdrucks oder der richtigen Terminologie etwa bei der Verwendung eines kontrollierten Vokabulars in der technischen Dokumentation Die sprachliche Interaktion mit einem Benutzer im Rahmen eines Dialogsystems z B bei telefonischen Auskunftsdiensten aber auch zur Sprachsteuerung technischer Gerate oder Computer Die automatisierte Messung von personlichen Starken anhand naturlicher Gesprache wie offenen Interviews Bewerbungsgesprachen Talkshows Podiumsdiskussionen oder Gruppendiskussionen Visualisierung von Argumentationsdiskursen Argumentation Mining zur Analyse der Inhalte von Texten und Sozialen Medien und zur Entwicklung von Lerntools 12 Studiengange Bearbeiten Computerlinguistik wird an mehreren Hochschulen im deutschsprachigen Raum als eigenstandiger Studiengang angeboten In der deutschen Hochschulpolitik ist die Computerlinguistik als Kleines Fach eingestuft 13 Es sind Bachelor wie auch Master Studienabschlusse 14 moglich Zu den bekanntesten Angeboten zahlen die Studiengange der Universitat Bielefeld Ruprecht Karls Universitat Heidelberg Ludwig Maximilians Universitat Munchen Universitat Potsdam Universitat Stuttgart Eberhard Karls Universitat Tubingen Heinrich Heine Universitat Dusseldorf Universitat des Saarlandes und Universitat Trier Die Universitat Konstanz bietet ein Weiterfuhrendes Studium Speech and Language Processing Master of Arts an das einen ersten Hochschulabschluss voraussetzt 15 Tagungen Bearbeiten Konferenz der Association of Computational Linguistics ACL findet jahrlich statt 16 COLING internationale Konferenz findet seit 1965 in zweijahrigem Abstand statt 17 Recent Advances in Computational Linguistics RANLP ging aus einer Sommerschule hervor findet seit 2001 in zweijahrigem Abstand statt 18 International Joint Conference on Natural Language Processing IJCLP findet seit 2004 in unregelmassigen Abstanden im asiatischen Raum statt 19 20 Studentische Tagung Sprachwissenschaft StuTS drei bis viertagige Tagung von Studenten fur Studenten findet jahrlich statt Tagung der Computerlinguistik Studierenden TaCoS deutschsprachiger Universitaten findet seit 1992 jahrlich an jeweils einer anderen Universitat statt Jahrestagung der Gesellschaft fur linguistische Datenverarbeitung GLDV bzw seit 2008 Gesellschaft fur Sprachtechnologie und Computerlinguistik GSCL findet alle zwei Jahre statt KONVENS Konferenz zur Verarbeitung naturlicher Sprache findet jahrlich statt abwechselnd organisiert von den Gesellschaften OGAI DGfS CL und GSCL 21 Organisationen Bearbeiten Asian Federation of Natural Language Processing Associations AFNLP Association for Computational Linguistics ACL Deutsche Gesellschaft fur Sprachwissenschaft DGfS Sektion Computerlinguistik Gesellschaft fur Sprachtechnologie und Computerlinguistik GSCL bis 2008 Gesellschaft fur linguistische Datenverarbeitung GLDV Osterreichische Gesellschaft fur Artificial Intelligence OGAI 22 Bereich SprachverarbeitungSiehe auch BearbeitenAlgebraische Linguistik Korpuslinguistik Lexikalische Dichte Mathematische Linguistik Quantitative Linguistik Quantitative Literaturwissenschaft Sprachen im Internet SprachstatistikLiteratur BearbeitenJames Allen Natural Language Understanding The Benjamin Cummings Publishing Company Redwood City CA 1995 ISBN 0 8053 0334 0 Kai Uwe Carstensen Christian Ebert Cornelia Ebert Susanne Jekat Ralf Klabunde Hagen Langer Hrsg Computerlinguistik und Sprachtechnologie 3 Auflage Spektrum Akademischer Verlag Heidelberg 2010 ISBN 978 3 8274 2023 7 Roland Hausser Foundations of Computational Linguistics Human Computer Communication in Natural Language 3 Auflage Springer 2014 ISBN 978 3 642 41430 5 Nitin Indurkhya Fred J Damerau Handbook of Natural Language Processing 2 Auflage Chapman and Hall CRC 2010 ISBN 978 1 4200 8592 1 Daniel Jurafsky James H Martin Speech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition 2 Auflage Prentice Hall Upper Saddle River New Jersey 2008 ISBN 978 0 13 187321 6 Henning Lobin Computerlinguistik und Texttechnologie Fink Paderborn Munchen 2010 ISBN 978 3 8252 3282 5 Christopher D Manning Hinrich Schutze Foundations of Statistical Natural Language Processing MIT Press Cambridge MA 1999 ISBN 0 262 13360 1 Ruslan Mitkov Hrsg The Oxford Handbook of Computational Linguistics Oxford University Press 2003 ISBN 0 19 823882 7 Weblinks Bearbeiten Wiktionary Computerlinguistik Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Lehrmaterialien der Sektion Computerlinguistik der DGfS Wiki der Association for Computational Linguistics Uni Stuttgart Einfuhrung zum Thema Computerlinguistik Studienbibliographie Computerlinguistik und Sprachtechnologie Deutschsprachiges Portal zur Computerlinguistik Lenhart Schubert Eintrag in Edward N Zalta Hrsg Stanford Encyclopedia of Philosophy Vorlage SEP Wartung Parameter 1 und Parameter 3 und nicht Parameter 2 englisch Einzelnachweise Bearbeiten I Batori J Krause H D Lutz Hrsg Linguistische Datenverarbeitung Versuch einer Standortbestimmung im Umfeld von Informationslinguistik und Kunstlicher Intelligenz Niemeyer Verlag Tubingen 1982 CIS COMPUTER LINGUISTIK PDF Centrum fur Informations und Sprachvermittlung Ludwig Maximilians Universitat Munchen abgerufen am 3 Januar 2023 David Crystal ausserte sich Mitte der 60er Jahre mehrfach hierzu in Medien und Aufsatzen In England war seit den 30er Jahren auch die Tradition von Alan Turing virulent Natural Language Processing NLP What it is and why it matters Abgerufen am 7 August 2022 englisch NLP vs NLU vs NLG the differences between three natural language processing concepts 12 November 2020 abgerufen am 7 August 2022 amerikanisches Englisch Ruth Fulterer DeepL Google Translate und Co Wie KI Ubersetzung funktioniert In Neue Zurcher Zeitung nzz ch abgerufen am 7 August 2022 NVIDIA In Automated Insights Abgerufen am 7 August 2022 amerikanisches Englisch Amazon Scraps Secret AI Recruiting Engine that Showed Biases Against Women Carnegie Mellon University 11 Oktober 2018 abgerufen am 7 August 2022 englisch Hans Uszkoreit VL Einfuhrung in die Computerlinguistik Reprasentationen und Prozesse in der Sprachverarbeitung Peter Kolb Was ist statistische maschinelle Ubersetzung Memento vom 4 Marz 2011 im Internet Archive Hermann Helbig Knowledge Representation and the Semantics of Natural Language Springer Berlin 2006 ISBN 978 3 540 24461 5 Thiemo Wambsganss Christina Niklaus Matthias Cetto Matthias Sollner Siegfried Handschuh AL An Adaptive Learning Support System for Argumentation Skills In Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems ACM Honolulu HI USA 2020 ISBN 978 1 4503 6708 0 S 1 14 doi 10 1145 3313831 3376732 acm org abgerufen am 11 Marz 2021 Arbeitsstelle Kleine Facher Computerlinguistik auf dem Portal Kleine Facher Abgerufen am 23 April 2019 StudiScan Master Studium Computerlinguistik 17 Master Studiengange Abgerufen am 31 Januar 2019 Master Studienangebot Vor dem Studium Studieren Universitat Konstanz Abgerufen am 27 November 2021 ACL 2018 56th Annual Meeting of the Association for Computational Linguistics Abgerufen am 30 Januar 2019 englisch 27th International Conference on Computational Linguistics COLING 2018 Abgerufen am 30 Januar 2019 amerikanisches Englisch Department of Linguistic Modelling and Knowledge Processing Events Abgerufen am 30 Januar 2019 IJCNLP Introduction Memento vom 15 Juli 2013 im Internet Archive Conference on Empirical Methods in Natural Language Processing amp International Joint Conference on Natural Language Processing 2019 Nicht mehr online verfugbar In emnlp ijcnlp2019 org Archiviert vom Original am 20 Februar 2019 abgerufen am 19 Februar 2019 englisch Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot www emnlp ijcnlp2019 org Konferenz zur Verarbeitung naturlicher Sprache Abgerufen am 24 Februar 2023 Osterreichische Gesellschaft fur Artificial Intelligence OGAI Abgerufen am 30 Januar 2019 Normdaten Sachbegriff GND 4035843 4 lobid OGND AKS LCCN sh85077224 Abgerufen von https de wikipedia org w index php title Computerlinguistik amp oldid 232465373