www.wikidata.de-de.nina.az
Die Prosodieerkennung auch Prosodieklassifikation ist ein Teilgebiet der automatischen Mustererkennung bzw der Musterklassifikation Die zu klassifizierenden Muster stellen prosodische Eigenschaften der Sprache dar Daher findet auch oft eine Klassifikation prosodischer Merkmale in Kombination mit Spracherkennung statt Inhaltsverzeichnis 1 Analysierte prosodische Eigenschaften 1 1 Intonation Messung der Grundfrequenz 1 2 Energie Lautstarke und Lautheit 1 3 Dauer Quantitat Rhythmus Sprechgeschwindigkeit 2 Vorverarbeitungen 2 1 Glattung mikroprosodischer Effekte 2 2 Interpolationen 3 Erkennungsbeispiele 4 Einsatzgebiete 4 1 Emotionserkennung 4 2 Robotik 4 3 Sprachverstehende Systeme und Dialogsysteme 4 4 Medizin 4 5 Sprechererkennung 4 6 Sprecherverifizierung 4 7 Sprachenerkennung 4 8 Maschinelle Ubersetzung 5 Siehe auch 6 WeblinksAnalysierte prosodische Eigenschaften BearbeitenIntonation Messung der Grundfrequenz Bearbeiten Intonationskurvenvergleiche Besonderheiten im Intonationsverlauf Nach Aussern eines Satzes und darauffolgendem Luftholen erfolgt haufig ein sogenannter Pitch Reset eine Erhohung der Grundfrequenz bei Beginn eines neuen Satzes Die Grundfrequenz zeigt im Verlauf des Ausserns eines Satzes eine fallende Tendenz dies liegt im Ausatmen begrundet Bei der Ausserung eines Satzes und gleichzeitigem Einatmen steigt die Grundfrequenz tendenziell Intonation am Ende einer Phrase Dieser kommt im Deutschen besondere Bedeutung zu zum Beispiel findet sich bei Ja Nein Fragen oft eine steigende Intonation Aussagesatze sind in ihrer Endintonation eher fallend Ironie zeigt eine ganzlich andere Intonation als so gemeinte Satze Zur Hervorhebung Akzentuierung von Silben Wortern oder Phrasen z B zur Vermeidung von Mehrdeutigkeiten kann die Intonation ebenfalls verandert werden Die Silbe das Wort oder die Phrase wird somit anders betont Energie Lautstarke und Lautheit Bearbeiten relative LautstarkeschwankungenDauer Quantitat Rhythmus Sprechgeschwindigkeit Bearbeiten Pausen zwischen Wortern Rhythmus mittlere Sprechgeschwindigkeit Abweichung vom mittleren Sprechtempo Mittlere Phonemlange Mittlere Silbenlange Mittlere Wortlange Mittlere Phrasenlange bis wieder Luft geholt wird Diese Merkmale werden haufig auf linguistische Modelle der Prosodie insbesondere der Intonation abgebildet denn nur diese ermoglichen Aussagen uber die Bedeutung der Messungen Anders gesagt sie liefern die Klassen welche fur eine Mustererkennung und Musteranalyse benotigt werden Vorverarbeitungen BearbeitenGlattung mikroprosodischer Effekte Bearbeiten Jitter und Shimmer bekannt aus der Mikroprosodie erzeugen Unregelmassigkeiten in der Amplitude und der Frequenz und mussen vor einer automatischen Klassifikation z B der Intonation aus dem Sprachsignal entfernt werden Dies kann durch eine Glattung geschehen indem das diskret abgetastete Sprachsignal mit einem Medianfilter geglattet wird Interpolationen Bearbeiten Plosive erzeugen einen kurzzeitigen Glottisverschluss Wahrend dieser Zeit schwingen die Stimmbander nicht und es entsteht somit auch keine messbare Grundfrequenz Somit finden sich kleine Lucken in der Abtastung an welchen keine Information vorliegt Dies kann einen Intonationsklassifikator dazu verleiten in eine falsche Kategorie zu klassifizieren Eine Interpolation kann die korrekte Erkennung verbessern Erkennungsbeispiele BearbeitenDer Intonation entspricht in etwa auf akustischer Ebene die Grundfrequenz Diese kann mit sogenannten Pitchtrackern das Programm Praat enthalt beispielsweise eine Pitchtrackingfunktion automatisch aus einem Audiosignal extrahiert werden Es entstehen Serien von Grundfrequenzwerten Diese diskreten Wertereihen konnen nach einer Interpolation und einer Medianglattung durch Polynome zum Beispiel Geradenstucke mittels Regressionsanalyse approximiert werden Durch mehrere mehr oder weniger kleine Geradestucke kann der Verlauf der Grundfrequenz dann modelliert werden Aus dieser angenaherten Betonungskurve der Ausserung konnen nun Ruckschlusse gezogen werden auf besondere prosodische Ereignisse zum Beispiel konnen stark ansteigende Geradenstucke auf einen Gipfel in der Kontur hindeuten also ein akzentuiertes Wort Dies kann dem Dialogverstandnis eines Roboters nutzen denn die reine Spracherkennung liefert keine Akzentinformation Einsatzgebiete BearbeitenEmotionserkennung Bearbeiten Hauptartikel Emotionserkennung Die Veranderungen in den suprasegmentalen Eigenschaften der Sprache werden dazu eingesetzt Gefuhlszustande aus dem Sprachsignal abzulesen Erregte Menschen sprechen schneller wutende Menschen sprechen lauter verangstigte Menschen dagegen eher leiser Traurige Menschen sprechen langsamer und langgezogener Robotik Bearbeiten Damit Roboter Mehrdeutigkeiten in verschiedenen linguistischen Ebenen auflosen konnen kann eine Prosodieerkennung eingesetzt werden Dies verbessert die Leistung der Spracherkennung und steigert die Akzeptanz des Roboters als Gesprachs oder Interaktionspartner in der Mensch Maschine Kommunikation Auch erscheint ein Roboter menschlicher wenn er die emotionalen Merkmale der Stimme einsetzen kann um seine eigene Stimme in passender Weise zu verandern Mitleidige Stimme bei traurig klingenden Menschen freudige Stimme bei glucklichen Menschen oder um seine Mimik den Emotionen anzupassen Ebenso verbessert eine Erkennung von Ironie oder Humor die Akzeptanz als naturlichen Interaktionspartner Sprachverstehende Systeme und Dialogsysteme Bearbeiten Sprachverstehende Systeme gibt es ausserhalb der Robotik viele in Navigationssystemen Diktiergeraten als alternatives Steuerungsgerat von Computern z B Spracherkennung in Windows Vista oder in automatischen telefonischen Auskunftsystemen Der Einsatz von Prosodieerkennung kann dort ebenfalls die Spracherkennung verbessern indem Mehrdeutigkeiten z B durch elliptische Satze oder Referenzen auf bestimmte Satzteile aufgelost werden Ebenfalls konnen Zitate mitten im Satz besser erkannt werden Wie der Professor es in Die Geschichte der Wikinger erwahnte Eigentlich kein gultiger grammatikalischer Satz es sei denn man erkennt Die Geschichte der Wikinger als ein Zitat bzw als zitierten Titel eines Buches Medizin Bearbeiten Unter anderem werden Prosodieerkennungsmodule in der Logopadie eingesetzt um Sprachstorungen gezielt zu messen und zu behandeln Sprechererkennung Bearbeiten Um zu erkennen welcher Sprecher bei vielen gleichzeitig sprechenden Menschen was gesagt hat muss die Stimme des Sprechers genau von den Stimmen anderer Sprecher unterschieden werden konnen Dabei konnen typische Merkmale wie Grundfrequenz mittlere Sprechgeschwindigkeit etc helfen aber auch Merkmale der Mikroprosodie beispielsweise jitter und shimmer welche bei jedem Menschen in unterschiedlicher und charakteristischer Weise ausgepragt sind Das Problem eine von vielen Stimmen zu verfolgen tritt haufig bei Diktiersystemen auf welche in Firmenbesprechungen oder Meetings eingesetzt werden um das komplette Gesprach wortgetreu in Text zu ubersetzen Menschen konnen sich leicht auf eine von vielen gleichzeitig redenden Stimmen konzentrieren automatischen Systemen fallt dies jedoch sehr schwer Dieses Problem ist unter anderem als der Cocktailparty Effekt bekannt und es existieren immer noch keine optimalen Losungen Sprecherverifizierung Bearbeiten In Hochsicherheitsbereichen wie in Forschungszentren durfen nur autorisierte Mitarbeiter bestimmte Bereiche betreten Um dies zu gewahrleisten werden haufig neben biometrischen Merkmalen auch prosodische und mikroprosodische Merkmale zur Verifikation eingesetzt Haufig ist dies eine Passphrase Sprachenerkennung Bearbeiten Um automatisch zu erkennen welche Sprache ein Sprecher spricht konnen neben Merkmalen der Spracherkennung auch Merkmale der Prosodie eingesetzt werden siehe B Prosodie So besitzt jede Sprache einen typischen Klang eine typische Folge von haufigen Lautkombinationen oder gar charakteristische Laute z B kehlige Laute im Arabischen Maschinelle Ubersetzung Bearbeiten In der maschinellen Ubersetzung werden Prosodiemodule zur Verbesserung der Spracherkennung und zur Auflosung von syntaktischen semantischen und pragmatischen Mehrdeutigkeiten benutzt um adaquat in die Zielsprache ubersetzen zu konnen Gutes Beispiel ist das Verbmobil Projekt Siehe auch BearbeitenComputerlinguistik Automatische Klassifikation Merkmalsvektor Suprasegmentale Merkmale Intelligent Speech AnalyserWeblinks BearbeitenUniversitat Bonn INTARC Prosodieerkennungsmodul Wolfgang Hess Prosodie NIMITEK Neurobiologisch inspirierte multimodale Intentionserkennung fur technische Kommunikationssysteme Abgerufen von https de wikipedia org w index php title Prosodieerkennung amp oldid 236611562