www.wikidata.de-de.nina.az
Die Spracherkennung oder auch automatische Spracherkennung ist ein Verfahren und ein Teilgebiet der angewandten Informatik der Ingenieurwissenschaften und der Computerlinguistik Sie beschaftigt sich mit der Untersuchung und Entwicklung von Verfahren die Automaten insbesondere Computern die gesprochene Sprache der automatischen Datenerfassung zuganglich macht So lassen sich beispielsweise aus Tonspuren durchsuchbare Transkripte erstellen Die Spracherkennung ist zu unterscheiden von der Stimm bzw Sprechererkennung einem biometrischen Verfahren zur Personenidentifikation Allerdings ahneln sich die Realisierungen dieser Verfahren Inhaltsverzeichnis 1 Geschichtliche Entwicklung 2 Grundlagen 2 1 Lippenlesen 2 2 Sprachausgabe 3 Problemstellung 3 1 Diskrete und kontinuierliche Sprache 3 1 1 Diskrete Sprache 3 1 2 Kontinuierliche Sprache 3 2 Grosse des Wortschatzes 3 3 Homophone 3 4 Formanten 3 4 1 Konsonanten 3 5 Dialekte und Soziolekte 3 6 Losungsstrategien bei Kommunikationsproblemen 4 Realisierung 4 1 Vorverarbeitung 4 1 1 Abtastung 4 1 2 Filterung 4 1 3 Transformation 4 1 4 Merkmalsvektor 4 1 4 1 Cepstrum 4 2 Erkennung 4 2 1 Hidden Markov Modelle 4 2 2 Neuronale Netze 4 2 3 Sprachmodell 4 2 4 Evaluation 5 Vokabulare 6 Anwendungsbeispiele 7 Siehe auch 8 Literatur 9 Weblinks 10 QuellenGeschichtliche Entwicklung BearbeitenDie Forschung an Spracherkennungssystemen begann in den 1960er Jahren verlief damals allerdings weitestgehend erfolglos Die von privaten Firmen entwickelten Systeme ermoglichten unter Laborbedingungen die Erkennung von einigen Dutzend Einzelwortern Dies lag einerseits an dem begrenzten Wissen in diesem neuen Forschungsgebiet aber auch an den zur damaligen Zeit begrenzten technischen Moglichkeiten Erst Mitte der 1980er Jahre kam die Entwicklung weiter voran In dieser Zeit entdeckte man dass man durch Kontextprufungen Homophone unterscheiden konnte Indem man Statistiken uber die Haufigkeit bestimmter Wortkombinationen erstellte und auswertete konnte man bei ahnlich oder gleich klingenden Wortern entscheiden welches gemeint war Diese sogenannten Trigrammstatistiken wurden anschliessend ein wichtiger Bestandteil aller Spracherkennungssysteme 1984 stellte IBM ein erstes Spracherkennungssystem vor das etwa 5 000 englische Einzelworter erkennen konnte Das System brauchte fur einen Erkennungsvorgang jedoch mehrere Minuten Rechenzeit auf einem Grossrechner Fortschrittlicher war dagegen ein von Dragon Systems entwickeltes System Dieses liess sich auf einem tragbaren PC verwenden Zwischen 1988 und 1993 demonstrierte das europaische Projekt SUNDIAL 1 auch die Spracherkennung der Zugfahrplane in deutscher Sprache 2 SUNDIAL studierte auch Bewertungskennzahlen der Spracherkennungen 3 4 5 1991 stellte IBM erstmals auf der CeBIT ein Spracherkennungssystem vor das 20 000 bis 30 000 deutsche Worter erkennen konnte Die Prasentation des TANGORA 4 genannten Systems musste jedoch in einem speziell abgeschirmten Raum stattfinden da der Larm der Messe das System sonst gestort hatte Ende 1993 stellte IBM das erste fur den Massenmarkt entwickelte Spracherkennungssystem vor Das IBM Personal Dictation System genannte System lief auf normalen PCs und kostete unter 1000 Dollar Als es unter dem Namen IBM VoiceType Diktiersystem auf der CeBIT 1994 prasentiert wurde stiess es auf hohes Interesse seitens der Besucher und der Fachpresse 1997 erschienen fur den PC Endbenutzer sowohl die Software IBM ViaVoice Nachfolger von IBM VoiceType als auch die Version 1 0 der Software Dragon NaturallySpeaking 1998 brachte Philips Speech Recognition Systems mit FreeSpeech 98 eine Spracherkennung fur PC Endbenutzer auf den Markt dessen Steuerung auf das hauseigene digitale Diktiergerat SpeechMike angepasst war stellte die Produktlinie aber nach der zweiten Version FreeSpeech 2000 wieder ein 2004 gab IBM Teile seiner Spracherkennungsanwendungen als Open Source frei und sorgte damit fur Aufsehen Branchenkenner vermuteten als Grund taktische Massnahmen gegen die Firma Microsoft die ebenfalls in diesem Bereich tatig ist und seit 2007 mit Erscheinen von ihrem PC Betriebssystem Windows Vista als integralen Bestandteil erstmals Spracherkennungsfunktionen fur die Steuerung wie auch fur das Diktat anbot die bis heute in Windows 10 weiterentwickelt wurden Wahrend die Entwicklung von IBM ViaVoice eingestellt wurde entwickelte sich Dragon NaturallySpeaking zur gegenwartig meistverbreiteten sprecherabhangigen Drittanbieter Spracherkennungssoftware fur Windows PCs und wird von Nuance Communications seit 2005 hergestellt und vertrieben Nuance hat 2008 mit dem Erwerb der Philips Speech Recognition Systems Wien auch die Rechte an dem Software Development Kit SDK SpeechMagic erlangt welches insbesondere im Gesundheitsbereich Verbreitung gefunden hat Fur iMac Personal Computer von Apple wurde von dem Unternehmen MacSpeech seit 2006 eine Drittanbieter Spracherkennungssoftware unter dem Namen iListen vertrieben die auf Philips Komponenten basierte 2008 wurde diese durch MacSpeech Dictate unter Verwendung der Kernkomponenten von Dragon NaturallySpeaking abgelost und nach dem Erwerb von MacSpeech durch Nuance Communications 2010 in Dragon Dictate Version 2 0 seit 2012 wird die Version 3 0 vertrieben umbenannt 2007 wurde die Firma Siri Inc gegrundet und im April 2010 von Apple gekauft Im Oktober 2011 stellte Apple die Spracherkennungssoftware Siri fur das iPhone 4s vor die der Erkennung und Verarbeitung von naturlich gesprochener Sprache unter Nutzung von Apple Servern dient und so Funktionen eines personlichen Assistenten erfullen soll Die Entwicklung bei der Spracherkennung schreitet sehr schnell voran 2016 wurden Spracherkennungssysteme u a in Smartphones eingesetzt z B bei Siri Google Now Cortana und Samsungs S Voice Aktuelle Spracherkennungssysteme mussen nicht mehr trainiert werden Entscheidend fur eine hohe Treffsicherheit ausserhalb der Alltagssprache ist dabei die Plastizitat des Systems Um hohen Anspruchen gerecht werden zu konnen bieten professionelle Systeme dem Anwender die Moglichkeit durch Vorschreiben oder Vorsprechen das personliche Ergebnis zu beeinflussen 6 Grundlagen BearbeitenDieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Es kann zwischen zwei Arten der Spracherkennung unterschieden werden Sprecherunabhangige Spracherkennung Sprecherabhangige SpracherkennungCharakteristisch fur die sprecherunabhangige Spracherkennung der Einsatz in Anwendungen mit haufig wechselnden Benutzern z B Call Center in automatischen Dialogsystemen wie etwa einer Fahrplanauskunft wobei die vorhergehende Trainingsphase relativ kurz ist Uberall dort wo nur ein begrenzter Wortschatz verwendet wird wird die sprecherunabhangige Spracherkennung mit Erfolg praktiziert So erreichen Systeme zur Erkennung der gesprochenen englischen Ziffern von 0 bis 9 eine nahezu 100 Erkennungsquote Sprecherabhangige Spracherkenner mussen vom Benutzer auf die eigenen Besonderheiten der Aussprache langer trainiert werden Ein zentrales Element ist die individuelle Interaktionsmoglichkeit mit dem System um ein optimales sprecherabhangiges Ergebnis zu erzielen eigene Begrifflichkeiten Abkurzungen Kurzel usw Eine haufige Anwendungen waren zunachst Diktier und spater auch Ubersetzungssysteme 2010 erreichten aktuelle Systeme beim Diktat von Fliesstexten auf Personal Computern Erkennungsquoten von ca 99 Prozent und erfullen damit fur viele Einsatzgebiete die Anforderungen der Praxis z B fur wissenschaftliche Texte Geschaftskorrespondenz oder juristische Schriftsatze An Grenzen stosst der Einsatz dort wo der jeweilige Autor standig neue von der Software zunachst nicht erkennbare Worter und Wortformen benotigt deren manuelle Hinzufugung zwar moglich aber bei nur einmaligem Vorkommen in Texten desselben Sprechers nicht effizient ist Daher profitieren z B Dichter weniger vom Einsatz der Spracherkennung als z B Arzte und Rechtsanwalte 7 Neben der Grosse und Flexibilitat des Worterbuches spielt auch die Qualitat der akustischen Aufnahme eine entscheidende Rolle Bei Mikrofonen die direkt vor dem Mund angebracht sind zum Beispiel bei Headsets oder Telefonen wird eine signifikant hohere Erkennungsgenauigkeit erreicht als bei weiter entfernten Raummikrofonen Siehe auch Stenomaske Wesentlichste Einflussfaktoren in der Praxis sind allerdings eine prazise Aussprache und das zusammenhangende flussig gesprochene Diktat so dass Wortzusammenhange und Wortfolgewahrscheinlichkeiten optimal in den Erkennungsprozess einfliessen konnen Lippenlesen Bearbeiten Um die Erkennungsgenauigkeit noch weiter zu erhohen wird teils auch versucht mithilfe einer Videokamera das Gesicht des Sprechers zu filmen und daraus die Lippenbewegungen abzulesen Indem man diese Ergebnisse mit den Ergebnissen der akustischen Erkennung kombiniert kann man gerade bei verrauschten Aufnahmen eine signifikant hohere Erkennungsquote erreichen 8 Dies entspricht Beobachtungen bei der menschlichen Spracherkennung Harry McGurk hatte 1976 festgestellt dass auch Menschen aus der Lippenbewegung auf die gesprochene Sprache schliessen McGurk Effekt Sprachausgabe Bearbeiten Da es sich bei Kommunikation mit menschlicher Sprache meist um einen Dialog zwischen zwei Gesprachspartnern handelt findet man die Spracherkennung haufig in Verbindung mit Sprachsynthese Auf diesem Weg konnen dem Benutzer des Systems akustische Ruckmeldungen uber den Erfolg der Spracherkennung und Hinweise uber eventuell ausgefuhrte Aktionen gegeben werden Auf die gleiche Weise kann der Benutzer auch zu einer erneuten Spracheingabe aufgefordert werden Problemstellung BearbeitenUm zu verstehen wie ein Spracherkennungssystem arbeitet muss man sich zuerst uber die Herausforderungen klar werden die zu bewaltigen sind Diskrete und kontinuierliche Sprache Bearbeiten Bei einem Satz in der Alltagssprache werden die einzelnen Worter ohne wahrnehmbare Pause dazwischen ausgesprochen Als Mensch kann man sich intuitiv an den Ubergangen zwischen den Wortern orientieren fruhere Spracherkennungssysteme waren dazu nicht in der Lage Sie erforderten eine diskrete unterbrochene Sprache bei der zwischen den Wortern kunstliche Pausen gemacht werden mussen Moderne Systeme sind jedoch auch fahig kontinuierliche fliessende Sprache zu verstehen Diskrete Sprache Bearbeiten nbsp Grafik des Satzes Die freie Enzyklopadie diskret ausgesprochenBei der diskreten Sprache erkennt man deutlich die Pausen zwischen den Wortern die langer und deutlicher ausfallen als die Ubergange zwischen den Silben innerhalb des Worts Enzyklopadie Kontinuierliche Sprache Bearbeiten nbsp Grafik des Satzes Die freie Enzyklopadie kontinuierlich ausgesprochenBei der kontinuierlichen Sprache gehen die einzelnen Worter ineinander uber es sind keine Pausen erkennbar Grosse des Wortschatzes Bearbeiten Durch die Flexion also die Beugung eines Wortes je nach grammatikalischer Funktion entstehen aus Wortstammen Lexemen eine Vielzahl von Wortformen Dies ist fur die Grosse des Wortschatzes von Bedeutung da alle Wortformen bei der Spracherkennung als eigenstandige Worter betrachtet werden mussen Die Grosse des Worterbuchs hangt stark von der Sprache ab Zum einen haben durchschnittliche deutschsprachige Sprecher mit circa 4000 Wortern einen deutlich grosseren Wortschatz als englischsprachige mit rund 800 Wortern Ausserdem ergeben sich durch die Flexion in der deutschen Sprache in etwa zehnmal so viele Wortformen wie in der englischen Sprache wo nur viermal so viele Wortformen entstehen Quellen angeben Homophone Bearbeiten In vielen Sprachen gibt es Worter oder Wortformen die eine unterschiedliche Bedeutung haben jedoch gleich ausgesprochen werden So klingen die Worter Meer und mehr zwar identisch haben jedoch trotzdem nichts miteinander zu tun Solche Worter nennt man Homophone Da ein Spracherkennungssystem im Gegensatz zum Menschen in der Regel kein Weltwissen hat kann es die verschiedenen Moglichkeiten nicht anhand der Bedeutung unterscheiden Die Frage nach der Gross oder Kleinschreibung fallt auch in diesen Bereich Formanten Bearbeiten Auf akustischer Ebene spielt insbesondere die Lage der Formanten eine Rolle Die Frequenzanteile gesprochener Vokale konzentrieren sich typischerweise auf bestimmte unterschiedliche Frequenzen die Formanten genannt werden Fur die Unterscheidung der Vokale sind insbesondere die zwei tiefsten Formanten von Bedeutung Die tiefere Frequenz liegt im Bereich von 200 bis 800 Hertz die hohere im Bereich von 800 bis 2400 Hertz Uber die Lage dieser Frequenzen lassen sich die einzelnen Vokale unterscheiden Konsonanten Bearbeiten nbsp sprechen gesprochen Original nbsp p ausgeblendetKonsonanten sind vergleichsweise schwierig zu erkennen einzelne Konsonanten sogenannte Plosive sind zum Beispiel nur durch den Ubergang zu den benachbarten Lauten feststellbar wie folgendes Beispiel zeigt Man erkennt dass innerhalb des Wortes sprechen der Konsonant p genauer die Verschlussphase des Phonems p faktisch nur Stille ist und lediglich durch die Ubergange zu den anderen Vokalen erkannt wird das Entfernen bewirkt also keinen horbaren Unterschied Andere Konsonanten sind durchaus an charakteristischen spektralen Mustern erkennbar So zeichnen sich etwa der Laut s wie auch der Laut f Reibelaute durch einen hohen Energieanteil in hoheren Frequenzbandern aus Bemerkenswert ist dass die fur die Unterscheidung dieser beiden Laute relevanten Informationen grosstenteils ausserhalb des in Telefonnetzen ubertragenen Spektralbereichs bis zirka 3 4 kHz liegt Dadurch ist es zu erklaren dass das Buchstabieren uber Telefon ohne Verwendung eines speziellen Buchstabieralphabets auch in der Kommunikation zwischen zwei Menschen ausgesprochen muhselig und fehleranfallig ist Dialekte und Soziolekte Bearbeiten Auch wenn ein Spracherkennungsprogramm bereits gut auf eine Hochsprache eingestellt ist bedeutet dies jedoch nicht dass es jede Ausformung dieser Sprache verstehen kann Besonders im Fall von Dialekten und Soziolekten stossen solche Programme haufig an ihre Grenzen Menschen sind meist in der Lage sich schnell auf die moglicherweise unbekannte Mundart ihres Gegenubers einzustellen Erkennungssoftware ist dazu nicht ohne weiteres in der Lage Dialekte mussen dem Programm hierfur erst in aufwendigen Prozessen beigebracht werden 9 Zudem muss auch beachtet werden dass sich gelegentlich und regional abhangig Wortbedeutungen verandern konnen So meinen Bayern und Berliner beispielsweise unterschiedliche Sussspeisen wenn von Pfannkuchen die Rede ist Ein Mensch kann durch sein kulturelles Hintergrundwissen derartige Missverstandnisse leichter vermeiden und aufklaren als es eine Software aktuell vermag Losungsstrategien bei Kommunikationsproblemen Bearbeiten Sollte es zu Verstandnisproblemen in einer Kommunikation kommen tendieren Menschen naturgemass dazu besonders laut zu sprechen oder missverstandene Begriffe ausfuhrlicher zu umschreiben Dies kann sich jedoch einem Computer gegenuber kontraproduktiv auswirken da dieser auf normale Gesprachslautstarke trainiert ist und ausserdem eher mit Schlusselwortern arbeitet als Sinnzusammenhange zu erfassen Realisierung Bearbeiten nbsp Aufbau eines Spracherkennungssystems nach Alexander WaibelEin Spracherkennungssystem besteht aus folgenden Bestandteilen Einer Vorverarbeitung die die analogen Sprachsignale in die einzelnen Frequenzen zerlegt Anschliessend findet die tatsachliche Erkennung mit Hilfe akustischer Modelle Worterbucher und Sprachmodellen statt Vorverarbeitung Bearbeiten Die Vorverarbeitung besteht im Wesentlichen aus den Schritten Abtastung Filterung Transformation des Signals in den Frequenzbereich und Erstellen des Merkmalsvektors Abtastung Bearbeiten Bei der Abtastung wird das analoge kontinuierliche Signal digitalisiert also in eine elektronisch verarbeitbare Bitfolge zerlegt um es einfacher weiterverarbeiten zu konnen Filterung Bearbeiten Die wichtigste Aufgabe des Arbeitsschrittes Filterung ist die Unterscheidung von Umgebungsgerauschen wie Rauschen oder z B Motorengerauschen und Sprache Dazu wird zum Beispiel die Energie des Signals oder die Nulldurchgangsrate herangezogen Transformation Bearbeiten Fur die Spracherkennung ist nicht das Zeitsignal sondern das Signal im Frequenzbereich relevant Dazu wird es mittels FFT transformiert Aus dem Resultat dem Frequenzspektrum lassen sich die im Signal vorhandenen Frequenzanteile ablesen Merkmalsvektor Bearbeiten Zur eigentlichen Spracherkennung wird ein Merkmalsvektor erstellt Dieser besteht aus voneinander abhangigen oder unabhangigen Merkmalen die aus dem digitalen Sprachsignal erzeugt werden Dazu gehort neben dem schon erwahnten Spektrum vor allem das Cepstrum Merkmalsvektoren lassen sich z B mittels einer zuvor zu definierenden Metrik vergleichen Cepstrum Bearbeiten Das Cepstrum wird aus dem Spektrum gewonnen indem die FFT des logarithmierten Betrags Spektrum gebildet wird So lassen sich Periodizitaten im Spektrum erkennen Diese werden im menschlichen Vokaltrakt und durch die Stimmbandanregung erzeugt Die Periodizitaten durch die Stimmbandanregung uberwiegen und sind daher im oberen Teil des Cepstrums zu finden wohingegen der untere Teil die Stellung des Vokaltraktes abbildet Dieser ist fur die Spracherkennung relevant daher fliessen nur diese unteren Anteile des Cepstrums in den Merkmalsvektor ein Da sich die Raumubertragungsfunktion also die Veranderung des Signals z B durch Reflexionen an Wanden zeitlich nicht verandert lasst diese sich durch den Mittelwert des Cepstrums darstellen Dieser wird deshalb haufig vom Cepstrum subtrahiert um Echos zu kompensieren Ebenso ist zur Kompensation der Raumubertragungsfunktion die erste Ableitung des Cepstrum heranzuziehen die ebenfalls in den Merkmalsvektor einfliessen kann Erkennung Bearbeiten nbsp Modell eines Spracherkenners der auf einem Hidden Markov Modell basiertHidden Markov Modelle Bearbeiten Im weiteren Verlauf spielen Hidden Markov Modelle HMM eine wichtige Rolle Diese ermoglichen es die Phoneme zu finden die am besten zu den Eingangssignalen passen Dazu wird das akustische Modell eines Phonems in verschiedene Teile zerlegt Den Anfang je nach Lange unterschiedlich viele Mittelstucke und das Ende Die Eingangssignale werden mit diesen gespeicherten Teilstucken verglichen und mit Hilfe des Viterbi Algorithmus mogliche Kombinationen gesucht Fur die Erkennung von unterbrochener diskreter Sprache bei der nach jedem Wort eine Pause gemacht wird reichte es aus jeweils ein Wort zusammen mit einem Pausenmodell innerhalb des HMMs zu berechnen Da die Rechenkapazitat moderner PCs aber deutlich gestiegen ist kann mittlerweile auch fliessende kontinuierliche Sprache erkannt werden indem grossere Hidden Markov Modelle gebildet werden die aus mehreren Wortern und den Ubergangen zwischen ihnen bestehen Neuronale Netze Bearbeiten Alternativ wurden auch schon Versuche unternommen neuronale Netze fur das akustische Modell zu verwenden Mit Time Delay Neural Networks sollten dabei insbesondere die Veranderungen im Frequenzspektrum uber den Zeitablauf hinweg zur Erkennung verwendet werden Die Entwicklung hatte zunachst durchaus positive Ergebnisse gebracht wurde dann aber zugunsten der HMMs wieder aufgegeben Erst in den letzten Jahren wurde dieses Konzept im Rahmen von Deep Neural Networks wiederentdeckt Spracherkennungssysteme die auf Deep Learning aufsetzen liefern Erkennungsraten im menschlichen Bereich 10 Mit Coqui STT existiert ein freies Open Source Werkzeug 11 12 STT steht fur Speech To Text Es gibt aber auch einen hybriden Ansatz bei dem die aus der Vorverarbeitung gewonnenen Daten durch ein neuronales Netzwerk vor klassifiziert werden und die Ausgabe des Netzes als Parameter fur die Hidden Markov Modelle genutzt wird Dies hat den Vorteil dass man ohne die Komplexitat der HMMs zu erhohen auch Daten von kurz vor und kurz nach dem gerade bearbeiteten Zeitraum nutzen kann Ausserdem kann man so die Klassifizierung der Daten und die kontextsensitive Zusammensetzung Bildung von sinnvollen Wortern Satzen voneinander trennen Sprachmodell Bearbeiten Hauptartikel Sprachmodell Das Sprachmodell versucht anschliessend die Wahrscheinlichkeit bestimmter Wortkombinationen zu bestimmen und dadurch falsche oder unwahrscheinliche Hypothesen auszuschliessen Dazu kann entweder ein Grammatikmodell unter Verwendung Formaler Grammatiken oder ein statistisches Modell mit Hilfe von N Grammen eingesetzt werden Eine Bi oder Trigrammstatistik speichert die Auftrittswahrscheinlichkeit von Wortkombinationen aus zwei oder mehr Wortern Diese Statistiken werden aus grossen Textkorpora Beispieltexten gewonnen Jede von der Spracherkennung ermittelte Hypothese wird anschliessend gepruft und ggf verworfen falls ihre Wahrscheinlichkeit zu gering ist Dadurch konnen auch Homophone also unterschiedliche Worter mit identischer Aussprache unterschieden werden Vielen Dank ware also wahrscheinlicher als Fielen Dank obwohl beides gleich ausgesprochen wird Mit Trigrammen sind im Vergleich zu Bigrammen theoretisch zutreffendere Schatzungen der Auftrittswahrscheinlichkeiten der Wortkombinationen moglich Allerdings mussen die Beispieltext Datenbanken aus denen die Trigramme extrahiert werden wesentlich grosser sein als fur Bigramme denn es mussen samtliche zulassigen Wortkombinationen aus drei Wortern in statistisch signifikanter Anzahl darin vorkommen d h jede wesentlich mehr als einmal Kombinationen von vier oder mehr Wortern wurden lange nicht verwendet weil sich im Allgemeinen keine Beispieltext Datenbanken mehr finden lassen die samtliche Wortkombinationen in genugender Anzahl beinhalten Eine Ausnahme bildet hier Dragon welches ab der Version 12 auch Pentagramme verwendet was die Erkennungsgenauigkeit in diesem System steigert Wenn Grammatiken verwendet werden handelt es sich meist um kontextfreie Grammatiken Dabei muss allerdings jedem Wort seine Funktion innerhalb der Grammatik zugewiesen werden Deshalb werden solche Systeme meist nur fur einen begrenzten Wortschatz und Spezialanwendungen verwendet nicht aber in der gangigen Spracherkennungssoftware fur PCs Evaluation Bearbeiten Die Gute eines Spracherkennungssystems lasst sich mit verschiedenen Zahlen angeben Neben Erkennungsgeschwindigkeit meist als Echtzeitfaktor EZF angegeben lasst sich die Erkennungsgute als Wortakkuratheit oder Worterkennungsrate messen Vokabulare BearbeitenFur die Integration von professionellen Spracherkennungssystemen gibt es bereits vordefinierte Vokabulare die die Arbeit mit der Spracherkennung erleichtern sollen Diese Vokabulare werden etwa im Umfeld von SpeechMagic ConText und im Bereich von Dragon Datapack genannt Je besser das Vokabular auf den vom Sprecher verwendeten Wortschatz und Diktierstil Haufigkeit der Wortfolgen angepasst ist desto hoher ist die Erkennungsgenauigkeit Ein Vokabular beinhaltet neben dem sprecherunabhangigen Lexikon Fach und Grundwortschatz auch ein individuelles Wortfolgemodell Sprachmodell Im Vokabular sind alle der Software bekannten Worter in der Phonetik und Orthografie hinterlegt Auf diese Weise wird ein gesprochenes Wort an seinem Klang durch das System erkannt Wenn sich Worter in Bedeutung und Schreibweise unterscheiden aber gleich klingen greift die Software auf das Wortfolgemodell zuruck In ihm ist die Wahrscheinlichkeit definiert mit der bei einem bestimmten Benutzer ein Wort auf ein anderes folgt Spracherkennung in Smartphones verwendet die gleichen technischen Konzepte jedoch ohne dass der Nutzer Einfluss auf das vordefinierte Vokabular hat Neuere Technologien losen sich von der Vorstellung einer starren hinterlegten Wortliste da Komposita gebildet werden konnen Allen Systemen ist gemein dass sie nur durch Korrekturen des jeweiligen Benutzers individuelle Worter und Wortfolgen lernen Anwendungsbeispiele BearbeitenDie Spracherkennung wird heutzutage u a in Smartphones eingesetzt z B bei Siri Google Now Cortana Amazons Echo Alexa Samsungs S Voice oder dem freien Open Source Sprachassistenten Mycroft Mit der nun hohen Zuverlassigkeit in der Alltagssprache z B Smartphones oder in der Fachsprache individualisierbare professionelle Systeme kann Sprache in Text gewandelt speech to text Befehle und Steuerungen ausgefuhrt command and control oder semantische Analysen durchgefuhrt werden language understanding Mit zunehmender Qualitat der Spracherkennung kommen immer neue Einsatzgebiete hinzu Fur mehr Komfort sorgen die Losungen unter anderem mit Smartphones wenn es um das Bedienen von HiFi Anlagen oder Beleuchtungssystemen im eigenen Zuhause geht Das Beispiel der Heizungssteuerung mit Sprachbefehlen zeigt aber auch dass sich technisch komplexe Sachverhalte auf diese Weise sehr einfach nutzen lassen So reicht heute ein Sprachbefehl aus um Heizkurven anzupassen Temperaturprofile einzuprogrammieren oder die Heizungsanlage fur eine bestimmte Zeit in den abgesenkten Urlaubsmodus zu schicken Ein positiver Nebeneffekt Menschen machen ofter von den Einsparmoglichkeiten Gebrauch und sparen Energie 13 Die Spracherkennung sorgt aber auch fur mehr Sicherheit Ein Beispiel dafur ist die Steuerung von Navigationssystemen Radios oder Smartphones im Auto Nutzer mussen den Blick nicht mehr von der Strasse abwenden Sie konnen die Hande am Steuer lassen und sich weiter auf die Strasse konzentrieren 14 Ein wichtiger Einsatzbereich fur die Spracherkennung ist zudem die Medizin Hier ermoglicht die Technik Chirurgen Apparate ohne Hande zu bedienen und Protokolle nebenbei zu erstellen Die Losungen erhohen dabei die Arbeitsqualitat und sparen viel Zeit was Arzten und Patienten gleichermassen zugutekommt 15 Siehe auch BearbeitenKunstliche Intelligenz Sprachdialogsystem Sprachsteuerung TexterkennungLiteratur BearbeitenPirani Giancarlo ed Advanced algorithms and architectures for speech understanding Vol 1 Springer Science amp Business Media 2013 ISBN 978 3 642 84341 9 Lawrence R Rabiner Ronald W Schafer Digital Processing of Speech Signals 1978 ISBN 0 13 213603 1 Matthias Woelfel John McDonough Distant Speech Recognition 2009 ISBN 0 470 51704 2 Lawrence R Rabiner Biing Hwang Juang Juang Fundamentals of Speech Recognition 1993 ISBN 0 13 015157 2 Ernst Gunter Schukat Talamazzini Automatische Spracherkennung Grundlagen statistische Modelle und effiziente Algorithmen Vieweg Braunschweig Wiesbaden 1995 ISBN 3 528 05492 1 Weblinks Bearbeiten nbsp Wiktionary Spracherkennung Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Leitfaden Barrierefrei horen und kommunizieren in der Arbeitswelt Spracherkennungssoftware Das Projekt horkomm de unterstutzt die Inklusion schwerhoriger Beschaftigter Quellen Bearbeiten Speech Understanding and Dialogue Abgerufen am 22 Mai 2020 Peckham Jeremy Speech Understanding and Dialogue over the telephone an overview of the ESPRIT SUNDIAL project HLT 1991 Danieli Morena Elisabetta Gerbino Metrics for evaluating dialogue strategies in a spoken language system Proceedings of the 1995 AAAI spring symposium on Empirical Methods in Discourse Interpretation and Generation Vol 16 1995 Ciaramella Alberto A prototype performance evaluation report Sundial workpackage 8000 1993 Charpentier F Micca G Schukat Talamazzini E Thomas T 1995 The recognition component of the SUNDIAL project In Speech Recognition and Coding pp 345 348 Springer Berlin Heidelberg L Lamel J L Gauvain Speech Recognition Oxford Handbooks Online Vol 14 Oxford University Press 2005 doi 10 1093 oxfordhb 9780199276349 013 0016 Michael Spehr Diktieren ist viel schneller als Tippen In FAZ net 22 September 2010 abgerufen am 13 Oktober 2018 Malaka Rainer Butz Andreas Hussmann Heinrich Medieninformatik Eine Einfuhrung Pearson Studium Munchen 2009 ISBN 978 3 8273 7353 3 S 263 Ulf Schoenert Spracherkennung Die Normalitat des Gespraches mit Maschinen In Zeit Online 14 Februar 2012 abgerufen am 6 Februar 2016 Srini Penchikala Using Deep Learning Technologies IBM Reaches a New Milestone in Speech Recognition 31 Marz 2017 abgerufen am 27 Januar 2022 englisch Home Coqui STT 1 1 0 documentation Abgerufen am 27 Januar 2022 englisch coqui ai STT In GitHub coqui 27 Januar 2022 abgerufen am 27 Januar 2022 englisch Sprachsteuerung Wie funktioniert das eigentlich genau Abgerufen am 30 Juni 2022 Fabian Hoberg Sprachsteuerung furs Auto Mit Assistenzsystemen sicherer unterwegs In DIE WELT 11 Dezember 2020 welt de abgerufen am 30 Juni 2022 Was kann Spracherkennung Aktueller Stand amp Zukunft 6 Mai 2021 abgerufen am 30 Juni 2022 deutsch nbsp Dieser Artikel wurde am 14 November 2006 in dieser Version in die Liste der lesenswerten Artikel aufgenommen Abgerufen von https de wikipedia org w index php title Spracherkennung amp oldid 235423021