www.wikidata.de-de.nina.az
Unter Sprachsynthese versteht man die kunstliche Erzeugung der menschlichen Sprechstimme Durch Text to Speech TTS oder Vorleseautomat wird Fliesstext in eine akustische Sprachausgabe uberfuhrt Schema fur den Vocoder von Homer Dutley 1940 Genugend Rechenleistung vorausgesetzt verwendet man heute sog Tiefe Neuronale Netze DNN die man mit vielen Stunden hochwertiger Sprachaufnahme anlernt siehe der engl Artikel Deep learning speech synthesis Bis Mitte der 2010er Jahre verwendete man den analytischen Ansatz Dabei wird der Text uber mehrere Zwischenstufen zu Sprache gewandelt diese sind meist Eingangstext Lautschrift Phoneme Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen Ein besonderes Problem ist die Erzeugung einer naturlichen Sprachmelodie Prosodie Die Herkunft der Diphone unterscheidet grundsatzlich zwischen zwei Methoden Das Signal kann durch die sogenannte physiologische artikulatorische Modellierung vollstandig im Rechner erzeugt werden Oder aber es wird auf Sprachaufnahmen Samples zuruckgegriffen was teilweise auch als Signalmodellierung bezeichnet wird Wahrend die geschichtlich ersten Systeme auf Formantsynthesen beruhten basierten die bisher industriell eingesetzten Systeme vorwiegend auf Signalmodellierung Inhaltsverzeichnis 1 Geschichte 2 Gegenwart 3 Synthese 3 1 Unit Selection 3 1 1 Diphonsynthese 3 2 Signalerzeugung 3 2 1 Quelle Filter Modell 3 2 1 1 Formantsynthese 3 2 1 2 Akustisches Modell 3 2 1 3 Artikulatorische Synthese 3 2 2 Overlap Add 3 2 3 Parametrische Sprachsynthese aus Hidden Markov Modellen HMM und oder stochastischen Markov Graphen SMG 4 Einsatzmoglichkeiten von Text to Speech Software 5 Sprachsynthese Software 6 Sprachsynthese Hardware 7 Siehe auch 8 Literatur 9 Weblinks 10 FussnotenGeschichte Bearbeiten nbsp Nachbau der Sprechmaschine von Wolfgang von Kempelen 2009 nbsp Nachbau der Konstruktion von Hermann von Helmholtz 1865 nbsp Demonstration des Voders 1939Schon lange vor der Erfindung der elektronischen Signalverarbeitung versuchten Wissenschaftler Maschinen zu konstruieren die menschliche Sprache erzeugen konnen Gerbert von Aurillac 1003 wird ein aus Bronze gefertigter Sprechender Kopf zugeschrieben von dem berichtet wurde dass er ja und nein sagen konnte Wohl eher in den Bereich der Legenden gehoren die Apparate von Albertus Magnus 1198 1280 und Roger Bacon 1214 1294 Der deutsche in Kopenhagen tatige Wissenschaftler Christian Kratzenstein baute 1779 aufgrund eines Preisausschreibens der St Petersburger Akademie eine Sprachorgel die durch freischwingende Lingualpfeifen mit dem menschlichen Vokaltrakt nachgebildeten Resonatoren funf lange Vokale a e i o und u synthetisieren konnte Wolfgang von Kempelen entwickelte bereits seit ca 1760 eine Sprechmaschine die er 1791 in seiner Veroffentlichung Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine darstellte Diese Synthese basierte wie Kratzensteins auf einem Blasebalg als Lungenaquivalent die eigentliche Anregung geschah aber erheblich anatomienaher durch eine einzelne aufschlagende Lingualpfeife Damit waren einige Vokale und auch Plosive moglich Daruber hinaus liessen sich uber verschiedene Mechanismen einige Frikative darstellen An den Stimmbandern schloss ein Ledertubus an der durch eine Hand verformt werden konnte und so die variable Geometrie und Resonanzverhalten des Vokaltrakts nachbildete Von Kempelen schrieb in einer Zeit von drei Wochen eine bewundernswerte Fertigkeit im Spielen erlangen besonders wenn man sich auf die lateinische franzosische oder italienische Sprache verlegt denn die deutsche ist aufgrund der haufigen Konsonantenbundel um vieles schwerer Charles Wheatstone baute 1837 eine Speaking Machine die auf diesem Entwurf beruht ein Nachbau findet sich im Deutschen Museum 1857 baute Joseph Faber die Euphonia die ebenso diesem Prinzip folgt Ende des 19 Jahrhunderts entwickelte sich das Interesse weg vom Nachbau menschlicher Sprachorgane genetische Sprachsynthese hin zur Simulation des akustischen Raumes gennematische Sprachsynthese So synthetisierte Hermann von Helmholtz erstmals Vokale mit Hilfe von Stimmgabeln die auf die Resonanzfrequenzen des Vokaltraktes in bestimmten Vokalstellungen abgestimmt waren Diese Resonanzfrequenzen werden als Formanten bezeichnet Sprachsynthese durch Kombination von Formanten war technischer Mainstream bis in die Mitte der 1990er Jahre In den Bell Labs wurde in den 1930ern der Vocoder ein tastaturgesteuerter elektronischer Sprachsynthesizer entwickelt uber den gesagt wurde dass er klar verstandlich war Homer Dudley verbesserte diese Maschine zum Voder der in der Weltausstellung 1939 prasentiert wurde Der Voder benutzte elektrische Oszillatoren zur Erzeugung der Formantfrequenzen Die ersten computerbasierten Sprachsynthesesysteme wurden in den spaten 1950ern entwickelt das erste komplette Text To Speech System 1968 fertiggestellt Der Physiker John Larry Kelly Jr entwickelte 1961 bei den Bell Labs eine Sprachsynthese mit einem IBM 704 und liess ihn das Lied Daisy Bell singen Der Regisseur Stanley Kubrick war davon so beeindruckt dass er es in den Film 2001 A Space Odyssey integrierte Gegenwart BearbeitenWahrend fruhe elektronische Sprachsynthesen noch sehr roboterhaft klangen und teilweise schwer verstandlich waren erreichen sie etwa seit der Jahrtausendwende eine Qualitat bei der es mitunter schwierig ist sie von menschlichen Sprechern zu unterscheiden Das ist hauptsachlich der Tatsache zu verdanken dass sich die Technologie von der eigentlichen Synthese des Sprachsignals abgewandt hat und sich darauf konzentriert aufgenommene Sprachsegmente optimal zu verketten 1 2 3 Zahlreiche Webseiten und Online Anbieter bieten frei zugangliche oder kommerzielle Nachbildungen von zum Teil prominenten Stimmen fiktiver oder realer Vorlagen an um individualisierte Audiodateien zu erstellen Synthese BearbeitenSprachsynthese setzt eine Analyse der menschlichen Sprache voraus bezuglich der Phoneme aber auch der Prosodie weil eben ein Satz allein durch die Satzmelodie unterschiedliche Bedeutungen haben kann Was den Syntheseprozess an sich betrifft gibt es verschiedene Methoden Gemeinsam ist allen Methoden dass sie auf eine Datenbank zuruckgreifen in der charakteristische Informationen uber Sprachsegmente hinterlegt sind Elemente aus diesem Inventar werden zur gewunschten Ausserung verknupft Sprachsynthesesysteme lassen sich anhand des Inventars der Datenbank und insbesondere der Methode zur Verknupfung klassifizieren Tendenziell fallt die Signalsynthese umso einfacher aus je grosser die Datenbank ist da diese dann bereits Elemente enthalt die der gewunschten Ausserung naher sind und weniger Signalbearbeitung notwendig ist Aus dem gleichen Grund gelingt bei einer grossen Datenbank meistens eine naturlicher klingende Synthese Eine Schwierigkeit der Synthese liegt in dem Aneinanderfugen von Inventarelementen Da diese aus verschiedenen Ausserungen stammen unterscheiden sie sich auch in der Lautstarke der Grundfrequenz und der Lage der Formanten Bei einer Vorverarbeitung der Datenbank oder beim Verbinden der Inventarelemente mussen diese Unterschiede moglichst gut ausgeglichen werden Normalisierung um nicht die Qualitat der Synthese zu beeintrachtigen Unit Selection Bearbeiten Die Unit Selection liefert die beste Qualitat besonders bei einer eingeschrankten Domane Die Synthese verwendet eine grosse Sprachdatenbank in der jede aufgenommene Ausserung in einige oder alle der folgenden Einheiten segmentiert wird Phoneme Diphone Silben Morpheme Worter Phrasen Satze Diese Segmente werden mit einem Verzeichnis von einer Reihe akustischer und phonetischer Eigenschaften wie Grundfrequenzverlauf Dauer oder Nachbarn gespeichert Fur die Synthese werden durch spezielle Suchalgorithmen gewichtete Entscheidungsbaume eine Reihe von moglichst grossen Segmenten bestimmt die der zu synthetisierenden Ausserung hinsichtlich dieser Eigenschaften moglichst nahekommen Da diese Reihe ohne oder mit wenig Signalverarbeitung ausgegeben wird bleibt die Naturlichkeit der gesprochenen Sprache erhalten solange wenige Verkettungsstellen erforderlich sind Diphonsynthese Bearbeiten Anfang des 21 Jahrhunderts durchgefuhrte Experimente haben gezeigt dass die korrekte Wiedergabe der Lautubergange wesentlich fur die Verstandlichkeit der Sprachsynthese ist Um alle Lautubergange zu speichern wird eine Datenbasis mit etwa 2500 Eintragen verwendet Darin ist jeweils der Zeitbereich des stationaren Teils die Phonemmitte eines Phonems bis zum stationaren Teil des folgenden Phonems abgespeichert Fur die Synthese werden die Informationen entsprechend zusammengefugt konkateniert Weitere Koartikulationseffekte die viel zur Naturlichkeit der Sprache beitragen konnen durch umfangreichere Datenbasen berucksichtigt werden Ein Beispiel dafur ist Hadifix das Halbsilben Diphone und Suffixe enthalt Signalerzeugung Bearbeiten Die Signalerzeugung gibt die gewunschten Segmente aus der Datenbank mit dem vorgegebenen Grundfrequenzverlauf wieder Diese Auspragung des Grundfrequenzverlaufs kann auf verschiedene Arten geschehen worin sich die folgenden Verfahren unterscheiden Quelle Filter Modell Bearbeiten Bei Synthesen die eine Quelle Filter Separation verwenden wird eine Signalquelle mit periodischer Signalform verwendet Deren Periodenlange wird passend zur Grundfrequenz der zu synthetisierenden Ausserung eingestellt Dieser Anregung wird je nach Phonemtyp zusatzlich Rauschen beigemischt Die abschliessende Filterung pragt die lautcharakteristischen Spektren auf Vorteilhaft bei dieser Klasse von Verfahren ist die einfache Grundfrequenzsteuerung der Quelle Ein Nachteil ergibt sich durch die in der Datenbank gespeicherten Filterparameter deren Bestimmung aus Sprachproben schwierig ist Je nach Art des Filters bzw der zugrunde liegenden Sichtweise des Sprechens unterscheidet man die folgenden Verfahren Formantsynthese Bearbeiten Die Formantsynthese beruht auf der Beobachtung dass es zur Unterscheidung der Vokale genugt die ersten zwei Formanten treffend zu reproduzieren Jeder Formant wird durch einen in der Mittenfrequenz und Gute steuerbaren Bandpass ein Polfilter 2 Ordnung nachgebildet Die Formantsynthese ist durch analoge elektronische Schaltungen vergleichsweise einfach realisierbar Akustisches Modell Bearbeiten Das akustische Modell bildet die gesamten Resonanzeigenschaften des Vokaltrakts durch einen geeigneten Filter nach Haufig wird der Vokaltrakt dazu vereinfacht als Rohr variablen Querschnitts betrachtet wobei Quermoden vernachlassigt werden da die seitliche Ausdehnung des Vokaltrakts klein ist Die Querschnittsanderungen werden weiterhin durch aquidistante Querschnittssprunge approximiert Ein haufig gewahlter Filtertyp ist der Kreuzgliedketten Filter bei dem eine direkte Beziehung zwischen Querschnitt und Filterkoeffizient besteht 4 Diese Filter sind eng verwandt mit dem Linear Predictive Coding LPC das ebenfalls fur Sprachsynthesen eingesetzt wird Bei dem LPC werden ebenfalls die gesamten Resonanzeigenschaften berucksichtigt es besteht jedoch kein direkter Zusammenhang zwischen Filterkoeffizienten und Querschnittsverlauf des Vokaltrakts Artikulatorische Synthese Bearbeiten Die artikulatorische Synthese stellt gegenuber dem akustischen Modell eine Beziehung zwischen der Stellung der Artikulatoren und dem daraus resultierenden Querschnittsverlauf des Vokaltrakts her Hier kommen zur Nachbildung der Resonanzcharakteristik neben zeitdiskreten Kreuzgliedkettenfiltern auch Losungen der zeitkontinuierlichen Horngleichung zum Einsatz aus denen das Zeitsignal durch Fouriertransformation gewonnen wird Overlap Add Bearbeiten Pitch Synchronous Overlap Add abgekurzt PSOLA ist ein Syntheseverfahren bei dem sich in der Datenbank Aufzeichnungen des Sprachsignals befinden Sofern es sich um periodische Signale handelt sind diese mit einer Information uber die Grundfrequenz Pitch versehen und der Anfang jeder Periode ist markiert Bei der Synthese werden diese Perioden mit einem bestimmten Umfeld mittels einer Fensterfunktion ausgeschnitten und dem zu synthetisierenden Signal an passender Stelle hinzuaddiert Je nachdem ob die gewunschte Grundfrequenz hoher oder tiefer liegt als die des Datenbankeintrags werden sie entsprechend dichter oder weniger dicht als in dem Original zusammengefugt Zur Anpassung der Lautdauer konnen Perioden entfallen oder doppelt ausgegeben werden Dieses Verfahren wird auch als TD PSOLA oder PSOLA TD TM bezeichnet wobei TD fur Time Domain steht und hervorhebt dass die Verfahren im Zeitbereich arbeiten Eine Weiterentwicklung ist das Multi Band Resynthesis OverLap Add Verfahren kurz MBROLA Hier werden die Segmente in der Datenbank durch eine Vorverarbeitung auf eine einheitliche Grundfrequenz gebracht und Phasenlage der Harmonischen wird normalisiert Dadurch entstehen bei der Synthese eines Ubergangs von einem Segment auf das nachste weniger perzeptiv wahrnehmbare Storungen und die erzielte Sprachqualitat ist hoher Diese Syntheseverfahren sind mit der Granularsynthese verwandt die in Klangerzeugung und verfremdung bei elektronischer Musikproduktion zum Einsatz kommt Parametrische Sprachsynthese aus Hidden Markov Modellen HMM und oder stochastischen Markov Graphen SMG Bearbeiten Die parametrische Sprachsynthese ist eine Gruppe von Verfahren welche auf stochastischen Modellen basieren Bei diesen Modellen handelt es sich entweder um Hidden Markov Modelle HMM um stochastische Markov Graphen SMG oder neuerdings auch um eine Kombination dieser beiden Grundprinzip ist dass die aus einer Textvorverarbeitung gewonnenen symbolischen Phonemfolgen eine statistische Modellierung durchlaufen indem sie zunachst in Segmente zerlegt und jedem dieser Segmente sodann ein bestimmtes Modell aus einer bestehenden Datenbasis zugeordnet wird Jedes dieser Modelle wiederum wird durch eine Reihe von Parametern beschrieben und schliesslich mit den anderen Modellen verkettet Die Verarbeitung zu einem kunstlichen Sprachsignal das sich an den besagten Parametern orientiert schliesst die Synthese dann ab Im Falle der Verwendung flexiblerer stochastischer Markov Graphen lasst sich ein solches Modell sogar insofern optimieren als dass ihm vorab und mittels Zufuhrung von Beispielen naturlicher Sprache eine gewisse Grundnaturlichkeit antrainiert werden kann Statistische Verfahren dieser Art entstammen dem kontraren Bereich der Spracherkennung und motivieren sich durch Erkenntnisse uber den Zusammenhang zwischen der Wahrscheinlichkeit einer bestimmten gesprochenen Wortfolge und der dann zu erwartenden ungefahren Sprechgeschwindigkeit oder ihrer Prosodie 5 6 7 Einsatzmoglichkeiten von Text to Speech Software BearbeitenDie Nutzung von Sprachsynthese Software muss kein Selbstzweck sein Menschen mit Sehbehinderungen z B Grauem Star oder altersbedingter Makuladegeneration nutzen TTS Softwarelosungen um sich Texte direkt am Bildschirm vorlesen zu lassen Blinde Menschen konnen einen Computer mittels einer Screenreader Software bedienen und bekommen Bedienelemente und Textinhalte angesagt Aber auch Dozenten nutzen die Sprachsynthese fur die Aufzeichnung von Vortragen Ebenso nutzen Autoren TTS Software um selbst geschriebene Texte auf Fehler und Verstandlichkeit hin zu prufen Ein weiteres Einsatzgebiet findet sich in Form von Software die das Erzeugen von MP3 Dateien erlaubt Hierdurch kann Sprachsynthese Software fur die Erzeugung einfacher Podcasts bzw Audioblogs genutzt werden Erfahrungsgemass kann die Produktion von Podcasts bzw Audioblogs sehr zeitintensiv sein Bei der Arbeit mit US amerikanischer Software ist zu beachten dass die vorhandenen Stimmen von unterschiedlicher Gute sind Englische Stimmen haben eine hohere Qualitat als deutsche Eine Ursache ist die reduzierte Verfugbarkeit grosserer deutscher Sprachdatenbanken welche als Grundlage fur das Training eines kunstlichen Modells erforderlich sind Das deutschsprachige Projekt Thorsten Stimme versucht diese Lucke zu schliessen Eine 1 1 Kopie der Texte in eine TTS Software kann nicht empfohlen werden eine Nachbearbeitung ist in jedem Fall notig Dabei geht es nicht nur um das Ersetzen von Abkurzungen und Zahlen in geschriebenen Text auch das Einfugen von Satzzeichen auch wenn diese grammatikalisch nicht korrekt sind kann helfen um auf das Satztempo Einfluss zu nehmen Deutsche Ubersetzungen mit Anglizismen stellen fur die Sprachsynthese i d R ein unuberwindbares Problem dar Haufige Anwendungen sind Ansagen in Telefon und in Navigationssystemen und automatische Haltestellenansagen in Verkehrsmitteln Sprachsynthese Software Bearbeiten nbsp Amiga SoftVoice SprachsyntheseAnalogX SayIt Aristech Audiodizer Balabolka Freeware 26 Sprachen SAPI4 und SAPI5 BOSS entwickelt am Institut fur Kommunikationswissenschaften der Universitat Bonn Browsealoud von textHELP Cepstral Text to Speech CereProc 8 DeskBot espeak Open Source viele Sprachen SAPI5 Festival Festvox FreeTTS Open Source GhostReader Gnuspeech Infovox IVONA Text to Speech Linguatec Voice Reader 15 Logox Clipreader Loquendo TTS MacinTalk und narrator device von SoftVoice MARY Text To Speech entwickelt vom DFKI Language Technology Lab MBROLA 9 unterschiedliche Stimmen fertigen Phoneme in verschiedenen Sprachen die von Sprachsynthesesoftware wie eSpeak oder Festival benutzt werden konnen 10 Modulate 11 Software zur Stimmkonversion benutzt Generative Adversarial Networks 12 Mozilla TTS 13 MWS Reader Sprachausgabe NaturalReader von NaturalSoft OnScreenVoices von tom weber software ReadSpeaker Webseiten vorlesen und Podcasting Realspeak von Nuance ehem ScanSoft jetzt Kobaspeech 3 SAM von Don t Ask Software 14 SpeechConcept Sprechomat libttspico utils von SVOX Kommandozeilen gesteuerte Sprachsynthese in Deutsch Englisch GB und US Spanisch Franzosisch und Italienisch 15 Synte 2 Synte 3 SPL1 Forschungs Sprachsynthesizer SYNVO Tacotron Google 16 Text Aloud MP3 Toshiba ToSpeak TTS Robot virsyn CANTOR Vokalsynthese Virtual VoiceSprachsynthese Hardware BearbeitenVotrax SC 01A analog formant SC 02 SSI 263 Arctic 263 General Instrument Speech Processor SP0250 SP0256 AL2 Orator CTS256A AL2 SP0264 SP1000 Mullard MEA8000 17 National Semiconductor DT1050 Digitalker Mozer Silicon Systems SSI 263 analog formant Texas Instruments TMS5110A LPC TMS5200 Oki Semiconductor MSM5205 MSM5218RS ADPCM Toshiba T6721A C MOS Voice Synthesizing LSISiehe auch BearbeitenSpracherkennung Prosodieerkennung Stimmverschlusselung Sprachdialogsystem Phonetik Intonation Phonetik Literatur BearbeitenKarlheinz Stober Bernhard Schroder Wolfgang Hess Vom Text zur gesprochenen Sprache In Henning Lobin Lothar Lemnitzer Hrsg Texttechnologie Perspektiven und Anwendungen Stauffenburg Tubingen 2004 ISBN 3 86057 287 3 S 295 325 Jessica Riskin Eighteenth Century Wetware In Representations Bd 83 Nr 1 2003 ISSN 0734 6018 S 97 125 doi 10 1525 rep 2003 83 1 97 James L Flanagan Speech Analysis Synthesis and Perception Kommunikation und Kybernetik in Einzeldarstellungen Bd 3 2nd edition Springer Berlin u a 1972 ISBN 3 540 05561 4 1 Aufl 1965 3 Aufl 2008 18 Ville Pulkki Matti Karjalainen Communication Acoustics An Introduction to Speech Audio and Psychoacoustics John Wiley amp Sons 2015 ISBN 978 1 118 86654 2 Weblinks Bearbeiten nbsp Wiktionary Sprachsynthese Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen nbsp Commons Sprachsynthese Sammlung von Bildern Videos und Audiodateien Geschichte Geschichte der Sprachsynthese anhand von Beispielen Studienarbeit PDF 480 kB Magic Voice Speech Module fur den C64Systeme Produkttests und ausfuhrliche Informationen zu Vorlesesystemen im INCOBS Produkttests und ausfuhrliche Informationen zu Screenreader im INCOBS Liste von Sprachsynthesesystemen mit BeispielenWebinterfaces Pediaphon Sprachausgabe fur deutschsprachige Wikipedia Artikel Online Demo des Text to Speech Sprachsynthese Programmes MARY Text to Speech Ausgabe in verschiedene Formate Online Demo Text in Sprache via Google Chrome Fussnoten Bearbeiten Dennis Klatt s History of Speech Synthesis Memento vom 4 Juli 2006 im Internet Archive Sami Lemmetty History and Development of Speech Synthesis In Review of Speech Synthesis Technology HELSINKI UNIVERSITY OF TECHNOLOGY 1 Juni 1999 abgerufen am 14 Marz 2019 englisch Arne Hoxbergen Die Geschichte der Sprachsynthese anhand einiger ausgewahlter Beispiele PDF 490 kB Berlin 2005 Karl Schnell Rohrmodelle des Sprechtraktes Frankfurt 2003 Patent DE10040991C1 Verfahren zur parametrischen Synthese von Sprache Angemeldet am 18 August 2000 veroffentlicht am 27 September 2001 Anmelder Technische Universitat Dresden Erfinder Matthias Eichner Matthias Wolf Diplomarbeit Breitenbuecher Memento des Originals vom 24 Januar 2012 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot www ims uni stuttgart de Archivierte Kopie Memento vom 21 Juli 2014 im Internet Archive Homepage Coqui AI Welcome to MBROLA project In GitHub UMONS Institute for Creative Technologies 30 Januar 2022 abgerufen am 30 Januar 2022 englisch Sprachausgabe In Wiki ubuntuusers de Abgerufen am 30 Januar 2022 Modulate Unlock your voice Abgerufen am 14 Marz 2019 Technology Review Sprechen wie Barack Obama 14 Marz 2019 abgerufen am 14 Marz 2019 mozilla TTS Mozilla 7 Februar 2021 abgerufen am 7 Februar 2021 https simulationcorner net index php page sam libttspico utils Paketbeschreibung bei Debian Sebastian Gruner Tacotron 2 Googles Sprachsynthese erreicht fast menschliche Qualitat Golem de In golem de 21 Dezember 2017 abgerufen am 14 Marz 2019 http vesta homelinux free fr wiki le synthetiseur vocal mea 8000 html Speech Analysis Synthesis and Perception pdf Abgerufen von https de wikipedia org w index php title Sprachsynthese amp oldid 236584390