www.wikidata.de-de.nina.az
Sprechpausenerkennung englisch voice activity detection VAD ist eine in der Sprachverarbeitung genutzte Technik bei der die An oder Abwesenheit menschlicher Stimme erkannt wird 1 Die Hauptverwendungszwecke fur Sprechpausenerkennung liegen in den Bereichen der Sprachkodierung und Spracherkennung Es kann die Sprachverarbeitung erleichtern und kann genutzt werden um manche Vorgange wahrend einer Sprechpause zu deaktivieren Es kann unnotige Kodierung und Ubertragung von inhaltsleeren Datenpaketen in IP Telefonieanwendungen vermeiden und so Rechenleistung und Ubertragungskapazitat einsparen Sprechpausenerkennung ist eine Schlusseltechnik fur eine Vielzahl Sprach basierter Anwendungen Daher wurden verschiedene Algorithmen entwickelt die unterschiedliche Merkmale aufweisen und eine Abwagung zwischen Latenz Empfindlichkeit Prazision und Berechnungsaufwand darstellen Manche Algorithmen liefern auch weitere Analysedaten zum Beispiel ob die Sprache stimmhaft stimmlos oder ausgehalten ist Sprechpausenerkennung ist ublicherweise unabhangig von der Sprache Erstmals untersucht wurde sie zur Verwendung in Systemen fur zeitzugeordnete Sprachinterpolation ZSI Inhaltsverzeichnis 1 Algorithmus 2 Anwendungen 2 1 Nutzung im Telefonverkauf 3 Leistungsbewertung 4 Implementierungen 5 Siehe auch 6 Literatur 7 FussnotenAlgorithmus BearbeitenDer typische Entwurf eines VAD Algorithmus ist folgendermassen 1 Das Erste kann ein Schritt zur Rauschreduktion sein zum Beispiel durch spektrale Subtraktion Dann werden manche Merkmale oder Grossen fur einen Abschnitt des Eingangssignales berechnet Es wird eine Klassifikationsregel angewandt um den Signalabschnitt als Sprache oder als Sprechpause einzuordnen oft pruft das Klassifikationsverfahren ob ein Wert einen Schwellwert uberschreitet In dieser Abfolge kann es Ruckkopplungen geben in der die Entscheidung der Sprechpausenerkennung genutzt wird um die Storgerauscherkennung anzupassen oder die den Schwellwert e dynamisch anzupassen Diese Ruckkopplungsmechanismen verbessern die Erkennungsleistung bei veranderlichen Storgerauschen 1 Ein reprasentativer Satz kurzlich veroffentlichter Sprechpausenerkennungsmethoden bestimmt die Entscheidungsregel von Block zu Block unter Verwendung fortlaufend gemessener Abweichungsabstand zwischen Sprache und Storgerausch Die unterschiedlichen Messgrossen die bei der Sprechpausenerkennung genutzt werden umfassen Abfall der Spektralverteilungskurve Korrelationskoeffizienten logarithmischer Wahrscheinlichkeits Quotient Cepstrum gewichtete Cepstrum und modifizierte Abstandsmasse Unabhangig von der Wahl des Pausenerkennungsalgorithmus muss abgewagt werden zwischen der Erkennung von Storgerauschen als Sprache oder Sprache als Storgerausch zwischen falsch positiv und falsch negativ Eine in einem Mobiltelefon betriebene Sprechpausenerkennung muss Sprachsignale unter Anwesenheit einer Palette sehr unterschiedlicher Arten akustischer Hintergrundgerausche erkennen konnen Unter diesen schwierigen Erkennungsbedingungen ist es oft wunschenswert eine konservative Pausenerkennung zu haben die im Zweifelsfall als Sprachsignal kategorisiert um die Gefahr verlorener Sprachabschnitte zu mindern Die grosste Schwierigkeit bei der Erkennung der Sprachabschnitte in dieser Umgebung sind die geringen anzutreffenden Rauschabstande Wenn Teile der Sprachausserungen in Storgerauschen untergehen kann eine Unterscheidung zwischen Sprache und Storgerauschen aufgrund einfacher Pegelbestimmung unmoglich sein Anwendungen BearbeitenSprechpausenerkennung ist ein grundlegender Bestandteil verschiedener Sprachkommunikationssysteme wie Telefonkonferenzanwendungen Echokompensation Spracherkennung Sprachsignalkodierung und freihandiges Telefonieren Im Bereich von Multimedia Anwendungen ermoglicht Sprechpausenerkennung gleichzeitige Nutzung von Sprach und Datenanwendungen Ahnlich beeinflusst und reduziert es bei Universal Mobile Telecommunications Systems UMTS die durchschnittliche Bitrate und verbessert insgesamt die Sprachqualitat In Mobilfunksystemen beispielsweise GSM und CDMA2000 mit unterbrochener Ubertragung DTX ist Sprechpausenerkennung wesentlich fur die Verbesserung der Gesamtkapazitat durch Verringerung der Storung von Nebenkanalen und Energieverbrauch von Mobilgeraten Bei einer breiten Palette von Anwendungen wie digitalem Sprechfunk Digital Simultaneous Voice and Data DSVD oder Sprachaufzeichnungen ist es wunschenswert eine unterbrochene Ubertragung von Sprachkodierungsparametern Vorteile konnen niedrigerer durchschnittlicher Energiebedarf in Mobilgeraten hohere durchschnittliche Bitrate fur gleichzeitige Dienste wie Datenubertragung oder hohere Kapazitat auf Speicher Chips sein Allerdings sind die Vorteile abhangig vom Anteil von Pausen in Gesprachen und der Zuverlassigkeit der eingesetzten Sprechpausenerkennung Einerseits ist es vorteilhaft einen geringen Anteil von Sprachabschnitten zu haben Andererseits sollten Einschnitte in Sprachabschnitte also der Verlust von Sprachabschnitten minimiert werden um Qualitat zu erhalten Das ist das entscheidende Problem fur einen Sprechpausenerkennungsalgorithmus unter der Bedingung starker Storgerausche Nutzung im Telefonverkauf Bearbeiten Eine umstrittene Anwendung von Sprechpausenerkennung ist in Verbindung mit von Telefonverkaufsfirmen verwendeten Predictive Dialern Um die Produktivitat der Agenten zu maximieren richten Telefonverkaufsfirmen Predictive Dialer ein um mehr Nummern anzurufen als Agenten verfugbar sind in dem Wissen dass die meisten Anrufe unbeantwortet oder bei Anrufbeantwortern enden Wenn eine Person annimmt so sprechen sie meist kurz Hallo Guten Abend etc und dann folgt ein Zeitraum der Stille Anrufbeantworteransagen enthalten ublicherweise 3 bis 15 Sekunden an kontinuierlichem Sprachfluss Mit korrekt gewahlten Sprechpausenerkennungsparametern konnen Dialer bestimmen ob eine Person oder ein Anrufbeantworter den Ruf angenommen hat und wenn es eine Person ist den Anruf an einen verfugbaren Agenten ubergeben Wenn ein Anrufbeantworter erkannt wurde so hangt der Dialer auf Oft erkennt das System korrektermassen die Annahme durch eine Person wobei kein Agent verfugbar ist Leistungsbewertung BearbeitenUm eine Sprechpausenerkennungsmethode zu bewerten wird seine Ausgabe anhand von Testaufnahmen mit den Ergebnissen einer idealen Sprechpausenerkennung verglichen erstellt durch manuelle Feststellung der An und Abwesenheit von Sprache in den Aufnahmen Die Leistung einer Sprechpausenerkennung wird ublicherweise anhand der folgenden vier Parameter untersucht 2 FEC Front End Clipping angeschnittener Sprachabschnitt beim Ubergang von Storgerausch zu Sprachinhalt MSC Mid Speech Clipping unterbrochener Sprachabschnitt durch Fehlklassifizierung von Sprachinhalt als Storgerausch OVER als Sprachinhalt interpretierte Storgerausche durch andauernden Sprechpausen Status nach dem Ubergang von Sprache zu Storgerauschen NDS Noise Detected as Speech Storgerausche wahrend einer Stilleperiode werden als Sprachsignal interpretiert Trotzdem die oben beschriebene Methode nutzliche objektive Informationen zur Leistung einer Sprechpausenerkennung liefert ist sie nur ein naherungsweises Mass fur die subjektive Auswirkung Beispielsweise konnen die Auswirkungen angeschnittener Sprachabschnitte abhangig von der Art des gewahlten Komfortrauschgenerators manchmal durch die Anwesenheit von Hintergrundgerauschen verdeckt sein wodurch manche mit objektiven Tests gemessene Einschnitte in Sprachabschnitte eigentlich nicht wahrnehmbar sind Daher ist es wichtig Sprechpausenerkennungen subjektiven Tests zu unterziehen hauptsachlich um die Annehmbarkeit der wahrgenommenen Einschnitte sicherzustellen Diese Art von Tests erfordert von einer gewissen Anzahl von Horern die Bewertung von Aufnahmen mit den Erkennungsergebnissen der zu testenden Verfahren Die Horer mussen die folgenden Merkmale bewerten Qualitat Verstandlichkeit Horbarkeit von Einschnitten Diese durch das Anhoren einiger Sprachsequenzen erhaltenen Bewertungen werden dann benutzt um Durchschnittsergebnisse fur die einzelnen oben aufgezahlten Merkmale zu berechnen und dadurch eine allgemeine Einschatzung des Verhaltens der getesteten Sprechpausenerkennung zu erhalten Wahrend also objektive Methoden in einem anfanglichen Entwicklungsstadium sehr nutzlich sind um die Qualitat einer Sprechpausenerkennung zu prufen sind subjektive Methoden aussagekraftiger Da sie jedoch teurer sind weil sie die Teilnahme einer gewissen Anzahl von Leuten uber einige Tage erfordern werden sie allgemein nur genutzt wenn sich ein Vorschlag in der Standardisierung befindet Implementierungen BearbeitenEine fruhe standardisierte Sprechpausenerkennung ist die 1991 von British Telecom fur die Nutzung in dem europaweiten digitalen Mobilfunknetzwerk entwickelte Methode Es benutzt anhand von Sprechpausenabschnitten trainiertes inverses Filtern um Hintergrundgerausche auszufiltern und danach zuverlassiger anhand eines einfachen Pegelschwellwertes zu entscheiden ob eine Stimme anwesend ist 3 Der G 729 Standard berechnet die folgenden Merkmale fur seine Sprechpausenerkennung Line Spectral Frequencies gesamte Bandenergie unterer Teil der Bandenergie lt 1 kHz und Nulldurchgangsrate Es setzt eine einfache Klassifizierung ein mit einer festen Entscheidungsschwelle in dem Raum den diese Merkmale definieren und nimmt anschliessend Glattungen und dynamische Korrekturen an dieser Schatzung vor 4 Der GSM Standard enthalt zwei vom ETSI entwickelte Moglichkeiten zur Sprechpausenerkennung 5 Die erste Moglichkeit berechnet den Storabstand in neun Frequenzbandern und wendet einen Schwellwert auf diese Werte an Die zweite Moglichkeit berechnet unterschiedliche Parameter Energiedichte des Kanals Messparameter von der Stimme und Energiedichte der Storgerausche Es wendet dann einen Schwellwert auf die Sprachsignalparameter an der mit dem geschatzten Storabstand verandert wird Die Speex Audio Kompressorbibliothek nutzt eine als Improved Minima Controlled Recursive Averaging benannte Prozedur die eine geglattete Darstellung der spektralen Energieverteilung nutzt und dann nach den Minima eines geglatteten Periodogramm sucht 6 Ab Version 1 2 wurde es nach Aussage des Autors durch eine Pfuschlosung englisches Original kludge ersetzt 7 Siehe auch BearbeitenKomfortrauschenLiteratur BearbeitenDMA minimum performance standards for discontinuous transmission operation of mobile stations TIA doc and database IS 727 Juni 1998 M Y Appiah M Sasikath R Makrickaite amp M Gusaite Robust Voice Activity Detection and Noise Reduction Mechanism Using Higher Order Statistics 2005 doi 10 1109 ICPR 2010 28 auc dk PDF Institute of Electronics Systems Aalborg University Xianglong Liu Yuan Liang Yihua Lou He Li amp Baosong Shan Noise Robust Voice Activity Detector Based on Hidden Semi Markov Models In 2010 20th International Conference on Pattern Recognition ICPR IEEE 2010 ISBN 978 1 4244 7542 1 S 81 84 doi 10 1109 ICPR 2010 28 edu cn PDF Fussnoten Bearbeiten a b c J Ramirez J M Gorriz amp J C Segura Voice Activity Detection Fundamentals and Speech Recognition System Robustness In M Grimm amp K Kroschel Hrsg Robust Speech Recognition and Understanding 2007 ISBN 978 3 902613 08 0 S 1 22 i techonline com PDF F Beritelli S Casale G Ruggeri amp S Serrano Performance evaluation and comparison of G 729 AMR fuzzy voice activity detectors In IEEE Signal Processing Letters Band 9 Nr 3 Marz 2002 S 85 88 doi 10 1109 97 995824 D K Freeman G Cosier C B Southcott amp I Boyd The voice activity detector for the Pan European digital cellular mobile telephone service In 1989 International Conference on Acoustics Speech and Signal Processing ICASSP 89 Band 1 Mai 1989 S 369 372 doi 10 1109 ICASSP 1989 266442 A Benyassine E Shlomot H Y Su D Massaloux C Lamblin amp J P Petit ITU T Recommendation G 729 Annex B a silence compression schemefor use with G 729 optimized for V 70 digital simultaneous voice and data applications In IEEE Communications Magazine Band 35 Nr 9 September 1997 S 64 73 doi 10 1109 35 620527 ETSI Digital cellular telecommunications system Phase 2 Half rate speech Voice Activity Detector VAD for half rate speech traffic channels GSM 06 42 version 8 0 1 1999 I Cohen Noise spectrum estimation in adverse environments improved minima controlled recursive averaging In IEEE Transactions on Speech and Audio Processing Band 11 Nr 5 September 2003 S 466 475 doi 10 1109 TSA 2003 811544 Jean Marc Valin preprocess c In Quellcode von Speex Version 1 2beta2 Xiph org abgerufen am 17 Januar 2012 englisch FIXME This VAD is a kludge Abgerufen von https de wikipedia org w index php title Sprechpausenerkennung amp oldid 239489489