Reality is Different
OVERVIEW
|
|
Die Realität ist anders
Trotz bemerkenswerter Fortschritte in den letzten Jahren ist die Fähigkeit von Computerprogrammen, mit Menschen in gesprochener Sprache zu kommunizieren, noch sehr rudimentär. Es gibt Programme, die als Spracherkenner mittlerweile begrenzt zum Diktieren benutzt werden können. Es gibt Sprachsyntheseprogramme die mit unterschiedlicher Qualität Textvorgaben in gesprochene Sprache umwandeln. Und es gibt erste Systeme, in denen Spracherkennung, Sprachsynthese und eine erste rudimentäre Form von Sprachverstehen so miteinander verzahnt werden, daß sich damit einfache Auskunfts- oder Bestellsysteme realisieren lassen.
Dies sei zunächst an einer idealisierten Skizze möglicher beteiligter Module veranschaulicht.
- Spracherkennung:
In einem Spracherkennungssystem wird aus dem Sprachschall auf unterschiedliche Weise für vorgegebene Abschnitte (frames) aus dem Sprachsignal eine Menge von physikalischen Parametern P extrahiert, mittels denen die sprachrelevanten Eigenschaften des Signals repräsentiert werden. Gleichzeitig hat man ein Wörterbuch/ Lexikon vorbereitet, in dem zu jedem geschriebenen Wort der Zielsprache ein akustisches Modell AM dieses Wortes gespeichert ist. Diese akustischen Modelle können sehr unterschiedlich sein. Heute dominieren sogenannte Hidden Markov Modelle [HMMs]. Die eigentliche Erkennung reduziert sich dann auf den Vorgang, daß die gemessenen Parameter P des aktuellen Signals mit den bekannten akustischen Modellen des Lexikons verglichen werden. Dasjenige Modell mit der größen Ähnlichkeit und Wahrscheinlichkeit wird dann ausgewählt und das zugehörige geschriebene Wort ausgegeben. Da das hereinkommende Sprachsignal starken Schwankungen unterworfen sein kann -Umweltgeräusche, lautes/ leises Sprechen, schwankende Sprechgeschwindigkeit, schwankende Erregung usw.-, ist dieses Verfahren sehr fehleranfällig, da die akustischen Modellen nur bedingt alle diese Schwankungen vorwegnehmen können. Die meisten Spracherkenner ergänzen daher diese minimale Architektur durch sogenannte Sprachmodelle. Dies sind heute in der Regel Sammlungen sogenannter n-Gramme (0 < n < 3), Wortsequenzen von 2-3 Wörtern, die mit ihrer relativen Häufigkeit erfaßt sind. Sollte also die Erkennung auf der ersten Stufe unklar oder falsch sein, so kann diese zusätzliche Information die Erkennungsleistung verbessern.
- Sprachsynthese:
Im Fall der Sprachsynthese läuft der Vorgang genau umgekehrt zur Spracherkennung. Man hat auch ein Wörterbuch/ Lexikon. In diesem Fall ist es aber nicht ganz so klar, wie die zu sprechende Sprache repräsentiert sein soll. Ganze geschriebene Wörter, nur geschriebene Silben oder gar nur Phoneme? Wie ist es mit Akzenten, Betonungen, Intonationen? Wie ist es mit weiteren Sprechereigenschaften wie z.B. männlich weiblich, emotionale, stimmungsmäßige Färbung? Laut oder leise? Langsam oder schnell? Heutige Sprachsyntheseprogramme können in der Regel nur auf einen Bruchteil dieser Faktoren eingehen. Dazu kommt das Problem der Übersetzung in das akustische Signal. Dazu gibt es sehr unterschiedliche Verfahren: Werden vorher gespeicherte akustische Einheiten verkettet (z.B. in der PSOLA-Methode) oder werden die jeweiligen akustischen Einheiten synthetisiert (z.B. mittels LPC oder STFT)? Abgesehen davon, daß es hier sehr unterschiedliche Verfahren im Detail gibt, ergeben sich für jede Methode unterschiedliche Regeln und Parameter, die in das Wörterbuch übernommen werden müssen.
- Sprachverstehen: Sprachverstehen bildet eine Erweiterung zur Spracherkennung. Während bei der Spracherkennung Sprachschall in geschriebene Wörter einer Zielsprache übersetzt werden, erfolgt im Sprachverstehen eine Übersetzung der erkannten geschriebenen Wörter in geeignete Konzepte/ abstrakte Wissensstrukturen. Diese Wissensstrukturen können eine unterschiedliche Komplexität beinhalten; sie können z.B. auch Inferenzmechanismen umfassen.
- Dialogführung: Damit Sprachverstehen im Rahmen einer Dialogsituation wirksam werden kann, bedarf es aber auch noch einer eigenständigen Dialogführung. Wesentlicher Bestandteil jeder Dialogführung ist eine Repräsentation jener Situationseigenschaften, die für die Führung eines erfolgreichen Dialoges wichtig sind. So muß ein Hotelreservierungssystem z.B. über aktuelle Informationen über alle verfügbaren Hotelzimmer samt deren spezifischen Eigenschaften verfügen. Dazu gehört ein Protokoll all jener Aktionen, die ein Gesprächsgegenüber in einem Dialog seit Beginn des Dialoges vorgenommen hat. Die Wissensbasis muß mit der Repräsentation der aktuellen Situation abgestimmt werden können.
- Verhalten/ Verhaltensplanung: Das Verhalten des Systems gehört einerseits zur Dialogführung, kann aber als eigenständiger Bereich herausgehoben werden. Reaktionen des Systems im Rahmen eines Dialoges setzen ein Repertoir möglicher Aktionen voraus. Diese können reaktiv organisiert sein -d.h. sie sind mehr oder weniger 'fest verdrahtet'- oder sie können in eine deliberative oder gar reflexive Struktur eingebettet sein, die es gestattet, alternative Handlungspläne zu generieren, zu bewerten und dann eine der generierten Alternativen auszuwählen. Im Falle von Bewertungsprozessen können verfügbare -und in der Vergangenheit wirksame- Bedürfnisse/ Emotionen eine Rolle spielen. Ferner gehört in den Kontext der Handlungsplanung auch die Modellierung des Gegenübers. Nur in dem Maße, als das kommunizierende System die Eigenschaften seines Gesprächspartners -und dazu gehören auch dessen Intentionen/ Einstellungen/ Erwartungen usw.-, hinreichend modellieren kann, wird es in der Lage sein, auf die Erwartungen seines Gegenübers adäquat reagieren zu können.
- Textgenerierung: Was auch immer ein System im Rahmen seiner Dialogführung an Wissenstatbeständen aktivieren und neu organisieren wird, um die gesprächsrelevanten Tatbestände kommunizieren zu können, müssen diese Wissensbestände in sprachliche Strukturen übersetzt werden. Hier sind unterschiedlich ausgesprägte komplexe Übersetzungsprozesse denkbar: Erfassung von Situationsmerkmalen, Rollen der beteiligten Gesprächspartnern, unterstellten Erwartungen und unterstelltem Wissen bei diesen, hin zu möglichen Sprechakten, deren möglichen Wirkung, Bewertung, Selektionen, bis hin zur schließlichen Übersetzungen in konkrete Wortketten. Die Übersetzung der in den Wortketten hinterlegten Informationen führt dann zur Sprachsynthese (s.o.).
>>>Fortsetzung folgt .... <<<
ÜBERSICHT
|
|