Agents and (Spoken) Language/ Agenten und (gesprochene) Sprache

Agents and (Spoken) Language How It Should Be Reality is Different Critical Remarks to the Status Quo Proposal for An Alternative Strategy Bibliography HOME

Agenten und (gesprochene) Sprache

AUTHOR: Gerd Döben-Henisch
DATE OF FIRST GENERATION: Sept 21, 1997
DATE OF LAST CHANGE: Sept 23, 1997
ADDRESS: INM - Institute for New Media, Frankfurt, Germany
EMAIL: doeb@inm.de
URL: INM
Copyright (c) Gerd Döben-Henisch - INM Institut für Neue Medien - Frankfurt - Sept. 1997

Wie es sein sollte
Die Realität ist anders
Kritik am Status Quo
Voschlag für eine alternative Strategie
Bibliographie

HOME

How It Should Be >>> This has yet to be written ... <<< OVERVIEW

Wie es sein sollte

Von einem Agenten vom Typ Knowbot würde man sich erwarten, daß er sich mit einem Benutzer ganz natürlich unterhalten kann. Die einfachen Knowbots würden vielleicht nur eine einzige Sprache beherrschen und ihr Wissen ist möglicherweise auf bestimmte Erfahrungsbereiche beschränkt. Aber die entwickelteren Modelle würden mehrere Sprachen beherrschen und sie besäßen ein Wissen, das man als 'enzyklopädisch' bezeichnen müßte.

Darüberhinaus wären diese Knowbots, auch schon die einfachen, einfach nett; sie würden Gefühlsregungen des menschlichen Gegenübers nicht nur verstehen, sondern sie hätten auch selbst Gefühle und wären mindestens zu rudimentären Formen von Humor und Witz fähig.

Dies alles kommunizierbar in freier Rede, mit den üblichen Verkürzungen, Pausen, Wiederholungen, eingeschobenen Verbesserungen, Füllwörtern, grammatischen Lücken, Anspielungen, wechselnden Akzenten und Betonungen, also kurzum so, wie man es vom alltäglichen Sprechen her kennt.

Natürlich wird man Knowbots mit schon vollendeter Ausbildung kaufen oder mieten können, um Zeit zu sparen. Prinzipiell ist ein Knowbot aber so programmiert, daß er selbständig lernen kann, insbesondere auch jede beliebige Sprache. Er lernt eine Sprache so, wie auch Menschen Sprachen lernen: durch vorgelebte Praxis, durch Umgang mit anderen Menschen, durch gemeinsam geteilte Situationen, durch Unterricht, durch viel Spiel, eben durch all das, wodurch auch ein Mensch lernen würde.

Das ist die Vision. Wir wissen, daß die Realität noch ganz anders aussieht.

ÜBERSICHT

Reality is Different OVERVIEW

Die Realität ist anders

Trotz bemerkenswerter Fortschritte in den letzten Jahren ist die Fähigkeit von Computerprogrammen, mit Menschen in gesprochener Sprache zu kommunizieren, noch sehr rudimentär. Es gibt Programme, die als Spracherkenner mittlerweile begrenzt zum Diktieren benutzt werden können. Es gibt Sprachsyntheseprogramme die mit unterschiedlicher Qualität Textvorgaben in gesprochene Sprache umwandeln. Und es gibt erste Systeme, in denen Spracherkennung, Sprachsynthese und eine erste rudimentäre Form von Sprachverstehen so miteinander verzahnt werden, daß sich damit einfache Auskunfts- oder Bestellsysteme realisieren lassen.

Dies sei zunächst an einer idealisierten Skizze möglicher beteiligter Module veranschaulicht.

Spracherkennung: In einem Spracherkennungssystem wird aus dem Sprachschall auf unterschiedliche Weise für vorgegebene Abschnitte (frames) aus dem Sprachsignal eine Menge von physikalischen Parametern P extrahiert, mittels denen die sprachrelevanten Eigenschaften des Signals repräsentiert werden. Gleichzeitig hat man ein Wörterbuch/ Lexikon vorbereitet, in dem zu jedem geschriebenen Wort der Zielsprache ein akustisches Modell AM dieses Wortes gespeichert ist. Diese akustischen Modelle können sehr unterschiedlich sein. Heute dominieren sogenannte Hidden Markov Modelle [HMMs]. Die eigentliche Erkennung reduziert sich dann auf den Vorgang, daß die gemessenen Parameter P des aktuellen Signals mit den bekannten akustischen Modellen des Lexikons verglichen werden. Dasjenige Modell mit der größen Ähnlichkeit und Wahrscheinlichkeit wird dann ausgewählt und das zugehörige geschriebene Wort ausgegeben. Da das hereinkommende Sprachsignal starken Schwankungen unterworfen sein kann -Umweltgeräusche, lautes/ leises Sprechen, schwankende Sprechgeschwindigkeit, schwankende Erregung usw.-, ist dieses Verfahren sehr fehleranfällig, da die akustischen Modellen nur bedingt alle diese Schwankungen vorwegnehmen können. Die meisten Spracherkenner ergänzen daher diese minimale Architektur durch sogenannte Sprachmodelle. Dies sind heute in der Regel Sammlungen sogenannter n-Gramme (0 < n < 3), Wortsequenzen von 2-3 Wörtern, die mit ihrer relativen Häufigkeit erfaßt sind. Sollte also die Erkennung auf der ersten Stufe unklar oder falsch sein, so kann diese zusätzliche Information die Erkennungsleistung verbessern.
Sprachsynthese: Im Fall der Sprachsynthese läuft der Vorgang genau umgekehrt zur Spracherkennung. Man hat auch ein Wörterbuch/ Lexikon. In diesem Fall ist es aber nicht ganz so klar, wie die zu sprechende Sprache repräsentiert sein soll. Ganze geschriebene Wörter, nur geschriebene Silben oder gar nur Phoneme? Wie ist es mit Akzenten, Betonungen, Intonationen? Wie ist es mit weiteren Sprechereigenschaften wie z.B. männlich weiblich, emotionale, stimmungsmäßige Färbung? Laut oder leise? Langsam oder schnell? Heutige Sprachsyntheseprogramme können in der Regel nur auf einen Bruchteil dieser Faktoren eingehen. Dazu kommt das Problem der Übersetzung in das akustische Signal. Dazu gibt es sehr unterschiedliche Verfahren: Werden vorher gespeicherte akustische Einheiten verkettet (z.B. in der PSOLA-Methode) oder werden die jeweiligen akustischen Einheiten synthetisiert (z.B. mittels LPC oder STFT)? Abgesehen davon, daß es hier sehr unterschiedliche Verfahren im Detail gibt, ergeben sich für jede Methode unterschiedliche Regeln und Parameter, die in das Wörterbuch übernommen werden müssen.
Sprachverstehen: Sprachverstehen bildet eine Erweiterung zur Spracherkennung. Während bei der Spracherkennung Sprachschall in geschriebene Wörter einer Zielsprache übersetzt werden, erfolgt im Sprachverstehen eine Übersetzung der erkannten geschriebenen Wörter in geeignete Konzepte/ abstrakte Wissensstrukturen. Diese Wissensstrukturen können eine unterschiedliche Komplexität beinhalten; sie können z.B. auch Inferenzmechanismen umfassen.
Dialogführung: Damit Sprachverstehen im Rahmen einer Dialogsituation wirksam werden kann, bedarf es aber auch noch einer eigenständigen Dialogführung. Wesentlicher Bestandteil jeder Dialogführung ist eine Repräsentation jener Situationseigenschaften, die für die Führung eines erfolgreichen Dialoges wichtig sind. So muß ein Hotelreservierungssystem z.B. über aktuelle Informationen über alle verfügbaren Hotelzimmer samt deren spezifischen Eigenschaften verfügen. Dazu gehört ein Protokoll all jener Aktionen, die ein Gesprächsgegenüber in einem Dialog seit Beginn des Dialoges vorgenommen hat. Die Wissensbasis muß mit der Repräsentation der aktuellen Situation abgestimmt werden können.
Verhalten/ Verhaltensplanung: Das Verhalten des Systems gehört einerseits zur Dialogführung, kann aber als eigenständiger Bereich herausgehoben werden. Reaktionen des Systems im Rahmen eines Dialoges setzen ein Repertoir möglicher Aktionen voraus. Diese können reaktiv organisiert sein -d.h. sie sind mehr oder weniger 'fest verdrahtet'- oder sie können in eine deliberative oder gar reflexive Struktur eingebettet sein, die es gestattet, alternative Handlungspläne zu generieren, zu bewerten und dann eine der generierten Alternativen auszuwählen. Im Falle von Bewertungsprozessen können verfügbare -und in der Vergangenheit wirksame- Bedürfnisse/ Emotionen eine Rolle spielen. Ferner gehört in den Kontext der Handlungsplanung auch die Modellierung des Gegenübers. Nur in dem Maße, als das kommunizierende System die Eigenschaften seines Gesprächspartners -und dazu gehören auch dessen Intentionen/ Einstellungen/ Erwartungen usw.-, hinreichend modellieren kann, wird es in der Lage sein, auf die Erwartungen seines Gegenübers adäquat reagieren zu können.
Textgenerierung: Was auch immer ein System im Rahmen seiner Dialogführung an Wissenstatbeständen aktivieren und neu organisieren wird, um die gesprächsrelevanten Tatbestände kommunizieren zu können, müssen diese Wissensbestände in sprachliche Strukturen übersetzt werden. Hier sind unterschiedlich ausgesprägte komplexe Übersetzungsprozesse denkbar: Erfassung von Situationsmerkmalen, Rollen der beteiligten Gesprächspartnern, unterstellten Erwartungen und unterstelltem Wissen bei diesen, hin zu möglichen Sprechakten, deren möglichen Wirkung, Bewertung, Selektionen, bis hin zur schließlichen Übersetzungen in konkrete Wortketten. Die Übersetzung der in den Wortketten hinterlegten Informationen führt dann zur Sprachsynthese (s.o.).

>>>Fortsetzung folgt .... <<<

ÜBERSICHT

Critical Remarks to the Status Quo OVERVIEW

Kritik am Status Quo

ÜBERSICHT

Proposal for An Alternative Strategy OVERVIEW

Voschlag für eine alternative Strategie

ÜBERSICHT