SITUATIONSABHÄNGIGE GESTENDEKODIERUNG IM KNOWBOT
- Kurzfassung -



AUTHOR: Dr. Gerd Döben-Henisch
FIRST DATE: May-5 1996
DATE of LAST CHANGE: May-5 1996



Übersicht:
  1. Zum Hintergrund: Gerd, das INM, KIP I und KIP II
  2. Warum Knowbots (= Bewußtseins-Agenten)?
  3. Skizze eines Rahmenmodells zur Gestenerkennung im Knowbot



  1. Zum Hintergrund: Gerd, das INM, KIP I und KIP II

    • Gerd: Sprachliche Bedeutung und das Selbstbeschreibungsproblem des Bewußtseins; Hypothese bzgl. sprachlicher Bedeutung als Lernprozeß vernetzt mit Lernprozeß Ausdruck. Knowbotic Interface zum Erforschen und Testen theoretischer Modelle zum Bewußtsein und zu Sprachlernprozessen.

    • Das INM: Bis 1994: Städelschule-INM; ab Okt. 1994 INM e.V. für Kunst, Neue Medien und Forschung. Knowbotic Interface Project. Verein und GmbH.

    • KIP I (= BLINDs WORLD I): Prototyp für die Ars Electronica Juni 1995. Knowbots und Pseudoknowbots in einer künstlichen Welt. Sinneseindrücke, Gedächtnis, Körperzustände und Gefühle, instinktbasierter Handlungsteil, einfaches Sprachmodul für 1-Wort-Sätze.

    • KIP II: differenzierte Situationsrepräsentation; Modellierung individueller Objekte; intentionale Planung; Sprechakterkennung; 2-3 Worte pro Sprechakt.

  2. Warum Knowbots (= Bewußtseins-Agenten)?

    • Die Knowbots verdanken ihre Entstehung hauptsächliche der Problemstellung, wie ein Computerprogramm analog einem Kind jede natürliche Sprache situationsabhängig lernen und anwenden kann. Dies ist eine Vision, die schon auf TURING 1948/50 zurückgeht.

    • In unserem alltäglichen vorwissenschaftlichen Sprachhandeln 'wissen' wir, daß Sprache nicht allein durch den benutzen Schall oder die benutzten Alphabetzeichen definiert ist, sondern vor allem auch durch das, was man unscharf und vage 'Bedeutung' nennt: ein Konglomerat von sehr unterschiedlichen Dingen wie Vorstellungen, Erinnerungen, Gefühlen, Handlungen usw.

    • Wenn man diese Sachverhalte theoretisch aufarbeiten will, dann muß man sich über die wissenschaftstheoretischen Randbedingungen Klarheit verschaffen.

    • Eine wissenschaftliche Beschreibung dieser Sachverhalte ist im Grenzfall eine formale wissenschaftliche Theorie, heute in der Regel eine Strukturtheorie, der unterschiedliche Datenbereiche und/ oder Modelle, u.a. auch Computerprogramme, zugeordnet sein können.

    • Welche wissenschaftliche Beschreibungen man erstellt, hängt im wesentlichen davon ab, (i) welche Art von Daten man zulassen will und (ii) welche speziellen Fragen man relativ zu diesen Daten stellen will.

    • Mit Blick auf die Frage nach der Natur von Sprachlernprozessen sollen im folgenden vier unterschiedliche wissenschaftliche Zugriffsweisen kurz diskutiert werden , durch die dann vier unterschiedliche Datenbereiche konstituiert werden.

      1. Reine Verhaltenstheorie

        • In der reinen Verhaltenstheorie (historisches Beispiel: Behaviorismus) betrachtet man abgrenzbare Verhaltenssysteme 'von außen' und versucht relativ zu diesen (i) 'Reizklassen' zu eruieren, auf die diese Systeme erkennbar (ii) 'reagieren'. Man spricht daher auch von Stimulus-Response-Systemen bzw. S-R-Systemen. Die Menge der Reaktionen R sind dann eine Funktion f_v der Stimuli S: f_v: S --> R. Die Daten, die in eine verhaltensorientierte Theorie T_v eingehen, entstammen alle aus Beobachtungen von Stimuli-Vorkommen und davon abhängigen Reaktions-Vorkommen.

        • Eine entscheidende Schwäche von reinen Verhaltenstheorien bzgl. der vorausgesetzten Fragestellung nach Sprachlernprozessen ist, daß sie über keinerlei Ansatzpunkte verfügen, um Daten über Prozesse 'im' Verhaltenssystem zu gewinnen. Die Konstruktion der Systemfunktion f_v ist daher entweder zu allgemein für diese Fragestellung (siehe z.B. die Kritik CHOMSKYS an SKINNER) oder aber rein willkürlich.


      2. Erweiterte Verhaltenstheorie (Physiologische Psychologie und Neuropsychologie)

        • In der erweiterten Verhaltenstheorie T_n, wie sie z.B. in der physiologische Psychologie und in der Neuropsychologie praktiziert wird, werden die 'internen' Strukturen und Prozesse des Verhaltenssystems mit einbezogen. Auf diese Weise entstehen zusätzliche Datenklassen DI0, ..., DIn im Innern des Systems, relativ zu denen zahlreiche zusätzliche interne Systemfunktionen f_i0, ..., f_im definiert werden. Die Systemfunktion f_n einer Theorie T_n ist dann eine komplexe Funktion, die über die Gesamtheit der internen Systemfunktionen definiert ist.

        • Obgleich eine erweiterte Verhaltenstheorie erhebliche Differenzierungsmöglichkeiten bietet, weist aber auch sie im Rahmen der vorausgesetzten Fragestellung noch einige unübersehbare Schwächen auf. Eine erweiterte Verhaltenstheorie hat methodisch gesehen keinerlei Beziehung zum 'Erleben' bzw. zum 'Bewußtsein'. Das individuelle Erleben ist eine Dimension sui generis, die sich nur in Form von 1.Person-Aussagen (NAGEL) artikulieren können. Im Rahmen von erweiterten Verhaltenstheorien kann man zwar Selbstaussagen von Versuchspersonen in die Datenerhebung einbeziehen, doch liegen objektiv nur Ausdrucksmanifestationen vor; die supponierte 'Bedeutung' existiert nur als von 'außen' unterstellte Hypothese. Für die differenzierten und komplexen Vorgänge im Rahmen von Sprachlernprozessen ist ein solches Datenmaterial zu dürftig.

      3. Phänomenologie

        • Die phänomenologische Vorgehensweise knüpft bei dem alltäglichen Erleben an.

        • Das Erleben ist nicht diffus, sondern es lassen sich aufgrund der dem Erleben 'inhärierenden' Eigenschaften und Strukturen Erlebniselemente, Komplexe von Elementen wie auch Veränderungen unterscheiden und klassifizieren. Dazu gehören neben sensorischen Tatbeständen wie unterschiedliche Geräusche, Klänge, visuellen Objekten, Gerüchen, Geschmäckern etc. auch Erinnerungen, Emotionen, aktive Vorstellungen und dergleichen mehr. Erlebnisqualitäten werden hier auch Phänomene genannt.

        • Das Erleben ist bzgl. hypothetischer neurologischer -oder auch anderer- Prozesse, die als Träger oder Verursacher von Erlebnisqualitäten postuliert werden können, blind.

        • Sämtliche Verhaltensdaten sind zugleich auch phänomenologische Daten. Für ein menschliches Bewußtsein gibt es keine Daten, die nicht Phänomene sind. Verhaltensdaten inklusive physiologischer Daten sind eine spezielle Teilklasse von Phänomenen, nämlich solche, deren postulierten 'Reizquellen' 'körperextern' und 'intersubjektiv' sind. Während sich die Stimuli und Reaktionen der reinen Verhaltenstheorie weitgehend direkt mit entsprechende Phänomene korrelieren lassen, ist dies bei physiologischen Daten niemals möglich. Bezogen auf den gleichen unterstellten Referenzkörper lassen sich einige der meßbaren physiologishen Daten mit einigen Phänomenen korrelieren, vorausgesetzt, die Versuchsperson kann die physiologischen Meßwerte ihres eigenen Körpers wahrnehmen.

        • In der phänomenologischen Einstellung sind alle Phänomene direkt verfügbar, die im Bereich des bewußten situationsbezogenen Spracherwerbs und Sprachgebrauchs relevant sind. Verhaltenstheoretische und/ oder physiologische Modellbildungen zu speziellen Aspekten der Phänomengenerierung können nach Bedarf beliebig einbezogen werden.

        • Größere Schwierigkeiten gibt es allerdings bei der expliziten Konstruktion einer formalen Strukturtheorie T_p des Phänomenraums. Eine sprachliche Verständigung über die 'Inhalte' solch einer Theorie ist nur in dem Maße möglich, wie die Klassenbildungen und die relationalen Strukturen zwischen diesen Klassen von jedem Diskursteilnehmer im Bereich seines individuellen Phänomenraumes nachvollzogen werden können. Unter Voraussetzung einer hinreichenden Isomorphie von Erlebnisstrukturen und den den Phänomenen inhärierenden Eigenschaften erscheint es aber keinesfalls abwegig, anzunehmen, daß eine sprachliche Verständigung über potentielle Phänomenklassen und deren Relationen ebenso möglich ist, wie dies für unterstellte exteriozeptiv und propriozeptiv verursachte Phänomene beständig unterstellt wird.

        • Im Falle einer formalen Strukturtheorie T_p des Phänomenraums kann man diesen Konstruktionsprozeß durch die parallele Erstellung eines computergestützten Simulationsmodells zusätzlich absichern.

      4. Semiotik

        • Semiotik versteht sich im weitesten Sinne als die 'Wissenschaft von den Zeichen'.

        • Will man die Semiotik als empirische Wissenschaft auffassen, dann muß man ihr einen Datenbereich und eine Fragestellung zuweisen.

        • Wenn man natürliche Sprachen als genuine Zeichensysteme im Sinne der Semiotik auffassen will -was hier getan wird-, dann muß man die Forderung aufstellen, daß die Semiotik, will sie nicht zu viele interessante Bereiche ihres Gegenstandsgebietes ausklammern, auch einen phänomenologischen Ansatz wählen muß. Im Rahmen des allgemeinen phänomenologischen Ansatzes interessiert sie sich dann speziell nur für jene Strukturen und Prozesse, die sich als 'Zeichenprozesse' charakterisieren lassen.

      5. Es wird im weiteren Verlauf also angenommen, daß die leitende Untersuchungsperspektive eine phänomenologische und semiotische ist, die nach Bedarf um verhaltenstheoretische und physiologische -und auch andere- Spezialtheorien ergänzt wird.

      6. Aufgrund der immensen Komplexität des Phänommenraumes, insbesondere auch der situationsabhängigen Spracherwerbs- und Sprachverwendungsprozesse, wird die Konstruktion einer geeigneten Theorie hier als ein fortlaufender Prozeß gesehen, in dessen Verlauf zunächst sehr einfache Theorieentwürfe vorgelegt werden, die dann nach und nach verfeinert und differenziert werden. Zu jedem Theoriekonzept wird außerdem eine Computersimulation geschrieben, die zur Illustration und zum Testen der Theorie dienen soll.

      7. Der Kern der Computersimulation ist ein Programm, das einen dynamischen -idealisierten menschlichen- Phänomenraum simuliert. In diesem Sinne kann man hier von einem 'Bewußtseinssimulator' sprechen. Im Rahmen des Knowbotic Interface Projektes haben wir diese Programme Knowbots genannt. Insofern in ihnen auch die semiotisch interessanten Zeichenprozesse modellierbar sind, kann man sie auch semiotische Maschinen nennen.

      8. Knowbots sind also Computerprogramme, die, motiviert durch formale Strukturtheorien des menschlichen Bewußtseins, wichtige Analysewerkzeuge sind, sowohl Bewußtseinsprozesse als auch speziell semiotische Prozesse zu modellieren, zu untersuchen und zu testen.



  3. Skizze eines Rahmenmodells zur Gestenerkennung im Knowbot

    Da die theoretische Ausarbeitung zur Bewußtseinsstruktur der Knowbots in KIP II noch nicht abgeschlossen ist, kann hier nur eine erste, vorläufige Skizze dieser Strukturen gegeben werden.

    Die leitende Absicht ist dabei weniger, die technischen Details herauszustellen -die sich erfahrungsgemäß relativ häufig ändern-, sondern den prinzipiellen Charakter dieser Vorgehensweise zu veranschaulichen, um so die mögliche Relevanz der Knowbots für die Theoriebildung einer Klärung zuzuführen.

    Die folgenden Komponenten werden für eine Gestendekodierung als Teil einer allgemeinen Sprachfähigkeit angenommen:

    1. Adaptive sensorisch basierte Wahrnehmung

      • Es wird eine multimodale sensorische Wahrnehmung angenommen, deren konkrete Wertverläufe durch (i) Ereignisse einer vorausgesetzten künstlichen Modellwelt und (ii) durch Ereignisse in einem vorausgesetzen künstlichen Körper beeinflußt werden. In KIP II werden die physiologischen Strukturen und Prozesse als 'Black Box' betrachtet, die zunächst leer ist.

      • Relativ zum sensorischen 'Rohmaterial' ist die adaptive Konstruktion von Klassen und Relationen zwischen Klassen möglich.


    2. Adaptives Gedächtnis mit individuellen Objekt-Modellen

      Das Gedächtnis kann sehr unterschiedliche Konzepte, Relationen und Prozesse als dynamische Strukturen aufbauen. Insbesondere ist es in der Lage, individuelle Objekte zu modellieren.

    3. Dynamische Situationsrepräsentation

      Der Knowbot ist in der Lage, zu jedem Zeitpunkt eine räumliche Repräsentation seines eigenen Körpers und der anderen sinnlich erfahrbaren Körper aufzubauen. Dieses Grundmodell läßt sich mehrfach mit zusätzlichen Objektqualitäten, Relationen zwischen Objekten und Vorgängen 'überlagern'. Die Überlagerung geschieht durch Korrelation zwischen Situationselementen und 'anderweitigen' Modellbildungen. Wahrnehmungen und 'kognitive Prozesse' können die Situationsrepräsentation verändern.

    4. Adaptives Selbstmodell

      Im adaptiven Selbstmodell werden sämtliche Daten, die sich auf den Knowbotkörper beziehen lassen, zu einem kohärenten Modell zusammengefaßt. Dieser Prozeß unterliegt vielfältigen Beeinflussungen.

    5. Adaptives Fremdmodell

      Das Fremdmodell besteht aus einer Anwendung des Selbstmodells auf ein 'fremdes' Objekt unter Ausnutzung der Daten, die das Gedächtnis für dieses individuelle Objekt bereithält. D.h. der 'andere', das 'Du' ist eine Projektion des Selbstmodells auf ein fremdes Objekt.

    6. Weitere Subsysteme

      Es gibt zahlreiche weitere Subsysteme, die im Kontext von semiotischen Prozessen wirksam werden. Das wichtigste Subsystem ist z.B. jenes, das mit 'Bedürfnissen', 'Emotionen' und 'Gefühlen' zu tun hat.


  4. Es wird nun angenommen, daß 'Gesten' zunächst als sensorische Ereignisse auftreten, die sich als solche von anderen sensorischen Ereignissen unterscheiden und klassifizieren lassen.

  5. Mit Hilfe des dynamischen Situationsmodells wird der 'Gestenausdruck' dann als Teil einer Inter-Objekt-Beziehung lokalisiert.

  6. Die Inter-Objekt-Beziehung wird dann in Beziehung gesetzt zum aktuellen Selbst- und zum aktuellen Fremd-Modell. Gelingt es, die Inter-Objekt-Beziehung relativ zu den 'Intentionen' der beteiligten Objekte in irgendeiner Weise als 'Zeichenhandlung' zu klassifizieren, kann der Gestenausdruck im Hinblick auf eine 'mögliche Bedeutung' interpretiert werden.

  7. Sofern wenigstens eine mögliche Bedeutung gefunden werden kann, kann diese dekodierte Gestenbedeutung für weitere kognitive Prozesse benutzt werden.





Comments are welcomed to kip-ml@inm.de




INM



Daimlerstrasse 32, 60314 Frankfurt am Main, Deutschland. Tel +49- (0)69-941963-0, Tel-Gerd: +49- (0)69-941963-10