Information Architecture of the Internet, Search Engines, Ontologies, and Knowledge Agents (Knowbots)/ Informationsstruktur im Internet, Suchmaschinen, Ontologien und Wissensagenten (Knowbots)

Information Architecture of the Internet, Search Engines, Ontologies, and Knowledge Agents (Knowbots) Actual Information Architecture: The Ideology of the inevitable Chaos The Necessity of a Global Information Politics The rebellious Natur of Knowledge Explorations with Manual Ontologies A Thought Experiment with Automatic Ontologies Vision: The Epoch of the Knowledge Agents

Informationsstruktur im Internet, Suchmaschinen, Ontologien und Wissensagenten (Knowbots)

AUTHOR: Gerd Döben-Henisch
DATE OF FIRST GENERATION: Sept 8, 1997
DATE OF LAST CHANGE: Sept 17, 1997
ADDRESS: INM - Institute for New Media, Frankfurt, Germany
EMAIL: doeb@inm.de
URL: INM
Copyright (c) Gerd Döben-Henisch - INM Institut für Neue Medien - Frankfurt - Sept. 1997

Aktuelle Informationsstruktur: Die Ideologie vom unausweichlichen Chaos
Die Notwendigkeit einer globalen Informationspolitk
Die widerspenstige Natur des Wissens
Experimente mit manuellen Ontologien
Gedankenexperiment mit automatischen Ontologien
Vision: Die Epoche der Wissens-Agenten

Actual Information Architecture: The Ideology of the inevitable Chaos There are three types of participants: information producers, information distributors, information seekers. The relation between producers and distributors has no regular basis. For an information seeker is this situation unsatisfying: where to look? complete? up to date? serious? The actual worse situation is not inevitable. There exist concrete concepts how to improve the situation remarkably (see C.Mic Bowman, Peter B. DANZIG, Udi Manber, Michael F. Schwartz [1994]). We need an information politics. To state that the actual chaotic situation is inevitable has the taste of an ideology. OVERVIEW Aktuelle Informationsstruktur: Die Ideologie vom unausweichlichen Chaos

Die Informationsstruktur im Internet läßt sich auf drei Teilnehmertypen reduzieren: (1) Informations- bzw. Produktanbieter, (2) Informations- bzw. Produktsucher und (3) Informations- bzw. Produktverteiler.

Aktuell ist die Beziehung zwischen Anbieter und Verteiler nicht geregelt. Ein Anbieter weiß im Normalfall nicht, ob er von einem Verteiler abgefragt wird, wann dies geschieht, wie diese Abfrage strukturiert ist, wie die abgefragte Information organisiert wird und auf welche Weise die abgefragte Information indexiert wird. Für einen Anbieter stellt dies eine höchst unbefriedigende Situation dar.

Eine Folge von dieser ungeregelten Beziehung zwischen Anbieter und Verteiler ist neben unnötiger Netzbelastung unter anderem, daß der Informationssucher heute niemals weiß, wo er die Informationen suchen muß, nach der er sucht,ob die Informationen vollständig sind, die er bei einer Suche findet, wie aktuell diese Informationen sind und wie zuverlässig. Mit solchen Randbedingungen wird eine Informationssuche zum reinen Glücksspiel. Für die Zwecke der Unterhaltung mag solch ein Zufallsspiel ganz amüsant sein, für eine seriöse Urteilsbildung aber ist diese Situation unerträglich.

Nicht wenige teilen die Meinung, daß solch ein Informations-Chaos unausweichlich sei und führen als Argument die steigenden Teilnehmerzahlen ins Feld. Dies ist aber nur sehr bedingt richtig. Steigende Teilnehmerzahlen führen nur dann zum Chaos, wenn es keine Informationsarchitektur gibt, die dafür sorgt, daß die verfügbaren Informationen systematisch gesammelt, aufbereitet und verteilt werden. Konkrete Modelle für eine effiziente und globale Informationsarchitektur gibt es (siehe z.B. C.Mic Bowman, Peter B. DANZIG, Udi Manber, Michael F. Schwartz [1994]).

Was not tut ist eine dezidierte globale Informationspolitik, die als eine öffentliche Instanz dafür Sorge trägt, daß entsprechende Informationsarchitekturen eingerichtet werden.

Zu behaupten, daß das heute vorfindliche Chaos in irgendeinem Sinne unausweichlich sei, ist von daher als eine Ideologie zu identifizieren, hinter der konkrete Interessen stehen, die von diesem aktuellen Chaos profitieren. Auf der verständlichen Suche nach ein wenig Ordnung ist jeder mehr oder weniger gezwungen, die heutigen Informationsverteiler zu konsultieren. Deren Interessen decken sich aber nicht zwangsläufig mit dem globalen Interesse aller Anbieter noch notwendigerweise mit den Interessen der Informationssucher.

ÜBERSICHT

The Necessity of a Global Information Politics A global information politics has to integrate the partial regional interests. Every producer should have a real chance to feed all his information into the distribution, he wants to be distributed, and at the right time, with his indexing mode. An information seeker should be able to know where which information is how stored. OVERVIEW Die Notwendigkeit einer globalen Informationspolitk

Damit die Informationen und Produkte, die nahezu stündlich weltweit produziert werden, eine gleiche Chance haben, denen bekannt zu werden, die von ihnen Gebrauch machen können, bedarf es einer weltweit wirksamen Informationsarchitektur. Dies wird langfristig aber nur möglich sein, wenn die notgedrungen partikulären Interessen bestimmter Gruppen oder Regionen verbindlich in eine weltweite Informationspolitik eingebunden werden.

Im Idealfall müßte diese Informationspolitik daraufhin wirken, daß so viele Informationsverteiler eingerichtet werden, daß jeder potentielle Anbieter eine faire Chance hat, alle die Informationen in die Verteilung einzuspeisen, von denen er meint, daß sie aus seiner Sicht wichtig sind. Zusätzlich müßte der Anbieter die reelle Chance haben, aktuell bleiben zu können. Schließlich müßte er auch Einfluß darauf nehmen können, auf welche Weise seine Informationen indexiert werden.

Für potentielle Informations- und Produktsucher müßte Klarheit darüber herrschen, welche Informationen wie wo abgelegt sind. Weitere Qualitätskriterien wären wünschenswert.

Nur eine solche globale und transparente Informationspolitik, umgesetzt in eine entsprechende transparente globale Informationsarchitektur, kann eine verläßliche Basis für jede weiterführende Informationstechnologie bilden.

ÜBERSICHT

The rebellious Nature of Knowledge The success of the above mentioned information politics is necessay, but not sufficient for a really goot search result. The reason for this insufficieny is the structure of the human knowledge. If we e.g. are speaking, then it is not the physically measurable sound as such, which constitutes the meaning, but all the cognitive contents which we have learned to relate with this sound through numerous past situations. It are these active relations between the acustic expression and the intended contents which constitute the heart of meaning. Analogously this holds also for the case of music and videos. Thus today nobody is able to put the knowledge itself on a server. You can only use several conventionally learned knowledge representing elements to represent your knowledge. What these knowledge representing elements really mean is always depending from the active knowledge of those people which are using these representing elements in their communication. Therefore all the used representing and search methods today are very vague with respect to the knowledge which has to be communicated through representing elements. Since a long time have philosophers discussed this problem (see e.g. Stanley RICE [1997]Attribution and Context: The Bases of Information Retrievals (and 'Meaning')). Because the biological capacities of human persons will not change to much in the next years, we will need a technological solution to the problem of information processing in the human context. OVERVIEW Die widerspenstige Natur des Wissens

Die Realisierung einer transparenten globalen Informationsarchitektur bildet zwar eine notwendige Voraussetzung für jegliche weiterführende effektive Informationssuche, aber sie alleine kann mit den heute verfügbaren Indexierungstechniken kein vollständiges und zugleich sachgerechtes Suchergebnis garantieren. Dies ist prinzipiell gemeint!

Die Ursache für dieses Ungenügen der heutigen Indexierungsmethoden ist in der Struktur des menschlichen Wissens zu suchen. Wenn wir z.B. miteinander sprechen sind nicht nur die physikalisch meßbaren Schallwellen wichtig, sondern vor allem auch jene kognitiven Inhalte, die wir aufgrund von langjährigen Interaktionen mit der Welt und unserem eigenen Körper in uns aufgebaut haben und die wir im Laufe von Spracherwerbsprozessen gelernt haben, auf komplexe Weise mit bestimmten Sprachschallmustern zu verbinden. Es sind diese aktiven Verbindungen zwischen Ausdruck und kognitiven Inhalten, die für uns als Sprecher-Hörer das konstituieren, was wir Bedeutung nennen und was uns den Zugang zum Wissen eines anderen aufgrund von Sprache ermöglicht. In Analogie gilt das soeben für die Sprache Gesagte auch für Musik und Bilder. Musik ist für uns Menschen nicht nur der meßbare physikalische Schall, sondern besteht zugleich auch in den vielfältigen Einbindungen in wechselnde strukturelle Klassifikationen, sozialen Konnotationen und assoziierten Emotionen. Desgleichen die Bilder von Filmen und Videos.

Wenn heute jemand also sein Wissen auf einem Web-Server zur Verfügung stellen will, dann steht er vor einem Dilemma: er kann niemals sein Wissen selbst auf einer Web-Seite präsentieren, immer nur mögliche Repräsentanten seines Wissens (Schall, Bilder, Schriftzeichen ...), deren Bedeutung in keiner Weise objektiv und klar ist, sondern immer nur gegeben ist als aktives Wissen in den Köpfen von Menschen, die dieses Wissen zu bestimmten Zeiten, in bestimmten Kulturen, vermittelt durch eine Vielzahl von Situationen sukzessive und durchsetzt mit vielen Vagheiten aufgebaut haben.

Die heutigen Methoden, die darauf beruhen, die Repräsentanten von Wissen ohne Einbeziehung von aktivem Wissen rein durch die materialen Eigenschaften der Repräsentanten zu sichten und zu indexieren, kann man von daher nur als blindlings bezeichnen; ihre Erfolge sind entsprechend zufällig und sehr vage.

Wissen ohne direkte Einbeziehung von aktivem Wissen allein aufgrund seiner Repräsentanten rekonstruieren zu wollen, ist eine prinzipielle Unmöglichkeit (ein Thema was in der philosophischen Hermeneutik, in den Interpretationstheorien der Literaturwissenschaften und in der Sprachphilosophie schon seit mindestens 150 Jahren analysiert worden ist (siehe als kleine Einführung: Stanley RICE [1997]Attribution and Context: The Bases of Information Retrievals (and 'Meaning')).

Wenn es nicht gelingt, das Wissensproblem in den nächsten Jahren auf völlig neue Weise technologisch zu lösen, wird die Entwicklung der Computer und der Computernetzwerke aus der Sicht der Wissensverarbeitung zu einem Bumerang werden: immer mehr Wissen wird immer schneller produziert werden, aber die biologischen Kapazitäten der menschlichen Wissensagenten werden sich nicht mit der gleichen Geschwindigkeit erweitern. Die kommende Wissensvermehrung wird individuell zu einer Wissensverminderung führen. ÜBERSICHT

Explorations with Manual Ontologies Since some years people are starting experimenting with ontologies (see the yurvey Ontologies). An Ontology is here understood as a formal representation of some knowable structures. Consider e.g. an information producer which owns a departmentstore and he intends to present his products, e.g. CAR(a1) & PRIZE(a1,55000,US$) & TYPE(a1,Ford) GARAGE(g1) & PRIZE(g1,15000,US$) WHEELS({r1,...,r4}) & PRIZE({r1,...,r4},500,US$) & VTYPE({r1,...,r4},Ford) CAR(x) => RELATED(y,x) & GARAGE(y) GARAGE(x) => RELATED(y,x) & CAR(y) CAR(x) => RELATED(y,x) & WHEELS(y) WHEELS(x) => RELATED(y,x) & CAR(y) Asking for cars below 60000 US$ would not only yield the object a1 but would also bring in front the garage and the wheels which are functionally related to the car. Unfortunately such a formal ontology suffers the same central problem as all the other indexing methods today. The sign-sequences of the formal expressions have no meaning as such; if there is some meaning above then is this meaning borrowed from the everyday meaning of ordinary english. But this is to weak for a serious work. Someone who would understand english wouldn't understand anything. Under certain conditions a socalled ontology-server could help to manage the consistent usage of the sign-sequences in a group (see e.g. Stanford Ontology Server). For large groups of people speaking different languages with different cultural backgrounds and not clearly defined domains formal ontologies will hardly work. OVERVIEW

Experimente mit manuellen Ontologien

Seit einigen Jahren gibt es den Versuch, das ungelöste Problem der Wissensrepräsentation durch den Einsatz sogenannter Ontologien zu lösen (für eine Materialsammlung zum Thema siehe Ontologien).

Eine Ontologie wird hier verstanden als eine formale Darstellung von Wissenssachverhalten. Einfaches Beispiel: Ein Informationsanbieter besitzt ein Kaufhaus und will sein Warensortiment so darstellen, daß jeder sehr schnell und präzise anhand der Eigenschaften seiner Waren genau die Waren finden kann, die diese Eigenschaften haben, zusätzlich möglicherweise solche, die ähnlich sind bzw. solche, die in bestimmten funktionalen Beziehungen zueinander stehen. Angenommen zu seinem Sortiment gehört ein Auto a1 vom Typ Ford, das 55000 DM kostet, eine Garage g1 für 15000 DM, in die das Auto eingestellt werden kann, sowie Autoreifen r1,...,r4 für jeweils 500 DM für Autos vom Typ Ford. Eine mögliche formale Darstellung könnte dann z.B. so aussehen:

AUTO(a1) & PREIS(a1,55000,DM) & TYP(a1,Ford)
GARAGE(g1) & PREIS(g1,15000,DM)
AUTOREIFEN({r1,...,r4}) & PREIS({r1,...,r4},500,DM) & VTYP({r1,...,r4},Ford)
AUTO(x) => VON_INTERESSE(y,x) & GARAGE(y)
GARAGE(x) => VON_INTERESSE(y,x) & AUTO(y)
AUTO(x) => VON_INTERESSE(y,x) & AUTOREIFEN(y)
AUTOREIFEN(x) => VON_INTERESSE(y,x) & AUTO(y)

Wenn jetzt ein Informationssucher auf der Suche nach Autos unter 60000 DM fragen würde, dann würde zunächst das Objekt a1 gefunden werden, da es ein Auto repräsentiert und weniger als 60000 DM kostet. Mit dieser Antwort könnte man dann aber noch gezielt weiterfragen nach anderen Objekten, die mit Autos in einer funktionalen Beziehung stehen. Mit obigen Daten würde man z.B. erfahren (ohne daß man eigens danach fragen müßte), daß es noch eine Garage für 15000 DM gibt sowie Autoreifen für den Autotyp Ford zum Preis von 500 DM.

Verglichen mit den heutigen Suchmöglichkeiten in Web-Texten klingt dies sehr verlockend. Doch leidet diese Strategie an dem gleichen Problem wie die heutigen ausdrucksorientierten Indexierungsmethoden.

Jede Ontologie stellt in ihrer Formalisierung eine Zeichenkette dar, die als solche keinerlei Beziehung zu irgendeinem aktiven Wissen aufweist! Wenn im obigen Beispiel z.B. die Zeichenkette 'AUTO()' verwendet wurde, dann funktioniert eine Verwendung in diesem Beispiel nur deshalb, weil diese Zeichenkette Ähnlichkeiten mit einem Ausdruck ('Auto') der aktuellen deutschen Sprache aufweist und der Ausdruck 'Auto' bei Sprechern des Deutschen mit bestimmten Bedeutungsinhalten verknüpft ist. M.a.W. der formale Ausdruck AUTO() borgt sich gleichsam Bedeutung aufgrund der Ähnlichkeit mit alltagssprachlichen Ausdrücken. Würde jemand den Ausdruck 'AUTO()' lesen, der des Deutschen nicht mächtig ist, dann würde dieses Spiel nicht funtkionieren. In diesem Fall wären es irgendwelche Zeichen, deren Bedeutung zunächst zu bestimmen wären. Andererseits, selbst für einen Sprecher des Deutschen eröffnen sich mit solchen Formalisierungen Probleme, da die Formalisierungen praktisch nie den tatsächlichen Sprachgebrauch voll nachbilden können. Dies wird sofort deutlich, wenn viele verschiedene Menschen an verschiedenen Orten damit beginnen, bestimmte Wirklichkeitsausschnitte in eine gemeinsame Ontologie abzubilden.

Eine gewisse Abhilfe können dann gemeinsame Wörterbücher bzw. gemeinsame Ontologieserver bieten (siehe z.B. Stanford Ontology Server). Wenn eine bestimmte Benutzergruppe einen gemeinsamen Ontologieserver benutzt, dann kann jeder Teilnehmer, bevor er seine neuen Formulierungen eingibt, vorher nachprüfen, welche Formulierungen bisher benutzt wurden bzw. ob es zu seinem Thema vielleicht schon etwas gibt.

Für kleinere Gruppen und einigermaßen überschaubare Gebiete, vor allem auch solche, die sowieso formalisiert werden, mag der Einsatz manueller Ontologien funktionieren. Mit großen Teilnehmerzahlen aus verschiedenen Sprach- und Kulturkontexten und einem nicht klar abgegrenzten Gegenstandsbereich wird dieses Verfahren ungangbar. Es kommt erschwerend hinzu, daß alle diese Formalisierungen manuell eingegeben werden müssen. Der Aufwand ist immens. Und das sich die Wirklichkeit, die mittels solcher Ontologien beschrieben werden soll, beständig ändert, muß das jeweils schon formalisierte Wissen immer wieder neu überarbeitet werden. Eine gigantische Aufgabe.

Der Autor vertritt die Auffassung, daß die Strategie der manuellen Ontologien keine wirkliche Lösung für die Zukunft verspricht; ein Nutzen für spezielle Kontexte soll nicht ausgeschlossen werden. ÜBERSICHT

A Thought Experiment with Automatic Ontologies Let us think which conditions should be fullfilled to realize an automated construction of ontologies. The heart of the problem is a technological counterpart of the active relations which constitute in human agents the meaning of expressions and articulations. And these relations have to be set up dynamically. Now if such artificial knowledge agents would have been realized, the following situation could become real: a producer speaks with his nonhuman agent (:= knowbot), he/she automatically translates this sound into his/her internal formal structures (hiher knowledge!), and then the producer knowbot sends these generated structures as a file to a central knowledge server. Independently an information seeker can also talk with with his nonhuman agent (:= knowbot), he/she also automatically translates this sound into his/her internal formal structures (his knowledge!), and then the seeker knowbot too sends these generated structures as a file to a central knowledge server. The knowledge server compares the questioning structures with the already known structures and generates an answer. The seeker knowbot receives this answer and can translate it into normal speech. The decisive point here is that the formal structures which are communicated between the knowbots and the knowledge server are not only representations of knowledge but the knowledge itself! With such a technology could everybody speek in his own language and everybody would understand him. OVERVIEW Ein Gedankenexperiment mit automatischen Ontologien

Es stellt sich die Frage, ob es für das Problem einer Automatisierung der Wissensrepräsentation und der Wissensrekonstrukion aufgrund von Wissensrepräsentationen überhaupt eine automatisierte technische Lösung geben kann.

Eine Antwort ergibt sich aus den Bedingungen, die erfüllt sein müssen, damit solche eine Automatisierung möglich würde.

Wenn das zentrale Problem der Automatisierung von Wissen der Zugriff auf jene aktiven Beziehungen in einem menschlichen Wissensagenten sind, die sich durch Lernprozesse zwischen dynamischen kognitiven Strukturen und Ausdrucksstrukturen aufbauen, dann wird eine technische Lösung langfristig nur darin bestehen können, daß es gelingt, diejenigen Strukturen menschlicher Wissensverarbeitung technisch nachzubilden, die für den dynamischen Aufbau eben jener aktiven Verbindungen verantwortlich sind. Nichtmenschliche Wissensagenten müßten also in der Lage sein wie Menschen, durch Interaktion mit der Umwelt und ihrem eigenen Körper nicht nur dynamische kognitive Strukturen aufzubauen, sondern auch wechselwirkende Ausdrucksstrukturen.

Angenommen, dies wäre möglich, ergäbe sich folgendes Szenario: ein Informationsanbieter erzählt einem nichtmenschlichen Wissens-Agenten (:= Knowbot) in normaler Sprache alles das, was er an Inhalten anbieten will. Da dieser Knowbot nach Voraussetzung die aktiven Wissensbeziehungen seines Gesprächspartners nachbilden konnte, kann dieser Knowbot automatisch die gesprochene Sprache in die entsprechenden formalen Strukturen abbilden. Diese packt er automatisch in eine Datei und schickt sie zum zuständigen Wissens-Server. Dort werden diese Strukturen mit den vorhandenen verglichen und automatisch integriert. Das gesamte Wissen des wissens-Server bildet eine einzige große Ontologie bzw. ein einziges großes Netzwerk von Konzepten und Axiomen. Unabhängig vom Informationsproduzenten will jetzt ein Informationssucher bestimmte Dinge suchen. Der Informationssucher spricht in seiner Sprache mit einem nichtmenschlichen Wissens-Agenten (:= Knowbot). Da auch dieser nach Voraussetzung die aktiven Wissensbeziehungen seines Gesprächspartners nachbilden konnte, kann auch dieser Knowbot automatisch die gesprochene Sprache in entsprechende formale Strukturen abbilden. Diese packt er automatisch in eine Datei und schickt sie zum zuständigen Wissens-Server. Der Wissens-Server vergleicht diese Strukturen mit den vorhandenen und findet zwangsläufig alle ähnlichen und funktional zugehörigen Konzepte. Diese schickt er dem Sucher-Knowbot zurück. Der Sucher-Knowbot empfängt diese Strukturen und übersetzt diese aufgrund seiner aktiven Beziehungen in die entsprechenden sprachlichen Ausdrücke und spricht auf diese Weise mit dem Sucher.

Der entscheidende Punkt an diesem Gedankenexperiment ist, daß die formalen Strukturen, die sowohl der Anbieter-Knowbot als auch der Sucher-Knowbot erzeugen, nicht irgendwelche Repräsentationen von Wissen sind, sondern das Wissen selbst!

In einem solchen hypothetischen Szenario wäre das Wissen der Menschen tatsächlich weltweit verfügbar und kommunizierbar. Nebenbei wäre das Problem der vielen verschiedenen Sprache gelöst. Jeder könnte in seiner eigenen Sprache reden und doch würde jeder andere ihn ganz normal verstehen. Erst jetzt bestände die reale Möglichkeit einer einen Menschheit in Vielheit. ÜBERSICHT

Vision: The Epoch of the Knowledge Agents If there exists a solution to this problem, it will be found. How probable is such a solution? Are we here dealing with science or with fiction? The opinion of the author is, that the problem is principially solvable. The other parts of this guide and the related papers show you why this opinion is a sound opinion. OVERVIEW Vision: Die Epoche der Wissens-Agenten

Da die Abhängigkeit der Industrie- und Informationsgesellschaften von Informationen so substantiell geworden ist, daß ein Mißlingen der Automatisierung von Wissens-Verarbeitung zur Paralyse ihrer Teilnehmer führen würde, darf man wohl annehmen, daß die Automatisierung von Wissen, wenn sie überhaupt möglich ist, stattfinden wird. Außerdem hätte jene Gruppe, die dieses Problem erstmalig lösen würde, einen solch ungeheuren Wettbewerbsvorteil in den meisten Lebensbereichen, daß zudem auch der wirtschaftlich-politische-militärische Anreiz sehr groß ist, dieses Problem als erster zu lösen.

Es stellt sich dann die Frage, wie realistisch ist die Annahme einer prinzipiellen Lösbarkeit des Problems? Geht es hier um Science oder um Fiction?

An dieser Stelle soll nur soviel festgestellt werden, daß aus Sicht des Autors als prinzipiell lösbar anzusehen ist. Die weiteren Ausführungen der Führung durch das Thema sowie die anderen Artikel auf diesem Server sollen verdeutlichen, daß diese Annahme Sinn macht und wie solch eine Lösung konkret aussehen kann. ÜBERSICHT