Überblick zu Spezielle Suchmaschinen, Ontologien und Knowbots


AUTHOR: Gerd Döben-Henisch
DATE OF FIRST GENERATION: August 12, 1997
DATE OF LAST CHANGE: September 5, 1997
ADDRESS: INM - Institute for New Media, Frankfurt, Germany
EMAIL: doeb@inm.de
URL: INM
Copyright (c) Gerd Döben-Henisch - INM Institut für Neue Medien - Frankfurt - Sept. 1997

Überblick
  1. Was sind Knowbots?
  2. Was haben Knowbots mit Suchmaschinen zu tun?
  3. Forderungen an einen idealen Suchdienst
  4. Generelle Rahmenbedingungen für Suchdienste
  5. Verschiedene Bewertungskriterien
  6. Methoden der Indexierung und ihre Gewichtung (inklusive Spezialüberblick 'Ontologien')
  7. Die spezielle Rolle der Knowbots
  8. Ausblick
  9. Literatur


(1) Was sind Knowbots?
Bei den Knowbots des INM handelt es sich um ein Forschungskonzept, dessen primäre Zielrichtung der Einsatz von Knowbots als sprachlernende Programme ist. Ein mögliches Anwendungsgebiet von Knowbots wären spezielle bedeutungssensitive Suchmaschinen.

Aus Anwendungssicht stellt ein (INM-)Knowbot ein sprachlernendes Computerprogramm dar, das relativ zu einer definierten (virtuellen) Umgebung in der Lage ist, mit Hilfe eines Trainers alle die sprachlichen Beschreibungen zu lernen, die auch ein Mensch lernen kann. Sämtliche gelernten sprachlichen Beschreibungen können dann zur sprachlichen Kommunikation mit dem Knowbot benutzt werden.

Aus theoretischer Sicht bilden Knowbots neuartige Instrumente, um Theorien über das menschliche Erleben -langfristig in Wechselwirkung mit Theorien über die zugrundeliegende Physiologie- zu entwickeln, zu illustrieren und zu testen.
Literatur:

Artikel zu Knowbots
Theoretischer Rahmen zu Knowbots

Overview


(2) Was haben Knowbots mit Suchmaschinen zu tun?
Mit dem rapiden Zuwachs der im World Wide Web angebotenen Informationen wird das 'Auffinden' von Informationen mehr und mehr zu der zentralen strategischen Frage des Web schlechthin. Informationsangebote, die man nicht gezielt finden kann, existieren aus der Sicht der Benutzer nicht. Die bisherigen Suchdienste können die Forderungen wie die nach Vertrauenswürdigkeit, Vollständigkeit, Aktualität, Genauigkeit, Schnelligkeit sowie Kostenökonomie von Suchantworten nur bedingt erfüllen. Neben Überlegungen zur Architektur der Informationsverarbeitung im Web ist es vor allem die Frage nach der Möglichkeit der Repräsentation und dem Handling der 'Bedeutung' von Texten, Bildern und Tönen, die über das erfolgreiche Gelingen einer Anfrage entscheiden. An dieser Stelle spielen sogenannte 'Ontologien' eine zentrale Rolle. Ontologien sind formale Strukturen, mittels denen die potentielle 'Bedeutung' eines Informationsobjektes repräsentiert werden kann. Für die automatische Erstellung sowie für die automatische Nutzung solcher Ontologien könnten die Knowbots aus dem INM möglicherweise einen zentralen Beitrag leisten.

Overview


(3) Forderungen an einen idealen Suchdienst
Vertrauenswürdig
  • Wer garantiert die Gültigkeit der Informationen?
  • Wieweit sind die Methoden der Informationsbschaffung transparent?
Vollständig
  • Wer garantiert die Vollständigkeit der Informationen?
Aktuell
  • Wer garantiert die Aktualität der Informationen?
  • Wie groß ist das Datenaufkommen und der Rechenaufwand bei Updates?
Zutreffend
  • Wer garantiert das Zutreffen der Informationen?
  • Wieweit sind die Merkmale der zu suchenden Information repräsentierbar und auffindbar?
Schnell
  • Welche Netzarchitekturen garantieren die hinreichende Schnelligkeit der Informationen?
Preiswert
  • Welche Kosten sind mit den verschiedenen Architekturen verbunden?


Overview


(4) Generelle Rahmenbedingungen für Suchdienste
  1. Generell ist zu unterscheiden zwischen Informationsanbietern (INFORMATION-PROVIDER, IP), Informationsverteilern (INFORMATION-DISTRIBUTOR, ID) und Informationskonsumenten (INFORMATION-CLIENTS, IC).

  2. Ein Informationsverteiler versucht von Informationsanbietern Informationen zu sammeln/ zu gewinnen (INFORMATION-GATHERING, IGATHERING):
    IGATHERING(ID,IP).

  3. Für Informationssuchende versucht ein Informationsverteiler die gesammelten Informationen anzubieten, zu verteilen (INFORMATION-DISPERSION, IDISPERSION):
    IDISPERSION(ID,IC).

  4. Informationssammlung kann völlig serverseitig geschehen (SERVER-DRIVEN) oder kann weitgehend vom Informationsanbieter vorgenommen werden (SOURCE-DRIVEN).

  5. Während dem Sammeln von Informationen müssen u.a. folgende Aufgaben gelöst werden: das Erkennen von relevanten Dateinamen, das Erkennen von relevanten Deskriptoren und Links, von Doubletten, Link-Zirkeln, das Erkennen der Autoren von Informationen, der Entstehungszeit, letzter Änderungen, der Art der Objeke (Textformate, Grafikformate, Audioformate, Videoformate), die Dekodierung von Formaten, die Erfassung von relevanten Eigenschaften, die neuerliche Dekodierung usw.

  6. Im Rahmen der Informationssammlung muß der Informationsverteiler die gesammelte Information speichern (STORE), innerhalb eines logischen Konzeptes organisieren (ORGANIZE), muß die Information effizient indexieren (INDEXING) und muß in der Lage sein, notwendige Updates gezielt und schnell vornehmen zu können (UPDATES).

  7. Die Informationsverteilung kann Replikatoren (REPLICATION) beinhalten, die die gesammelte Information auf viele andere lokale Server verteilt, kann mit CACHING arbeiten (angefragte Objekte bleiben eine zeitlang aktiv verfügbar), und sie kann die angeschlossenen Server intelligent machen (SELF-INSTRUMENTED), damit sie selbständig die optimalen Informationswege suchen.

  8. Informationskonsumenten, die Informationen suchen, können dies entweder durch BROWSEN tun, durch eine Informationssuche (INFORMATION-RETRIEVAL), oder mittels eines SEARCH-BOTS.


Literatur:

C.Mic Bowman, Peter B. DANZIG, Udi Manber, Michael F. Schwartz [1994]

Overview


(5) Verschiedene Bewertungskriterien
Serverseitige Sammlung von Information
  • Induziert eine hohe Netzlast (ungünstige Kosten für Anbieter)
  • besitzt nur eine geringe Genauigkeit bzgl. Klassifikation und Indexierung
  • notorisch verzögerte Aktualität
  • ist notorisch unvollständig
  • erlaubt kaum Inferenz
  • nur bedingte Vertrauenswürdigkeit
Sourceseitige Sammlung von Information
  • erlaubt minimale Netzlast (minimale Kosten für Informationsanbieter)
  • erlaubt maximale Genauigkeit
  • erlaubt maximale Aktualität
  • kann vollständig sein
  • ermöglicht weitgehende Inferenzen
  • kann ein Anker für Vertrauenswürdigkeit sein
Informationsverteilung ohne Replikation, Caching und Server-Intelligenz
  • Impliziert längere Wartezeiten für den Konsumenten (Höhere Kosten)
Informationsverteilung mit Replikation, Caching und Server-Intelligenz
  • Impliziert kürzere Wartezeiten für den Konsumenten (Niedrigere Kosten)
Informationssuche durch Browsing
  • Nur für kleinere Informationsmengen geeignet.
Informationssuche mittels kooperativer nichtverstehender Search-Bots
  • hohe Netzlast und hohe Last für Anbieter
  • lange Antwortzeiten
  • nicht vollständig
Informationssuche mittels Datensuche über Server mit Replikation usw.
  • minimale Netzlast für Konsument und Verteiler
  • kürzestmögliche Antwortzeiten
  • kann nahezu vollständig sein
  • kann Inferenzen beinhalten
  • kann maximale Genauigkeit besitzen


Overview


(6) Methoden der Indexierung und ihre Gewichtung
(4.1) Indexierung von Daten I: Datenindizes als Pattern
(4.2) Indexierung von Daten II: Manuelle Ontologien
(4.3) Indexierung von Daten III: Automatische Ontologien


Overview


(6.1) Indexierung von Daten I: Datenindizes als Pattern
Das 'klassische' und bis heute sicher am meisten genutzte Konzept der Indizierung einer Datenbasis bildet das 'Pattern-Modell': mittels quantitativer und statistischer Methoden werden formale Eigenschaften der Datenobjekte automatisch in den Index I des Informationsverteilers abgebildet. Entsprechend wird die Anfrage des Benutzers als ein Pattern aufgefaßt, das in die Merkmalsmenge des Indexes abgebildet wird.

Vorteil: Völlig automatisches Verfahren; sehr schnell; erfaßt alle Objektmerkmale, sofern sie sich in der Objektrepräsentation niederschlagen.

Problem: Im Falle von symbolischen Darstellungen (Texten, gesprochener Sprache,...) gibt es keinen direkten Zusammenhang von Objektdarstellung und kodierten Inhalten. Dadurch ist diese Art von Indizierung für symbolisches Material sehr grob und fehleranfällig. Die Möglichkeit, diese Art von Suche durch Lexika, Grammatiken sowie Schlüssel-Wörter zu verbessern, ist prinzipiell begrenzt.

Literatur:

Overview


(6.2) Indexierung von Daten II: Manuelle Ontologien
Eine Strategie, das Fehlen eines Inhaltsbezuges im Falle von symbolischen Objekten auszugleichen, besteht in der manuellen Bereitstellung diverser 'Ontologien'. Dies sind Datenstrukturen, die stellvertretend für jene 'Inhalte' 'auftreten', die im Falle symbolischer (sprachlicher) Systeme den Symbolen ihre 'Bedeutung' verleihen.

Vorteil: Bei der Auswertung einer Benutzeranfrage kann die symbolische Oberfläche einer Anfrage durch bedeutungsrelevante inhaltliche Merkmale ergänzt und damit präzisiert werden.

Problem: Die Bereitstellung von 'Pseudo-Inhalten' ist sehr arbeitsintensiv und schwer normierbar; eine automatische Übersetzung von natürlichsprachlichen Ausdrücken in konzeptuelle Graphen ist bislang nur in Ansätzen gelöst und ist aufgrund der natürlichen Komplexität und der Dynamik sprachlicher Bedeutungsstrukturen prinzipiell auf künstliche Teilausschnitte einer Sprache beschränkt.

Overview


(6.3) Indexierung von Daten III: Automatische Ontologien
Automatische Generierung von Ontologien und deren Verbindungen zu Texten, Tönen und Bildern.

Vorteil: Die Automatisierung in der Generierung der Ontologie stellt alle Ontologien auf eine gleiche Grundlage. Der Aufbau einer hinreichend umfassenden Ontologie ist prinzipiell möglich. Die Kluft zwischen bedeutungsrepräsentierendem Symbol und dem die Bedeutung konstituierenden Inhalt ist prinzipiell überwunden. Die Suche nach bedeutungsbehafteten Objekten gewinnt eine neue Qualität. Einmal erworbenes Wissen kann einfach durch Kopieren vervielfältigt werden.

Problem: Die Bereitstellung hinreichend differenzierter (Lern-)Umgebungen sowie das erste Training sind zu Beginn sehr aufwendig.

Overview


(7) Die spezielle Rolle der Knowbots
Ein Knowbot repräsentiert das Konzept einer Ontologie, die völlig automatisch generiert wird. Dies resultiert daraus, daß im Knowbot zwei Lernprinzipien interagieren: (1) Eine adaptive Konzeptualisierung generiert auf der Basis einer Welt- und Selbstwahrnehmung ein dynamisches Netzwerk von Konzepten, die das Weltwissen des Knowbots darstellen. (2) Ein adaptives Sprachmodul lernt umweltabhängig sprachliche Ausdrücke (2.1) zu artikulieren und (2.2) mit Konzept-Wissen zu koordinieren. Durch diese Koordination gewinnen die sprachlichen Ausdrücke 'Bedeutung' und die konzeptuelle Struktur wird zu einer 'Ontologie'.

Overview


(8) Ausblick
  1. Wachsendes Gewicht von Qualitätsstandards und Datentransparenz.

  2. Verschiebung der Informationssammlung weg vom Server hin zum Informationsanbieter.

  3. Verschiebung weg vom Einzelanbieter hin zu einem Netzwerk von intelligenten Informationsservern.

  4. Tendenz zur Vereinheitlichung der benutzten Ontologien; Einrichtung von Ontologie-Servern.

  5. Beschränkung von Agenten auf lokale Einsatzgebiete und menschenähnliches Verstehen und Kommunizieren.

  6. Knowbots mit differenzierten selbstgenerierten Ontologien als Mittler zwischen Informationskonsument und ontologischen Deskriptoren der Informationsverteiler.

  7. Knowbots mit differenzierten selbstgenerierten Ontologien als Helfer bei der automatischen Generierung von ontologischen Deskriptoren für die Informationsanbieter



Overview


(8) Literatur
HTML

Overview