2.1.2 Indizierung

Next: 2.1.3 User-Interface Up: 2.1 Roboterbasierte Suchmaschinen Previous: 2.1.1 Datensuche

2.1.2 Indizierung

Wurde eine Seite gefunden, so muß sie nach den wichtigen Begriffen durchsucht werden, und diese werden dann indiziert in einer Datenbank abgelegt. Sollen auch nicht HTML-Dokumente durchsucht werden, müssen auch diese indiziert werden. Dies ist nicht so einfach, da vor der Indizierung die Dateien erst Datei konvertiert werden müssen. So muß z.B. ein PostScript-Dokument oder eine WORD-Datei in einen Text-Datei umgewandelt werden. Es ist daher wichtig, das der Hersteller gute Konverter mit seinem Produkt mitliefert.
Es ist nicht einfach, alle wichtigen Wörter zu erfassen und gleichzeitig den Datenbestand möglichst gering zu halten. Am wichtigsten sind die Daten aus Titel und den Überschriften. Um aber eine gute Volltextrecherche machen zu können, müssen sämtliche Wörter indiziert werden. Daher ist es sehr wichtig, daß die Suchmaschine nicht nach ein paar Zeilen abbricht und den Rest des Textes für unwichtig erachtet. Die meisten Suchmaschinen entfernen aus Speicherplatzgründen zuerst alle Füllwörter wie ,,der``, ,,die``, ,,das``, ,,es``, ... Hier tritt aber die Schwierigkeit auf, daß verschiedene Sprachen auch verschiedene Füllwörter enthalten. So wird eine englische Suchmaschine Wörter wie ,,the`` und ,,a`` entfernen, eine deutsche Suchmaschine aber ,,das`` und ,,ein``. Manche Suchmaschinen umgehen das Problem, indem sie keine Wörter entfernen und alle in den Index aufnehmen. Bei Weglassen von Wörtern ergibt sich als weitere Problematik, daß dann eine Suche nach diesen Wörtern, aber auch nach Prasen, in denen diese Wörter vorkommen, nicht mehr möglich ist. Textstücke wie ,,to be or not to be`` würden nicht gefunden werden. Am besten wäre daher eine semantische Analyes des Textes. Damit könnten Begriffe aus dem Index entfernt werden, die zwar im Text vorhanden sind, inhaltlich aber nichts mit dem Artikel zu tun haben. Dies ist aber bei den heutigen Suchmaschinen noch nicht möglich. Kommt ein Wort auf sehr vielen Seiten vor, hat es fast keinen Informationsgehalt mehr.

Next: 2.1.3 User-Interface Up: 2.1 Roboterbasierte Suchmaschinen Previous: 2.1.1 Datensuche