next up previous contents
Next: 2.1.2 Indizierung Up: 2.1 Roboterbasierte Suchmaschinen Previous: 2.1 Roboterbasierte Suchmaschinen

2.1.1 Datensuche

Der Roboter durchsucht in regelmäßigen Abständen die angegebenen WWW-Server, deren Dokumente indiziert werden sollen. Normalerweise gibt der Administrator eine Start-Seite an, bei der der Roboter mit seiner Suche beginnen soll. Von hier aus verfolgt er alle Links zu anderen Seiten und von dort wieder weiter, bis er das komplette Intranet durchsucht hat. Hierbei werden auch die Links verfolgt, die nicht auf den selben WWW-Server zeigen. Um die Suche auf bestimmte WWW-Server im Intranet einzuschränken, kann der Administrator festlegen, welche WWW-Server durchsucht werden sollen. in Intranet kann als gerichteter Graph abstrahiert werden. Die Dokumente sind die Knoten und die Links von einer auf eine andere Seite die Kanten. Die Ausnahme bildet nur der Hyper Wave Server, der bidirektionale Links verwendet. Wegen der Abstraktion kann man die Suchstrategien aus der Graphentheorie anwenden. Bei folgenden zwei Verfahren ist sichergestellt, daß alle referenzierten Seiten gefunden werden und Zyklen erkannt werden. Oft haben die Roboter auch noch eine ,,Notbremse`` eingebaut, die dafür sorgt, daß die Suche nach einer gewissen Anzahl von durchsuchten Seiten abbricht.
  
Abbildung 2.4: Breitensuche
5#5

Die Suchstrategie entscheidet, welche Seiten zuerst gefunden werden. Da in einem Intranet aber erwartet wird, daß die ausgewählten Rechner vollständig durchsucht und alle Informationen gefunden werden, ist die Suchstrategie nur für die Reihenfolge verantwortlich, in der die Informationen gefunden werden.

Leider kann man in der Regel nicht in Erfahrung bringen, wie lange es dauert, bis eine neu erstellte Seite von dem Roboter gefunden wird. Da dies aber nie sofort sein kann, ist der Datenbestand immer etwas veraltet. Der Administrator kann festlegen, welche Rechner durchsucht werden sollen. Oft werden alle WWW-Server im Intranet und ein paar ausgewählte Internet-Server durchsucht. Es können aber auch andere Rechner innerhalb des Intranets durchsucht werden, wenn deren Filesysteme allgemein verfügbar sind. Dieser Vorgang kann dann ausgeführt werden, wenn die Netzlast am geringsten ist. Es muß nur sichergestellt sein, daß alle Server, die durchsucht werden sollen, immer aktiv sind. Da ein WWW-Server aber immer erreichbar sein sollte, ist dieser Nachteil nur bei Workstations gewichtig, die sonst abgeschaltet werden.


next up previous contents
Next: 2.1.2 Indizierung Up: 2.1 Roboterbasierte Suchmaschinen Previous: 2.1 Roboterbasierte Suchmaschinen
Copyright Munich Network Management Team