next up previous contents
Next: Literatur Up: No Title Previous: Software zur Unterstützung der

WEB-Crawler

Da das WWW eine enorme Anzahl von Ressourcen beherbergt und ihre Zahl ständig steigt, erweist sich das Auffinden gesuchter Informationen im WWW zunehmend schwieriger. Zu diesem Zweck existieren eine Vielzahl von Anwendungen bzw. Suchdiensten, die das Lokalisieren gesuchter Objekte und Informationen im WWW erleichtern sollen. Die den WWW-Suchdiensten zugrundeliegenden Programme werden auch als ,,Web-Crawler`` bezeichnet. Die Web-Crawler sind Suchmaschinen [Jun94b], die zur Suche nach Informationen zu bestimmeten Themengebieten verwendet werden können. Man kann dabei zwei Arten von Suchmaschinen unterscheiden.

Es existieren Suchmaschinen bei denen man ein Dokument oder einen Dienst selbst registrien muß oder der jeweilige Web-Crawler durchsucht ausgehend von einem Dokument das WWW und speichert Informationen zu weiteren Dokumenten, die während der Suche gefunden wurden. Die registrierten Dokumente sowie die Informationen zu gefundenen WWW-Dokumenten werden von dem Web-Crawler in einer lokalen Datenbank gespeichert, wo sie für Suchanfragen zur Verfügung stehen. Der Benutzer einer solchen Suchmaschine kann über eine Benutzerschnittstelle eine Anfrage an die Suchmaschine stellen und erhält als Ergebnis eine Liste aller Informationen, die zu dem von ihm eingegebenen Suchbegriffen in der Datenbank gefunden wurden. Beispiele für derartige Suchmaschine sind:

Neben den oben beschriebenen Web-Crawlern existieren auch Suchmaschinen, bei denen man Indexinformationen zu angebotenen WWW-Dokumenten und Diensten zur Verfügung stellen muß, die dann von der jeweiligen Suchmaschine gesammelt werden. Aus diesen Indexinformationen wird dann ein sog. ,,Master-Index`` aufgebaut, der als Grundlage für Suchanfragen von Benutzern verwendet wird. Im Gegensatz zu den oben beschriebenen Web-Crawlern durchsuchen diese Suchmaschinen das WWW nicht nach neuen Dokumenten. Ein Beispiel für eine derartige Suchmaschine ist ALIWEB, der unter http://web.nexor.co.uk/public/aliweb/aliweb.html erreichbar ist. Um einen angebotenen Dienst bzw. ein Dokument bei ALIWEB registrieren zu lassen, muß eine Index-Datei erstellt werden, die den Dienst bzw. das Dokument beschreibt. Für jeden Dienst und jedes Dokument ist ein eigener Eintrag in dieser Datei zu erstellen. Die Index-Datei kann dabei manuell oder automatisch durch ein entsprechendens Skript erstellt werden und muß einem speziellen Format [NEX94] entsprechen. Die Lokation der Index-Datei wird dann ALIWEB mit Hilfe eines Registrierungsformulars mitgeteilt. ALIWEB holt daraufhin regelmäßig diese Index-Datei und generiert daraus den sog. ,,Master Index`` aus den entsprechenden Indexinformationen. Die Aufnahme neuer Informationen in die ALIWEB-Datenbank erfolgt innerhalb eines Tages.

Soll die Indexdatei automatisch erstellt werden, kann dazu das Skript site-index.pl [Jun94a] verwendet werden. Damit dieses Skript die Datei mit den Index-Informationen erstellen kann, müssen die Indexinformationen zu jedem Dokument im Header des jeweiligen Dokuments aufgeführt werden. Es werden dazu die HTML-META-Sprachelemente verwendet. Soll beispielsweise die JAWA als WWW-Informationsdienst in die Indexdatei aufgenommen werden, muß der HTML-Header des JAWA-Eingabeformulars folgende META-Sprachelemente enthalten:

<META name="description" content="Jahreswagenb&ouml;rse der BMW AG"> 
<META name="keywords" content="Jahreswagen Jahreswagenboerse BMW">
<META name="resource-type" content="service"> \\
<META name="Admin-Handle" content="jawamaster@bmw.de">

Die verwendeten META-Informationen müssen zwischen den HTML-Elementen <HEAD> und </HEAD> eingefügt werden. Bei der Erstellung dieser META-Informationen ist zu beachten, daß bei dem META-Element keywords eventuelle Umlaute nicht in HTML-Schreibweise, sondern als ,,ae``, ,,oe``, usw., angegeben werden.

Um nun sicherzustellen, daß beispielsweise die JAWA als neuer WWW-Dienst von den einzelnen Web-Crawlern gefunden wird, muß die Anwendung bei den jeweiligen WWW-Suchdmaschinen registriert werden. Soll die JAWA außerdem im ALIWEB-Index aufgeführt werden, muß dazu, wie oben beschrieben, die entsprechende Index-Datei erstellt werden.


next up previous contents
Next: Literatur Up: No Title Previous: Software zur Unterstützung der
Root on HPHEGER0
8/27/1998