next up previous contents
Next: Überprüfung der Ressourcen-Auslastung Up: Leistungsmanagement Previous: DNS-Look-Ups

Analyse der Log-Dateien

Die Analyse der AccessLog-Datei kann nach unterschiedlichen Gesichtspunkten erfolgen. Über jede Art der zur Verfügung stehenden Daten können je nach Bedarf und Anwendungsfeld entsprechende Statistiken geführt werden. Um einen Web-Server kontinuierlich zu überwachen und ein aktuelles Bild über seine Auslastung zu haben, ist die Einrichtung von Zählern ein hilfreiches und notwendiges Werkzeug. Durch ständiges Aktualisieren der Zählerwerte kann eine aktuelle Übersicht darüber erhalten werden, wie stark der Server und dessen Ressourcen ausgelastet sind. Je nach Bedürfnissen und Vorlieben werden von den Systemadministratoren oder den Inhalte-Anbietern bestimmte Zähler bevorzugt. Anschließend sollen einige Beispielszenarien erläutert werden, wobei kein Anspruch auf Vollständigkeit erhoben wird.

Einen Systemadministrator interessieren sicherlich Daten über die Auslastung und Performance des Servers mehr, wohingegen ein Inhalte-Anbieter eher daran interessiert ist, welche Dokumente am häufigsten abgerufen werden, von welchen Domänen die meisten Anfragen kommen usw.

Daten über die Auslastung des Servers können anhand der folgenden Informationen aus der AccessLog-Datei gewonnen werden:

Ein Zähler über die Gesamtanzahl der Einträge in der Log-Datei gibt einen groben Überblick über den Arbeitsaufwand und die Auslastung des Servers. Anhand der Datum- und Zeitangaben aus der AccessLog-Datei können zeitbezogene Statistiken erstellt werden. Zähler können so konfiguriert werden, daß sie Aufschluß darüber geben, wie viele Anfragen z.B. in einer Stunde ankamen, an einem Tag oder in einem Monat. Angaben über die Zeit, die der Server zum Bearbeiten einer Anfrage gebraucht hat, können je nach Bedarf entweder einzeln oder für mehrere Anfragen über bestimmte Zeitintervalle untersucht und analysiert werden. So kann beobachtet werden, wann der Server am meisten ausgelastet ist und zur Bearbeitung der Anfragen mehr Zeit benötigt als in ruhigeren Zeiten. Richtet man Zähler ein, die eine Übersicht über die Häufigkeit der HTTP Status Codes geben, so kann man gut erkennen, wie viele Anfragen der Server erfolgreich bearbeitet hat, wie viele fehlgeschlagen sind oder wie viele Anfragen umgeleitet wurden, je nach Wert und Bedeutung des Status Codes. Die Anzahl der übertragenen Bytes gibt Aufschluß über die Menge der verschickten Daten und kann dazu verwendet werden, um den Anteil des Web-Servers am Gesamt-Verkehrsaufkommen der Daten im gesamten System zu ermitteln.

Einige nützliche Zähler, die Aufschluß über die Auslastung des Servers geben können, sind folgende:

Informationen darüber, welche Dateien am meisten abgerufen wurden und von welchen Domänen oder Benutzern die meisten Zugriffe erfolgten, geben folgende Daten in der AccessLog-Datei:

Wird von Inhalte-Anbietern eine Statistik über die zugreifenden Hosts verlangt, so können verschiedene Zähler vorteilhaft sein. Es kann ein Zähler eingerichtet werden für jeden Host und dessen Gesamtanzahl an Zugriffen. Andererseits wäre eine Statistik über die Top-Level-Domains, aus denen die Zugriffe erfolgen, von großem Vorteil für Anbieter, die sich dafür interessieren, aus welchen Ländern die meisten Anfragen kommen. Dadurch könnten sie beispielsweise ihre Inhalte an die jeweilige Landessprache anpassen. Allerdings ist zu dieser Art der Zugriffsstatistiken noch anzumerken, daß sie nicht hundertprozentig aussagekräftig sind, da Clients auch auf Umwegen Zugriffe über Proxies starten, die manche oder alle angeforderten Dateien im Cache haben und somit keinen neuen Zugriff an den eigentlichen Server schicken. Diese Anzahl der Zugriffe geht dem eigentlichen Server, der die Dateien anbietet, für seine Statistik verloren. Außerdem werden in den Fällen, in denen ein Proxy auf Dateien zugreift, der Name und die Domäne des Proxy-Servers als zugreifender Host vermerkt, so daß hier auch keine getreuen Angaben über den Ursprung der Anfragen zu erzielen sind.

Spezielle Statistiken über den Login- oder Benutzernamen der zugreifenden Benutzer sind schwierig zu erstellen, da der Client diese Information nur in seltenen Fällen mitschickt. Eine Möglichkeit, das Nutzerverhalten zu analysieren, ist das Anwenden von Cookies. Cookies sind kleine Stückchen Information, die der vom Benutzer verwendete Client im Auftrag des Web-Servers zunächst im Speicher des Client-Rechners festhält und unter Umständen bei Verlassen des Clients in eine Datei schreibt. Der Server kann nicht, wie es teilweise in der Literatur ungenau formuliert wird, selber auf die Platte des Benutzers schreiben. Da dieses Schreiben also vom Web-Server initiiert wird, kann er auch nur schreiben (lassen), was er sowieso schon weiß. Das können z.B. Daten sein, die ein Benutzer beim Ausfüllen eines Formulars in den entsprechenden Feldern einträgt. Falls der Kunde diese Daten für das Ausfüllen eines weiteren Formulars benötigt, so kann eine erneute Angabe dieser Daten durch Verwenden eines Cookie vermieden werden. Bei jedem neuen Verbindungsaufbau mit diesem Web-Server sendet der Benutzer-Client die gespeicherte Information an den Server zurück. Allerdings ist dies auch keine zuverlässige Methode, das Verhalten der Benutzer zu untersuchen, da viele es nicht erlauben, daß der Web-Server solch ein Cookie bei ihnen einsetzt. Die meisten Clients erlauben es, entweder fallweise oder generell, Cookies abzuweisen; ebenso gibt es Clients, die Cookies erst gar nicht unterstützen.

Weitere Statistiken können über die einzelnen Dateien erstellt werden, die verschickt wurden. So können Zähler eingerichtet werden, die die Anzahl der übertragenen Dateien eines bestimmten Typs addieren, oder die in einem bestimmten Verzeichnis plaziert sind. Andererseits ist ein Zähler interessant, der angibt, wie viele Zugriffe auf die Index-Seite oder sogenannte Willkommens-Seite eines Anbieters erfolgt sind. Diese Art von Zähler, der die Zugriffe nach speziellen Dateinamen aufschlüsselt, kann für jede andere Datei sinnvoll sein.

Interessant sind auch Gesamtangaben über die Art des Zugriffs auf Dateien. Damit sind die HTTP-Zugriffsmethoden GET, PUT usw. gemeint. Ein sehr wichtiger Aspekt wird von Statistiken über die HTTP-Version abgedeckt. Wie weiter oben in dem Unterkapitel über virtuelle Server schon erwähnt wurde, unterstüzt die HTTP-Version 1.1 namensbasierte Anfragen an Hosts. Falls ein Anbieter seine Seiten über einen namensbasierten virtuellen Server anbietet, wird er abwägen müssen, ob er die Anfragen, die mit Hilfe des veralteten HTTP-Protokolls gestellt werden, ignorieren kann. Der Anteil der Anfragen mit der neuen Version gegenüber alten Versionen des HTTP-Protokolls kann aus dieser Statistik entnommen werden.

Falls in einem Eintrag protokolliert wird, mit welchem Browser auf die Dateien zugegriffen wurde, so könnte in einer Liste aufgezählt werden, wie viele Anfragen mit welchem Browser durchgeführt wurden.

Zusammengefaßt wären folgende Zähler für diese Art von Zugriffsstatistiken interessant:

Die Analyse der ErrorLog- und ScriptLog-Dateien wird im Rahmen des Fehlermanagements in Kapitel [*] erläutert.


next up previous contents
Next: Überprüfung der Ressourcen-Auslastung Up: Leistungsmanagement Previous: DNS-Look-Ups
Copyright Munich Network Management Team