« Nicht von Budweiser ins Bockshorn jagen lassen! | Archiv | Aufstand der Avatare »
12.09.07
von Tim Cole um 11:39
Googlebots reloaded
|
Neulich berichtete ich von der "Invasion der Googlebots" auf meiner Website. Offenbar bin ich da nicht alleine - aber eine richtig gute Erklärung dafür gibt es auch nicht. Jedenfalls nicht von Google, denn die Pressestelle hüllt sich dort nach wie vor in Schweigen zu meiner diesbezüglichen Anfrage. Dafür haben sich aber mehrere Webmaster gemeldet, die über ähnliche Erfahrungen berichten. Ein gewisser "victor" im Google-Forum von WebmasterWorld fühlte mit mir: "Ja, ist mir in den letzten Jahren zweimal passiert. Beide Male schickte ich eine Email n Google und habe ihnen gesagt, sie sollen sich benehmen, sonst werden sie gesperrt. Sie haben sich jedesmal gemeldet und sich entschuldigt, vor allem aber haben sie ihr anstößiges Verhalten geändert. Meine Sites genießen weiterhin ein sehr hohes Ranking bei den entsprechenden Keywords von Google." Der Moderator des Forums, ein gewisser "tester", hatte ähnliche Erfahrungen aber keine Erklärung. "Warum passiert sowas? Keiner weiß es - außer Google's Crawler-Team. Aber nach meiner eigenen Erfahrung hat jedes Stück Programmierung irgendeinen Bug - und Crawl Control ist da keine Ausnahme." Tester schickte mir außerdem einen hilfreichen Link zum Support-Team von Google, wo man Tipps findet, wie man sich gegen Bot-Attacken wehren kann (http://www.google.com/support/webmasters/bin/answer.py?answer=48620&ctx=related). Scheint also kein allzu seltener Fall zu sein. Viele Mitbetroffene meldeten sich und drückten ihr Mitgefühl aus. "44 GB - das ist ja unverschämt", schrieb "raider" aus Südkorea. Er hat meine Website angeschaut und meinte, mehr als 1 GB pro Monat wäre gar nicht nötig. Allerdings schrieb er nicht dazu, welche Messlatte er dabei angelegt hat. Von Webmasters Europe, dem europäischen Berufsverband (dessen Beiratsmitglied ich bin), meldete sich der Vorsitzende, Dr. Thorsten Schneider mit einer Bestätigung: "Es ist bekannt, dass die Googlebots zuweilen Amok laufen und gigantischen Traffic verursachen. Das wäre tatsächlich mal ne Story wert!" Seiner Erfahrung nach passiert das offenbar oft bei Sites, die Fotoarchive oder Videos hosten, da Google ja für seine diversen Spezial-Suchmaschinen inzwischen alles downloaded und archiviert. Da ich aber auf meiner Homepage ja keine Fotoarchive oder Videos verlinkt habe, scheidet das als Ursache wohl aus Weitere mögliche Angriffsziele für eine Bot-Invasion seien Verzeichnisse, die solche Inhalte enthalten, in der robots.txt von der Indexierung auszuschließen. Schneider riet auch mal zu überprüfen, ob der Verursacher des Traffics tatsächlich ein Googlebot ist. "Derzeit tarnen sich viele Crawler, die Inhalte für Spam zusammensuchen, als Googlebot", berichtet er, und weist auf eine Meldung der Bonner Beratungsfirma Sistrix hin: "Nur der echte Googlebot wird die 3 Kriterien (Useragent, IP-zu-Host und Host-zu-IP-Auflösungen) erfüllen. Ein Logfileeintrag im Webserverlog (Apache-Webserver) sieht wie folgt aus: 66.249.66.48 - - [10/Nov/2006:06:55:25 +0100] "GET /info.html HTTP/1.1" 200 10592 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" Wie oben beschrieben, löst die IP-Adresse des Googlebot auf *.googlebot.com auf. Der Host löst dann wiederum auf die IP-Adresse aus dem Logfile auf: Wenn Ihnen die Überprüfung per Hand zu umständlich und zeitaufwändig ist, so können Sie auch Tools (Echtheit eines Botzugriffs überprüfen: tools.sistrix.com/ve/) benutzen, die diese Aufgaben in einem Schritt ausführen. Diese Möglichkeit besteht nicht nur für den Googlebot, sondern funktioniert auch bei Yahoo und Microsoft." Ein nützlicher Tipp, den ich nur empfehlen kann. Denn mit Hilfe des Tools hatte ich in knapp zwei Minuten den Beweis: Es waren wirklich Googlebots! Das immerhin steht fest. Nur warum sie mich in letzter Zeit so heimsuchen, das kann mir nach wie vor keiner sagen. Aber immerhin: Nachdem ich die Mail an die Google-Pressestelle losgeschickt hatte, hörte der unliebsame Besuch schlagartig auf. Immerhin ein Fortschritt... |