Juste pour la petite histoire....
Il y a peu de temps, un robot passait un samedi sur deux pour indexer la totalité du site.
Ce robot pompait une bande passante incroyable !
Je me suis renseigné en fouillant les logs de connexions et j'ai appris que ce robot s'appelait SISTRIX.
Il s'agit d'un crawler comme tous les autres... (un crawler est un "aspirateur" de sites)
Dans un premier temps, j'ai interdit l'accès du site à ce crawler SISTRIX par l'intermédiaire du fichier robots.txt
Malheureusement, je me suis rendu compte, le samedi d'après, que SISTRIX ce fout royalement de ce que contient le fichier robot.txt
J'ai donc mis en place cette solution radicale qui puni sur le champ les robots qui ne suivent pas les directives du fichier robots.txt
Ce fichier n'est pas fait pour les chiens ! Il est fait pour les robots. Ca tombe bien, SISTRIX en est un !
Depuis, le crawler SISTRIX est repassé. Par contre, cette fois ci, il s'est fait piéger ! Le voilà banni !
Bien entendu, je n'ai pas reçu de réclamation me disant que c'est une erreur...
Illustration en images quand SISTRIX passait tous les 2 samedi.
(https://static.chez-oim.org/imageshack/y3uf.jpg)
La preuve qu'il a été pris la main dans le sac !
5-9-112-68.crawler.sistrix.net - - [07/Dec/2013:10:17:14 -0500] "GET /blackhole/ HTTP/1.1" 206 3470
"-" "Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)"
Malheureusement, ce n'est pas le seul "bad bot" à rôder sur la toile...
Ils sont nombreux !