Ne pas compter les bots

37 réponses
AuteurMessage

Zalex14
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 12/07/2007 à 14:00

j'up pour faire un petit point sur le passage des bots sur le lien caché dans un bloc en display:none (le petit test que je fais depuis 10 jours sur toutes les pages de partoch).

format du lien :


<div style="display:none"><a href="/bots.php">bots</a></div>


Voici le nombre d'accès (compté une fois par session) des bots sur ce lien après 10 jours de relevés :

bots | nb accès au lien caché | nb accès au site

ShopWiki 14 14
exabot 7 7
yahoo 22 22
SiteSucker 1 1
msn 4 16
cazoodle 8 8
panscient.com 1 1
google 3 18
ia_archiver 2 2

Alors que Google et MSN font partit des moteurs qui scannent le plus mon site ils sont pourtant ceux qui ont le moins suivi ce lien.

Yahoo par contre se fiche royalement du display:none, il suit le lien à chacune de ses visites

Donc soit les bots de google et msn controlent les liens déjà indexés avant de scanner le site et ne repassent pas où ils sont déjà passés, soit le display:none freine leur indexation.



Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

bhamp0
Membre

Photo de bhamp0

Inscrit le : 09/05/2005

# Le 12/07/2007 à 15:31

Google et MSN doivent utiliser le fait que ta page, au final, n'a pas de contenu ... donc ils y reviennent peu ("aucun intérêt ta page !"), mais ils y sont allés.
Bref, t'as prouvé que ma technique de traque des bots est efficace

Quand on voit c'qu'on voit, et qu'on entend c'qu'on entend, on a raison d'penser c'qu'on pense !

Zalex14
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 10:40

Petit up car j'ai remis le nez dans les ip/user_agent du div caché cité plus haut.

Je me suis rendu compte qu'un paquet d'ip d'internautes "normaux" suivent ce lien (environ 20 nouvelles IP par jour).

Au final, il s'agirait principalement "d'accélérateurs" de surf , logiciels qui chargent à l'avance les liens des pages consultées, mais aussi des téléphones mobiles qui ne supportent pas ou mal le css (j'ai des tonnes de user_agent en Nokia).

Autre point, comme l'indiquait bhamp0, cette page ne présentant aucun intérêt pour les moteurs, ces derniers ne reviennent plus dessus, au bout de quelques semaines ce div caché n'a donc plus aucun intérêt pour identifier les bots des moteurs.

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

krucial
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 27/05/2008 à 11:01

Perso, je me suis fait une petit liste de user agent a ne pas compter, je peux vous les filer si vous voulez.

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre

Zalex14
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 11:13

Preneur

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

devtribu
Modérateur

Photo de devtribu

Inscrit le : 16/06/2005

# Le 27/05/2008 à 11:14

Ca m'interesse aussi

Je note depuis quelques semaines une recrudescence d'ip de particuliers qui scannent ou aspirent le site.
C'est assez curieux puisque cela avait tendance a disparaitre avec les acces adsl

Application Beauté-test mobile iPhone iPadOuvrir dans une nouvelle fenetre
Application Beauté-test mobile AndroidOuvrir dans une nouvelle fenetre

Zalex14
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 11:22

peut être des particuliers qui veulent monter un site à moindre cout en pompant le tiens ^^

Perso je vois de plus en plus de user_agent de ce type :
curl%2F7.12.2+%28x86_64-unknown-linux-gnu%29+libcurl%2F7.12.2+OpenSSL%2F0.9.8d

Ça sent le pompage à plein nez..

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

krucial
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 27/05/2008 à 11:27

http://www.vacanceo.com/misc/bots.txtOuvrir dans une nouvelle fenetre

Il y a 92 bots que j'ai pu tracker et bannir. Si vous en avez d'autres, je suis prenneur.

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre

Zalex14
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 11:54

Merci !

A bloquer aussi les aspirateurs de sites :

BlackWidow
ChinaClaw
Custo
DISCo
eCatch
EirGrabber
EmailSiphon
EmailWolf
ExtractorPro
EyeNetIE
FlashGet
GetRight
GetWeb!
Go!Zilla
Go-Ahead-Got-It
GrabNet
Grafula
HMView
Stripper
Sucker
InterGET
Ninja
JetCar
larbin
LeechFTP
Navroad
NearSite
NetAnts
NetSpider
NetZIP
Octopus
PageGrabber
pavuk
pcBrowser
RealDownload
ReGet
SiteSnagger
SiteSucker
SmartDownload
SuperBot
SuperHTTP
Surfbot
tAkeOut
VoidEYE
WebAuto
WebCopier
WebFetch
WebLeacher
WebReaper
WebSauger
WebStripper
WebWhacker
WebZIP
Wget
Widow
WWWOFFLE
WebSpider
Zeus

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

Bool
Modérateur

Photo de Bool

Inscrit le : 09/05/2005

# Le 27/05/2008 à 12:02

t'as oublié httrack

Google is watching you.

Zalex14
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 12:25

Ah oui, merci

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

Zalex14
Modérateur

Photo de Zalex14

Inscrit le : 09/05/2005

# Le 27/05/2008 à 12:55

Dans les robots on peux aussi ajouter ASPseek (bot open source que je vois quelques fois dans mes logs)

Mieux vaut s'attendre au prévisible que d'être surpris par l'inattendu.

krucial
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 09/12/2008 à 15:01

Mise a jour : http://www.vacanceo.com/misc/bots.txtOuvrir dans une nouvelle fenetre
166 bots et crawlers.

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre

Rano
Modérateur

Photo de Rano

Inscrit le : 13/04/2005

# Le 09/12/2008 à 15:16

Sinon y a ça hein http://browsers.garykeith.com/downloads.aspOuvrir dans une nouvelle fenetre
avec notamment la variable Crawler

Chambres d'hote tavelOuvrir dans une nouvelle fenetre
Séjours en provenceOuvrir dans une nouvelle fenetre
Forum mariageOuvrir dans une nouvelle fenetre

krucial
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 13/01/2011 à 00:28

Yop.

Je balance la liste des bots mise à jour :
http://www.forumconstruire.com/logs/bots.txtOuvrir dans une nouvelle fenetre : 179 bots à bannir.

J'ai mis en place le coup du lien caché, on va voir ce que j'attrape. Si vous avez une liste de votre coté, ca m'interesse.

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre

Akarys
Membre

Photo de Akarys

Inscrit le : 19/01/2008

# Le 13/01/2011 à 02:11

krucial a dit :
http://www.forumconstruire.com/logs/bots.txtOuvrir dans une nouvelle fenetre : 179 bots à bannir.

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
A bannir ???

Et sinon concrètement que fais-tu ? Tu compares le User-Agent de chaque demande de page à ta liste ? au niveau Apache ? au niveau Php ? puis envoi d'un 301 ? 404 ? 444 ?

Un truc qui manque dans les règles de gestion des robots - je trouve - c'est une relation claire et simple entre le User-Agent envoyé via une requête (ta liste) et le User-agent à utiliser dans robots.txt (que quand même pas mal de robots respectent). C'est la galère à trouver pour certains...

Julgates
Administrateur

Photo de Julgates

Inscrit le : 09/03/2005

# Le 13/01/2011 à 08:51

A bannir des stats (display, clics, indicateurs internes, etc) !

Beyoung InteractiveOuvrir dans une nouvelle fenetre - Consultant web

krucial
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 13/01/2011 à 11:28

Oups pardon, c'est une liste de robots a bannir des stats

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre

Répondre

Vous ne pouvez pas participer au forum, car votre inscription n'a pas été validée. Pour vous faire valider en tant que Membre, cliquez ici.