Quels robots garder ?

14 réponses
AuteurMessage

Akarys |
Membre

Photo de Akarys

Inscrit le : 19/01/2008

# Le 30/01/2011 à 06:17

Ojectif: Quels sont les moteurs de recherche français/francophones qui vous envoient réellement des visiteurs ?

Bonjour,

Mon petit serveur a pris un coup de chaud hier vers 19h et en regardant les logs je vois que 4 bots faisaient la course à qui téléchargera le plus vite les milliers de pages des différents sites du serveur !
- http://www.dotnetdotcom.org/Ouvrir dans une nouvelle fenetre
- http://www.linguee.com/Ouvrir dans une nouvelle fenetre
- http://www.majestic12.co.uk/projects/dsearch/mj12b...Ouvrir dans une nouvelle fenetre
- http://yandex.com/botsOuvrir dans une nouvelle fenetre
Si je regarde sur Janvier, j'ai un 30aine de robots rien que parmi ceux qui ont chargé plus de 5,000 pages. Ça commence à faire beaucoup...
Le problème est que ces robots ne m'apportent absolument rien en retour. Tout au plus 50 visiteurs pour Yandex sur Janvier. Le problème est aussi que bon nombre d'entre eux ne respectent pas vraiment le robots.txt et certains bombardent à plusieurs requêtes/s !

J'ai donc décidé de faire comme certains gros sites: n'autoriser qu'un nombre très limité de robots (cf http://www.facebook.com/robots.txtOuvrir dans une nouvelle fenetre ) et faire en sorte que les autres ne me gênent plus.

Pour mon serveur les choses sont assez simples avec en gros pour les moteurs par referer :
- Google(s) : 85%
- Bing : 8%
- Voilà : 4%
- Yahoo : 3%
- Aol + Ask/Teoma + Sfr + Lo.st + ... < 1%
La tentation est donc très grande de n'autoriser que les bots des 4 premiers...

Le risque est de ne pas apparaître dans un nouveau moteur qui sera le prochain Google...
Donc, quel serait d'après vous les autres bots intéressants à autoriser ?

Merci d'avance pour vos réponses ou commentaires,

cerise | Gaël
Modérateur

Photo de cerise

Inscrit le : 31/10/2008

# Le 30/01/2011 à 08:53

ne peux-tu pas raisonner à l'inverse et exclure plutôt les robots inutiles, et affiner la liste au fur et à mesure que tu en découvres qui sont un peu trop envahissants tout en apportant aucun trafic ?

Rano | Jean
Modérateur

Photo de Rano

Inscrit le : 13/04/2005

# Le 30/01/2011 à 09:43

Ouais, Yandex, ça fait longtemps qu'il a dégagé moi !
Etrangement, ça a permis de diminuer le nombre d'attaque d'origine russe...

Chambres d'hote tavelOuvrir dans une nouvelle fenetre
Séjours en provenceOuvrir dans une nouvelle fenetre
Forum mariageOuvrir dans une nouvelle fenetre

Akarys | Thierry
Membre

Photo de Akarys

Inscrit le : 19/01/2008

# Le 30/01/2011 à 10:42

Tiens je viens d'avoir une réponse de 80legs.com qui m'a fait hier plus de 400 accès sur la page "/(" (slash + parenthèse) qui retournait une 404 !
D'après eux c'est normal car leur bot est en fait un ensemble de bots (+120 IP différentes hier) et chacun est plus ou moins autonome... . Enfin "We have added your domain to our do-not-crawl list.", je n'aurai donc pas écrit pour rien ;)

Et la nuit dernière une réponse de discoveryengine.com : Ils ne reconnaissent que "User-agent: discobot" suivit aussitôt d'un "Disallow: /..." . Moi j'ai toute une liste de User-agent pour un seul Disallow - ce qui est conforme à la syntaxe - , donc il n'en tiennent pas compte !

Donc oui cerise je pourrais continuer ainsi, mais il y a franchement des abus, et vu que j'ai décidé de faire quelque chose pour ceux qui ne respectent pas le robots.txt, autant faire le grand ménage

Et donc des idées de bot à garder ?

Geo 113 | Geoffrey
Modérateur

Photo de Geo 113

Inscrit le : 04/05/2005

# Le 30/01/2011 à 11:15

bonne idée !

CosmixOuvrir dans une nouvelle fenetre
Rendez imprévisible l'Economie; Mentez aux sondages

zehub | BENAICHA
Membre

Photo de zehub

Inscrit le : 21/12/2005

# Le 30/01/2011 à 12:30

Si je comprends bien, il faudra faire suivre chaque User-Agent par un Dissallow pour être sûr qu'ils ne passent pas ??

DivertissementOuvrir dans une nouvelle fenetre , VoyagesOuvrir dans une nouvelle fenetre , VoituresOuvrir dans une nouvelle fenetre , CuisineOuvrir dans une nouvelle fenetre

Akarys | Thierry
Membre

Photo de Akarys

Inscrit le : 19/01/2008

# Le 31/01/2011 à 04:18

zehub a dit :
Si je comprends bien, il faudra faire suivre chaque User-Agent par un Dissallow pour être sûr qu'ils ne passent pas ??

Un bloc par User-agent oui; c'est ce que fait FB qui semble particulièrement sensible à ce sujet : http://www.facebook.com/robots.txtOuvrir dans une nouvelle fenetre , et idem Wikipedia http://fr.wikipedia.org/robots.txtOuvrir dans une nouvelle fenetre
Bon, c'est une commande sous éditeur et on se fiche un peu de la longueur du robots.txt, donc pourquoi pas si ça marche mieux, mais ce n'est clairement pas ce que prévoient les règles : http://www.robotstxt.org/orig.html#formatOuvrir dans une nouvelle fenetre
The record starts with one or more User-agent lines, followed by one or more Disallow lines,

PS: @zehub: ça te donnera une meilleure chance que ta directive soit comprise par le bot, mais aucune garantie qu'il la respecte...

kigenaou | Paul
Membre

 

Inscrit le : 09/05/2005

# Le 31/01/2011 à 10:08

Pour info,
http://www.majestic12.co.uk/Ouvrir dans une nouvelle fenetre est un service d'audit de liens. Il remplace (a mon sens avantageusement) la commande link: des outils de recherche.
En autorisant le moteur et en posant un petit fichier texte (pour prouver que le site t'appartient) tu a accès aux données concernant le site en question.

D'un point de vue SEO, cet outil est TRES PRATIQUE.

80legs propose à ses clients de crawler le web pour eux.
C'est un "crawler repartis" il permet donc de crawler de grande quantité de sites /url en relativement peu de temps. Celui-là, je ne l'ai pas encore utilisé.

Elios | D
Modérateur

Photo de Elios

Inscrit le : 09/05/2005

# Le 31/01/2011 à 14:42

[HS] impossible d'itentifier l'url les backlinks sur majestic ou je me trompe ?

WeekendoOuvrir dans une nouvelle fenetre

tonguide | Jeremy
Modérateur

 

Inscrit le : 09/05/2005

# Le 31/01/2011 à 14:56

Où sur bing directement ?
http://www.bing.com/search?q=%22link%3Awebworkercl...Ouvrir dans une nouvelle fenetre (le guillemet est un hack, vu que la commande n'existe plus normalement)

kigenaou | Paul
Membre

 

Inscrit le : 09/05/2005

# Le 31/01/2011 à 17:00

Elios a dit :
[HS] impossible d'identifier l'url les backlinks sur majestic ou je me trompe ?


En gratuit, je sais pas, mais en payant tu a tout. L'avantage par rapport à yahoo, bing ou Google tu n'est pas limité aux 1 000 premiers résultats ...

mais là, on est en train de pourrir le thread ;-)

Julgates | Julien
Administrateur

Photo de Julgates

Inscrit le : 09/03/2005

# Le 03/02/2011 à 16:17

Est-ce que vous avez les UA des bots de Sfr, Ask, Free, Alice ?

Merci

Shopping Time NetworkOuvrir dans une nouvelle fenetre - Founder / CTO

krucial | Jean Christophe
Administrateur

Photo de krucial

Inscrit le : 09/03/2005

# Le 03/02/2011 à 16:28

Free a un bot ?

JC - Mes sitesOuvrir dans une nouvelle fenetre | Affiliation devis travauxOuvrir dans une nouvelle fenetre | Cotes voitures anciennesOuvrir dans une nouvelle fenetre

Akarys | Thierry
Membre

Photo de Akarys

Inscrit le : 19/01/2008

# Le 04/02/2011 à 02:47

Julgates a dit :
Est-ce que vous avez les UA des bots de Sfr, Ask, Free, Alice ?

Ask:
User-agent: Teoma
# Mozilla/5.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)

Free:
User-agent: pompos
Pompos/1.3 http://dir.com/pompos.htmlOuvrir dans une nouvelle fenetre
; Pas vu depuis 3 ou 4 ans...
; Free utilise je crois un "meta-moteur" basé sur Google+Yahoo+...

Alice, Sfr:
; Utilisent Google

Julgates | Julien
Administrateur

Photo de Julgates

Inscrit le : 09/03/2005

# Le 04/02/2011 à 09:11

Merci Ak !

Shopping Time NetworkOuvrir dans une nouvelle fenetre - Founder / CTO

Répondre

Vous ne pouvez pas participer au forum, car votre inscription n'a pas été validée. Pour vous faire valider en tant que Membre, cliquez ici.

© MHN - Tous droits réservés | CNIL N°844440 | 20/04/2024 9:56:27 | Généré en 9.91ms | Contacts | Mentions légales |