Json et crawl/indexation

6 réponses
AuteurMessage

schtroumpf |
Modérateur

Photo de schtroumpf

Inscrit le : 05/04/2007

# Le 06/08/2010 à 11:03

Bonjour,

Google s'amuse à crawler, voire indexer les urls de mes javascripts qu'il arrive à comprendre (et il les comprend de mieux en mieux...). Pour la plupart, il s'agit de requêtes ajax qui renvoient du json et je n'ai pas besoin que les réponses soient crawlées/indexées (d'autant plus quand ce sont des requêtes qui permettent de voter... ).

Donc, je viens d'ajouter quelques lignes dans le robots.txt . Mais je doute que ce soit suffisant. Avez-vous d'autres techniques? Je pensais notamment à envoyer un header du type text/json au lieu du text/html par défaut. Est-ce que ça a un impact?

Arnaud

VisoterraOuvrir dans une nouvelle fenetre - VisofloraOuvrir dans une nouvelle fenetre - VisorandoOuvrir dans une nouvelle fenetre

devtribu | Olivier
Modérateur

Photo de devtribu

Inscrit le : 16/06/2005

# Le 06/08/2010 à 11:13

Salut

Si ca va marcher d'ici moins de 24h
Du moins pour google et yahoo

Pour les autres bots, de plus en plus nombreux d'ailleurs, il semble que les consignes robots.txt ne sont pas du tout respectées.

Je les bans dans le htaccess

Février 2019, mon futur livre Tout JavaScript chez Dunod https://amzn.to/2PoLd0fOuvrir dans une nouvelle fenetre

cerise | Gaël
Modérateur

Photo de cerise

Inscrit le : 31/10/2008

# Le 06/08/2010 à 11:16

beuh. C'est clairement problématique ça. Moi aussi j'ai des systèmes de votes un peu partout.
ceci dit c'est cappé par IP pour empêcher les votes d'une même IP sur moins de 24 heures. Il y a peut-être moyen d'ajouter un filtre sur l'IP pour empêcher l'exécution du script par les robots, ce qui serait peut-être plus efficace que le robots.txt qui n'est pas si fiable que ça

schtroumpf | Arnaud
Modérateur

Photo de schtroumpf

Inscrit le : 05/04/2007

# Le 06/08/2010 à 11:24

Ok pour robots.txt, je vais vite voir ce que ça donne.

J'ai en effet du capping sur des comptages de hits, mais pour les votes, ça m'embête un peu plus car certaines personnes sont capables de voter plus de 100 fois en une journée. Et mettre un capping à plus 100 n'a pas vraiment de sens.

Les filtres m'embêtent un peu car : il faut tenir à jour les IPs, on est jamais à l'abri de blacklister une mauvaise IP, bref, ça demande du temps.

Arnaud

VisoterraOuvrir dans une nouvelle fenetre - VisofloraOuvrir dans une nouvelle fenetre - VisorandoOuvrir dans une nouvelle fenetre

ddpetit | Damien
Modérateur

Photo de ddpetit

Inscrit le : 03/05/2006

# Le 06/08/2010 à 13:12

Comme a dit devtribu : modifies ton fichier robots.txt ça devrait déjà avoir un impact.

Pour tes "filtres", il y a surement plus simple : analyser tes stats pour trouver un traffic anormal d'un robot et le bloquer avec le htaccess.

Loccasion.com - Vente de voitures d'occasionOuvrir dans une nouvelle fenetre - Mandataire AutoOuvrir dans une nouvelle fenetre

angelzeke | Villaumé
Anonyme

 

Inscrit le : 26/10/2005

# Le 11/08/2010 à 23:36

On peut aussi proposer une solution de bannir google des scripts JS, appeler un script PHP qui contient le JS dans lequel on détecte si il s'agit d'un robot google et auquel cas on le redirige sur google, au hasard.

vous cherchez un annuaire RSS dans lequel vous pouvez lire vos flux RSS/RDF et faire vos favoris
www.1001rss.com

schtroumpf | Arnaud
Modérateur

Photo de schtroumpf

Inscrit le : 05/04/2007

# Le 12/08/2010 à 10:46

Finalement, le robot.txt est en place et est progressivement pris en compte, au moins pour Google. J'attends encore un peu pour faire le point.

Arnaud

VisoterraOuvrir dans une nouvelle fenetre - VisofloraOuvrir dans une nouvelle fenetre - VisorandoOuvrir dans une nouvelle fenetre

Répondre

Vous ne pouvez pas participer au forum, car votre inscription n'a pas été validée. Pour vous faire valider en tant que Membre, cliquez ici.

© MHN - Tous droits réservés | CNIL N°844440 | 19/04/2024 3:45:37 | Généré en 3.26ms | Contacts | Mentions légales |