Voici comment vous pouvez bloquer l’accès des robots de Google pour empêcher qu’il vous indexe dans Google News.
Google vient d’introduire un nouveau « User-Agent« .
Mais sérieusement, à part Murdoch qui voudrait faire ça ??
Le code à ajouter dans le fichier robots.txt:
User-Agent: Googlebot-News
Disallow: /
Et tant qu’on y est, voici un résumé de toutes les possibilités: (via Google Webmaster Central)
Inclure Toutes vos pages dans l’index du Moteur Google ET dans les News (la grande majorité des sites sur le web):
User-agent: Googlebot
Disallow:
Par extension si vous souhaitez autoriser tous les moteurs (pas juste Google), vous mettez ceci, c’est encore plus large:
User-agent: *
Disallow:
Inclure les pages dans le Moteur Google MAIS PAS dans Google News (Murdoch Style ;- ):
User-agent: Googlebot
Disallow:
User-agent: Googlebot-News
Disallow: /
Inclure les pages dans Google News MAIS PAS dans le Moteur Google (Vraiment moins fréquent, qui ferait cela??):
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-News
Disallow:
Bloquer certains dossiers seulement dans Moteur ET News:
User-agent: Googlebot
Disallow: /latest_news
User-agent: Googlebot-News
Disallow: /archives
Stopper COMPLÈTEMENT l’indexation dans le Moteur Google et dans les News (avant de faire ceci je vous recommande d’aller vous passer la tête sous l’eau froide):
User-agent: Googlebot
Disallow: /