robots.txt
Guide complet sur robots.txt : syntaxe, directives, règles par crawler IA et bonnes pratiques pour 2026.
2025-02-15 · Updated 2026-02-20
Le fichier robots.txt est un fichier texte placé à la racine de votre domaine (https://example.com/robots.txt). Il indique aux crawlers web — moteurs de recherche traditionnels et agents IA — quelles pages ils peuvent accéder, avant qu’ils ne visitent une URL.
Emplacement et format
- URL :
https://votredomaine.com/robots.txt - Format : Texte brut, encodage UTF-8
- Sensibilité à la casse : Les chemins sont sensibles à la casse sur les serveurs Unix/Linux
Syntaxe de base
User-agent: GPTBot
Disallow: /private/
Allow: /
User-agent: *
Disallow: /admin/
User-agent— Le crawler auquel s’applique le bloc de règles.*correspond à tous les crawlers.Disallow— Chemins que le crawler ne doit pas accéder (récursif :/blog/bloque toutes les URL commençant par/blog/).Allow— Autorise explicitement un chemin, en surchargeant unDisallowplus large.Crawl-delay: N— Demande une pause de N secondes entre les requêtes (non supporté par tous les crawlers).Sitemap: URL— Pointe vers l’URL de votre sitemap.
Les règles sont évaluées de haut en bas. Pour un crawler donné, la règle la plus spécifique l’emporte.
Patterns avec wildcards
La plupart des crawlers supportent deux wildcards :
*— correspond à toute séquence de caractères$— ancre à la fin de l’URL
# Bloquer tous les PDF
User-agent: *
Disallow: /*.pdf$
# Bloquer les URL avec ?session=
User-agent: *
Disallow: /*?session=
Référence des user-agents des crawlers IA
| Crawler | Entreprise | Rôle |
|---|---|---|
GPTBot |
OpenAI | Navigation et entraînement ChatGPT |
OAI-SearchBot |
OpenAI | Recherche ChatGPT |
ChatGPT-User |
OpenAI | Navigation déclenchée par l’utilisateur ChatGPT |
ClaudeBot |
Anthropic | Entraînement et navigation Claude |
anthropic-ai |
Anthropic | Anthropic général |
PerplexityBot |
Perplexity AI | Recherche Perplexity |
Google-Extended |
Entraînement Gemini (distinct de Googlebot) | |
Applebot-Extended |
Apple | Apple Intelligence |
Meta-ExternalAgent |
Meta | Meta AI |
Bytespider |
ByteDance | TikTok / entraînement |
CCBot |
Common Crawl | Jeu de données ouvert (utilisé par de nombreuses orgs IA) |
Diffbot |
Diffbot | Extraction de données pour l’IA |
Bloquer tous les crawlers IA
Pour bloquer les principaux crawlers IA tout en gardant les moteurs traditionnels :
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
Note : Bloquer Google-Extended n’a aucun impact sur la recherche Google traditionnelle (Googlebot). Ils sont indépendants.
Autoriser certains, bloquer d’autres
Autoriser les agents IA reconnus et bloquer les agrégateurs de données :
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
Bloquer uniquement certaines sections
Autoriser le crawl en général mais protéger les zones réservées aux membres ou aux transactions :
User-agent: GPTBot
Disallow: /members/
Disallow: /checkout/
Disallow: /api/private/
Allow: /
Exemple recommandé complet
# Moteurs de recherche traditionnels
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Agents IA — autorisés
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
# Agents IA — bloqués (agrégateurs de données d'entraînement)
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
# Tous les autres crawlers
User-agent: *
Allow: /
# Sitemap
Sitemap: https://example.com/sitemap.xml
Erreurs courantes
- Bloquer Googlebot par erreur — Utiliser
User-agent: *avecDisallow: /bloque la recherche Google. Ajoutez toujours des règles explicites pour Googlebot si vous utilisez un bloc wildcard. - Oublier Common Crawl (CCBot) — CCBot alimente des jeux de données ouverts utilisés par de nombreuses organisations IA pour l’entraînement. Bloquez-le si vous ne voulez pas figurer dans ces corpus.
- Oublier la référence au Sitemap — Ajoutez toujours
Sitemap:à la fin. - Croire que Disallow protège —
robots.txtest public et relève d’une convention, pas d’une barrière technique. Les bots malveillants l’ignorent. Utilisez une authentification pour le contenu sensible. - Bloquer CSS et JS — Cela empêche les crawlers de rendre correctement vos pages.
Bloquer les crawlers IA affecte-t-il le SEO ?
Non. Google-Extended, GPTBot, ClaudeBot sont totalement distincts de Googlebot. Les bloquer n’a aucun impact sur le classement dans la recherche Google.
Vérification
- Visitez
https://votredomaine.com/robots.txtdirectement — vérifiez qu’il est accessible et correctement formaté. - Utilisez le testeur robots.txt de Google Search Console.
- Consultez les logs serveur après 24–48 h pour vérifier que les crawlers respectent les règles.
Complément : Content Signals
robots.txt contrôle l’accès (peut-on crawler ?). Pour exprimer ce que les systèmes IA peuvent faire avec votre contenu une fois accédé, utilisez les en-têtes Content Signals en complément de robots.txt.