AI-краулеры и robots.txt
AI-краулеры GPTBot, ClaudeBot, Google-Extended — таблица User-Agent, robots.txt для AI-ботов, разница training vs inference, шаблон конфигурации
AI-краулеры
Заголовок раздела «AI-краулеры»Помимо классических поисковых ботов (Googlebot, Bingbot), сайты теперь посещают AI-краулеры — боты, собирающие данные для обучения и inference языковых моделей.
| Краулер | Компания | Назначение | User-Agent |
|---|---|---|---|
| GPTBot | OpenAI | Training + Browse | GPTBot/1.0 |
| ChatGPT-User | OpenAI | Browse (realtime) | ChatGPT-User |
| ClaudeBot | Anthropic | Training | ClaudeBot |
| anthropic-ai | Anthropic | Training | anthropic-ai |
| Google-Extended | AI training | Google-Extended | |
| PerplexityBot | Perplexity | Inference/RAG | PerplexityBot |
| CCBot | Common Crawl | Training datasets | CCBot/2.0 |
| Bytespider | ByteDance | Training | Bytespider |
| Applebot-Extended | Apple | Apple Intelligence | Applebot-Extended |
| Amazonbot | Amazon | Alexa/AI | Amazonbot |
Training vs Inference
Заголовок раздела «Training vs Inference»Два принципиально разных процесса:
Training (обучение) — массовый сбор данных для формирования весов модели. Происходит раз в несколько месяцев. Блокировка training-краулера не влияет на текущие ответы модели.
Inference (вывод) — RAG/browse в реальном времени. Модель запрашивает страницу «на лету» при ответе пользователю. Блокировка inference-бота убирает ваш сайт из live-ответов.
| Training | Inference | |
|---|---|---|
| Частота | Раз в месяцы | Каждый запрос |
| Влияние блокировки | На следующую версию модели | На текущие ответы |
| Примеры ботов | GPTBot, ClaudeBot, CCBot | ChatGPT-User, PerplexityBot |
robots.txt для AI-ботов
Заголовок раздела «robots.txt для AI-ботов»Блокировка training, разрешение browse
Заголовок раздела «Блокировка training, разрешение browse»# Classic search engines — full accessUser-agent: GooglebotAllow: /
# AI training crawlers — blockUser-agent: GPTBotDisallow: /
User-agent: ClaudeBotDisallow: /
User-agent: CCBotDisallow: /
User-agent: BytespiderDisallow: /
User-agent: Google-ExtendedDisallow: /
# AI browse/inference — allowUser-agent: ChatGPT-UserAllow: /
User-agent: PerplexityBotAllow: /Выборочная блокировка
Заголовок раздела «Выборочная блокировка»# Allow documentation, block private areasUser-agent: GPTBotAllow: /docs/Allow: /blog/Disallow: /admin/Disallow: /internal/Disallow: /api/private/Блокировка AI ≠ потеря SEO
Заголовок раздела «Блокировка AI ≠ потеря SEO»Googlebot и Google-Extended — разные user-agents:
- Googlebot — индексация для Google Search. Блокировка = потеря позиций в поиске
- Google-Extended — данные для Gemini/AI Overviews. Блокировка не влияет на органический поиск
Блокируйте Google-Extended без страха за SEO.
Новые директивы
Заголовок раздела «Новые директивы»Отрасль экспериментирует с расширениями robots.txt для AI:
# Экспериментальные директивы (не все боты поддерживают)User-agent: *DisallowAITraining: /<!-- HTML meta-тег --><meta name="robots" content="noai, noimageai">Cloudflare предложил AI Audit — управление AI-ботами через dashboard без редактирования robots.txt.
llms.txt vs robots.txt
Заголовок раздела «llms.txt vs robots.txt»Два файла решают противоположные задачи:
| robots.txt | llms.txt | |
|---|---|---|
| Цель | «Куда НЕ ходить» | «Что ВАЖНО» |
| Аудитория | Все краулеры | LLM и AI-инструменты |
| Формат | Пользовательский синтаксис | Markdown |
| Влияние | Блокирует доступ | Направляет внимание |
| Стандарт | RFC 9309 | Community convention |
Оба файла взаимодополняют друг друга:
robots.txt— защищает приватный контент от ботовllms.txt— помогает AI найти самое ценное в открытом контенте
Рабочий шаблон
Заголовок раздела «Рабочий шаблон»Полный пример для сайта документации:
# Search enginesUser-agent: GooglebotAllow: /
User-agent: BingbotAllow: /
# AI training — blockUser-agent: GPTBotDisallow: /
User-agent: ClaudeBotDisallow: /
User-agent: Google-ExtendedDisallow: /
User-agent: CCBotDisallow: /
User-agent: BytespiderDisallow: /
# AI inference/browse — allow docsUser-agent: ChatGPT-UserAllow: /docs/Disallow: /
User-agent: PerplexityBotAllow: /docs/Disallow: /
# SitemapSitemap: https://example.com/sitemap.xmlДополните этот robots.txt файлом llms.txt — и AI-ассистенты получат структурированный доступ к вашей документации.
Источники: