AI-краулеры и robots.txt

AI-краулеры GPTBot, ClaudeBot, Google-Extended — таблица User-Agent, robots.txt для AI-ботов, разница training vs inference, шаблон конфигурации

AI-краулеры

Помимо классических поисковых ботов (Googlebot, Bingbot), сайты теперь посещают AI-краулеры — боты, собирающие данные для обучения и inference языковых моделей.

Краулер	Компания	Назначение	User-Agent
GPTBot	OpenAI	Training + Browse	`GPTBot/1.0`
ChatGPT-User	OpenAI	Browse (realtime)	`ChatGPT-User`
ClaudeBot	Anthropic	Training	`ClaudeBot`
anthropic-ai	Anthropic	Training	`anthropic-ai`
Google-Extended	Google	AI training	`Google-Extended`
PerplexityBot	Perplexity	Inference/RAG	`PerplexityBot`
CCBot	Common Crawl	Training datasets	`CCBot/2.0`
Bytespider	ByteDance	Training	`Bytespider`
Applebot-Extended	Apple	Apple Intelligence	`Applebot-Extended`
Amazonbot	Amazon	Alexa/AI	`Amazonbot`

Training vs Inference

Два принципиально разных процесса:

Training (обучение) — массовый сбор данных для формирования весов модели. Происходит раз в несколько месяцев. Блокировка training-краулера не влияет на текущие ответы модели.

Inference (вывод) — RAG/browse в реальном времени. Модель запрашивает страницу «на лету» при ответе пользователю. Блокировка inference-бота убирает ваш сайт из live-ответов.

	Training	Inference
Частота	Раз в месяцы	Каждый запрос
Влияние блокировки	На следующую версию модели	На текущие ответы
Примеры ботов	GPTBot, ClaudeBot, CCBot	ChatGPT-User, PerplexityBot

robots.txt для AI-ботов

Блокировка training, разрешение browse

# Classic search engines — full access
User-agent: Googlebot
Allow: /

# AI training crawlers — block
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Google-Extended
Disallow: /

# AI browse/inference — allow
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Выборочная блокировка

# Allow documentation, block private areas
User-agent: GPTBot
Allow: /docs/
Allow: /blog/
Disallow: /admin/
Disallow: /internal/
Disallow: /api/private/

Блокировка AI ≠ потеря SEO

Googlebot и Google-Extended — разные user-agents:

Googlebot — индексация для Google Search. Блокировка = потеря позиций в поиске
Google-Extended — данные для Gemini/AI Overviews. Блокировка не влияет на органический поиск

Блокируйте Google-Extended без страха за SEO.

Новые директивы

Отрасль экспериментирует с расширениями robots.txt для AI:

# Экспериментальные директивы (не все боты поддерживают)
User-agent: *
DisallowAITraining: /

<!-- HTML meta-тег -->
<meta name="robots" content="noai, noimageai">

Cloudflare предложил AI Audit — управление AI-ботами через dashboard без редактирования robots.txt.

llms.txt vs robots.txt

Два файла решают противоположные задачи:

	robots.txt	llms.txt
Цель	«Куда НЕ ходить»	«Что ВАЖНО»
Аудитория	Все краулеры	LLM и AI-инструменты
Формат	Пользовательский синтаксис	Markdown
Влияние	Блокирует доступ	Направляет внимание
Стандарт	RFC 9309	Community convention

Оба файла взаимодополняют друг друга:

robots.txt — защищает приватный контент от ботов
llms.txt — помогает AI найти самое ценное в открытом контенте

Рабочий шаблон

Полный пример для сайта документации:

# Search engines
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# AI training — block
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# AI inference/browse — allow docs
User-agent: ChatGPT-User
Allow: /docs/
Disallow: /

User-agent: PerplexityBot
Allow: /docs/
Disallow: /

# Sitemap
Sitemap: https://example.com/sitemap.xml

Дополните этот robots.txt файлом llms.txt — и AI-ассистенты получат структурированный доступ к вашей документации.

Источники:

AI-краулеры и robots.txt