Перейти к содержимому

AI-краулеры и robots.txt

AI-краулеры GPTBot, ClaudeBot, Google-Extended — таблица User-Agent, robots.txt для AI-ботов, разница training vs inference, шаблон конфигурации

Помимо классических поисковых ботов (Googlebot, Bingbot), сайты теперь посещают AI-краулеры — боты, собирающие данные для обучения и inference языковых моделей.

КраулерКомпанияНазначениеUser-Agent
GPTBotOpenAITraining + BrowseGPTBot/1.0
ChatGPT-UserOpenAIBrowse (realtime)ChatGPT-User
ClaudeBotAnthropicTrainingClaudeBot
anthropic-aiAnthropicTraininganthropic-ai
Google-ExtendedGoogleAI trainingGoogle-Extended
PerplexityBotPerplexityInference/RAGPerplexityBot
CCBotCommon CrawlTraining datasetsCCBot/2.0
BytespiderByteDanceTrainingBytespider
Applebot-ExtendedAppleApple IntelligenceApplebot-Extended
AmazonbotAmazonAlexa/AIAmazonbot

Два принципиально разных процесса:

Training (обучение) — массовый сбор данных для формирования весов модели. Происходит раз в несколько месяцев. Блокировка training-краулера не влияет на текущие ответы модели.

Inference (вывод) — RAG/browse в реальном времени. Модель запрашивает страницу «на лету» при ответе пользователю. Блокировка inference-бота убирает ваш сайт из live-ответов.

TrainingInference
ЧастотаРаз в месяцыКаждый запрос
Влияние блокировкиНа следующую версию моделиНа текущие ответы
Примеры ботовGPTBot, ClaudeBot, CCBotChatGPT-User, PerplexityBot
# Classic search engines — full access
User-agent: Googlebot
Allow: /
# AI training crawlers — block
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Google-Extended
Disallow: /
# AI browse/inference — allow
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Allow documentation, block private areas
User-agent: GPTBot
Allow: /docs/
Allow: /blog/
Disallow: /admin/
Disallow: /internal/
Disallow: /api/private/

Googlebot и Google-Extended — разные user-agents:

  • Googlebot — индексация для Google Search. Блокировка = потеря позиций в поиске
  • Google-Extended — данные для Gemini/AI Overviews. Блокировка не влияет на органический поиск

Блокируйте Google-Extended без страха за SEO.

Отрасль экспериментирует с расширениями robots.txt для AI:

# Экспериментальные директивы (не все боты поддерживают)
User-agent: *
DisallowAITraining: /
<!-- HTML meta-тег -->
<meta name="robots" content="noai, noimageai">

Cloudflare предложил AI Audit — управление AI-ботами через dashboard без редактирования robots.txt.

Два файла решают противоположные задачи:

robots.txtllms.txt
Цель«Куда НЕ ходить»«Что ВАЖНО»
АудиторияВсе краулерыLLM и AI-инструменты
ФорматПользовательский синтаксисMarkdown
ВлияниеБлокирует доступНаправляет внимание
СтандартRFC 9309Community convention

Оба файла взаимодополняют друг друга:

  1. robots.txt — защищает приватный контент от ботов
  2. llms.txt — помогает AI найти самое ценное в открытом контенте

Полный пример для сайта документации:

robots.txt
# Search engines
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# AI training — block
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
# AI inference/browse — allow docs
User-agent: ChatGPT-User
Allow: /docs/
Disallow: /
User-agent: PerplexityBot
Allow: /docs/
Disallow: /
# Sitemap
Sitemap: https://example.com/sitemap.xml

Дополните этот robots.txt файлом llms.txt — и AI-ассистенты получат структурированный доступ к вашей документации.


Источники: