В разработке

Генератор Robots.txt |

Реклама

Общие директивы

Перед настройкой переопределений по умолчанию настройте поведение по умолчанию для всех краулеров.

Установите глобальное правило разрешения или блокировки для User-agent: *.

Если вашему серверу нужно больше свободного пространства, ограничьте использование обходных путей.

Необязательная директива хоста для зеркальных доменов.

Один путь на строку. Поддерживаются подстановочные знаки и завершающие косые черты.

Обеспечьте доступность индексации для определенных папок даже при блокировке более широких путей.

Указывайте один URL-адрес карты сайта на каждой строке. Добавьте дополнительные индексы карты сайта, если они у вас есть.

Обычные ползающие

Отключите возможность полной блокировки только тех поисковых роботов, которые вы хотите заблокировать. Оставьте им возможность использовать правило по умолчанию, указанное выше.

Пользовательские правила

Добавьте пользовательские агенты с настраиваемыми директивами разрешения или блокировки, задержками сканирования и подсказками карты сайта.

Скопируйте сгенерированный выше файл и загрузите его в корневую папку вашего домена под именем robots.txt.

Создавайте файлы robots.txt для управления поведением сканирования поисковых систем.
Реклама

Содержание

Robots.txt — это небольшой текстовый файл, который направляет поисковых ботов на вашем сайте. Он указывает краулерам, какие зоны они могут попасть и какие пути им следует избегать. Это продолжает сканировать важные страницы и снижает количество потерь посещений по малоценным URL.

Используйте robots.txt для блокировки таких областей, как страницы администратора, папки staging, тестовые URL, страницы фильтрации и дублирующиеся пути. Когда ваши правила ясны, поисковые системы уделяют больше внимания вашим важным страницам. Это поможет новым контентам открываться быстрее и оставаться чистым и предсказуемым.

Robots.txt входит в стандарт исключения роботов. Вы ставите его по адресу:

yourdomain.com/robots.txt

Поисковые системы часто проверяют этот файл заранее, потому что он даёт им чёткие инструкции по обходу. Если ваш сайт небольшой, его всё равно могут индексировать без robots.txt файла. Но на крупных сайтах отсутствие подсказок может привести к напрасному сканированию и более медленному обнаружению ключевых страниц.

Один важный момент:

  • Robots.txt управление сползает
  • Он не гарантирует индексацию

Если вы хотите убедиться, что страница может появиться в результатах поиска, используйте проверку индексируемости. Это помогает распознавать такие сигналы, как noindex, заблокированные ресурсы или другие проблемы, которые robots.txt не охватывает.

Поисковые системы не сканируют каждую страницу каждый день. Они сканируют по ограничениям и сигналам, таким как скорость сайта, состояние сервера и частота изменений вашего контента.

Если ваш сайт работает медленно или возвращает ошибки, краулеры могут посещать меньше страниц за запуск. Это может задержать индексацию новых публикаций и обновленных страниц. Robots.txt помогает, снижая потерю обходов, чтобы боты больше времени уделяли страницам, на которых вы действительно хотите.

Для наилучших результатов используйте robots.txt с картой сайта:

  • Robots.txt подсказывает ботам, что сканировать или пропускать
  • Sitemap показывает страницы, которые вы хотите сканировать и индексировать

Файл robots.txt использует несколько простых директив. Их легко читать, но нужно писать внимательно.

  • User-agent
  • Наборы, к какому боту применяется это правило
  • Запрет
  • Блоки, сканирующиеся в поисках папки или пути
  • Разрешить
  • Открывает определённый путь внутри заблокированной папки
  • Задержка ползания
  • Некоторые боты запрашивают более медленный сканирование (не все боты следуют за этим)

Небольшая ошибка может заблокировать важные страницы, включая ключевые категории или основные целевые страницы. Вот почему использование генератора безопаснее, чем писать всё вручную.

WordPress может создавать множество URL, которые не способствуют SEO, например, внутренние страницы поиска, некоторые архивные страницы и URL на основе параметров. Блокировка малоценных областей помогает краулерам проводить больше времени на ваших основных страницах, блогах и страницах товаров или услуг.

Даже на небольших площадках чистый robots.txt файл — это умная схема. Это помогает организовать ваши правила обхождения по мере роста сайта.

Карта сайта помогает поисковым системам найти страницы, которые вы хотите сканировать. Robots.txt контролирует, куда могут идти боты.

  • Sitemap улучшает обнаружение
  • Robots.txt управляет ползающим доступом

Большинство сайтов выигрывают от использования обоих методов.

Robots.txt просто, но не прощает. Одно неправильное правило может заблокировать ключевые страницы. Этот генератор помогает безопасно собрать файл.

Установка доступа по умолчанию

Выберите по умолчанию, смогут ли все боты сканировать ваш сайт.

Добавьте URL вашей карты сайта

Включите карту сайта, чтобы краулеры могли быстрее находить важные страницы.

Аккуратно добавляйте запрещённые пути

Блокируйте только то, что вы действительно не хотите, чтобы его ползали. Всегда начинайте с косой черты вперёд, например:

/admin/ или /search/

Рецензия перед публикацией

Убедитесь, что вы не заблокировали главную страницу, блог, страницы категорий или основные страницы сервиса.

Robots.txt — это часть технического SEO. Эти инструменты поддерживают ту же цель и помогают убедиться, что всё работает правильно:

  • Проверка карты сайта: подтверждает, что ваша карта сайта валидна и легко читается ботами.
  • Google Index Checker: проверяет, можно ли индексировать страницу, и отмечает распространённые блокирующие факторы, такие как noindex.
  • Проверьте статус HTTP-кода: находит ошибки 200, 301, 404 и серверные ошибки, которые могут замедлять сканирование.
  • Бесплатная проверка перенаправления: подтверждает, что перенаправления чистые и не застревают в цепях или петлях.
  • Анализ мета-тегов: Проверяет заголовки, описания и мета-теги роботов на предмет ошибок в SEO.

Документация по API скоро будет доступна.

Documentation for this tool is being prepared. Please check back later or visit our full API documentation.