Подробный мануал от SEO-BILITY о составлении файла robots.txt. Как адаптировать под требования поисковых систем, найти на сайте и написать с нуля. Два способа поиска мусорных страниц для блокировки. Дефолтный шаблон. Управляйте индексацией своего ресурса грамотно.

Что и для чего

Robots.txt — документ в текстовом формате с инструкциями для поисковых роботов. Перед началом сканирования сайта, боты ищут файл роботс, чтобы понимать на что не стоит тратить время при обходе.

Необходим он для того, чтобы в индекс не попадали лишние страницы, которые не несут необходимой информации ни для поиска, ни для пользователя и нам не нужно их нахождение в выдаче.

Есть такое понятие как краулинговый бюджет — лимит url’ов, доступных для обхода роботом на один заход, который определяется для каждого ресурса по-разному. Проще говоря вместо того, чтобы сканировать страницу с восстановлением пароля, следует дать страницу новой статьи из блога.

Где найти

Где лежит robots.txt в WordPress? В самой админке его по умолчанию нет, док находится на ftp хостинга в корневой папке.

Wordpress robots txt где лежит

Что содержит

Примеры страниц для блокировки:

  • поиск по сайту,
  • страницы личного кабинета (логин, регистрация, восстановление пароля и проч.),
  • корзина, оформление и благодарность за заказ,
  • параметры сортировки, фильтрации, сравнения, wish листы,
  • дубли,
  • мусорные страницы,
  • недостаточно качественные страницы,
  • профили зарегистрированных,
  • вход в админку,
  • также мы всегда закрываем страницы с информацией о персональных данных.

Шаблон

Ниже мы составили пример базового файла robots.txt для цмс WordPress — здесь список команд, которые есть на любом сайте. На основе этого файла можно вносить индивидуальные директивы.

User-agent: *

Allow: *.js

Allow: /wp-content/*.js

Allow: /wp-includes/*.js

Allow: *.css

Allow: /wp-content/*.css

Allow: *.jpg

Allow: /wp-content/*.jpg

Allow: *.png

Allow: /wp-content/*.png

Disallow: /author/

Disallow: /*?

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Sitemap:

User-agent: Yandex

Allow: *.js

Allow: /wp-content/*.js

Allow: /wp-includes/*.js

Allow: *.css

Allow: /wp-content/*.css

Allow: *.jpg

Allow: /wp-content/*.jpg

Allow: *.png

Allow: /wp-content/*.png

Disallow: /author/

Disallow: /*?

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

User-agent: Googlebot

Allow: *.js

Allow: /wp-content/*.js

Allow: /wp-includes/*.js

Allow: *.css

Allow: /wp-content/*.css

Allow: *.jpg

Allow: /wp-content/*.jpg

Allow: *.png

Allow: /wp-content/*.png

Disallow: /author/

Disallow: /*?

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Продвижение сайтов в Digital Internet Agency SEO-BILITY.

В робот тхт иногда указывают ссылку на карты сайта, но это не обязательно — в каждом кабинете вебмастера его можно загрузить напрямую.

Как сделать

Правильный robots.txt для WordPress создаётся в программе Блокнот (а лучше в Notepad++). В него вносим все код-команды, сохраняем под именем robots, загружаем на фтп, удостоверившись, что он сохранился в формате txt в нижнем регистре. Вносить изменения можно в любое время и применяются они моментально. После загрузки он будет доступен по ссылке robots.txt после домена, например, http://seo-bility.ru/robots.txt.

Со всеми командами для обхода можно ознакомиться в помощи Яндекса https://yandex.ru/support/webmaster/controlling-robot/.

Особенности некоторых директив

Директиву Crawl-delay (таймаут загрузки между страницами для роботов в секундах) использовать не рекомендуем, т.к. это почти всегда приводит к проблемам индексации. Если вы задумались, что такая директива нужна — меняйте хостинг.

Крайне важно следить за знаками пробелов и перевода строки. Пробелы ставим только между командами, например, Disallow: пробел инструкция. Ни в конце строки, ни в начале их быть не должно. Перевод строки используем только между блоками команд для робота: написали инструкцию, разделили, тем самым обозначили конец правил для поискового робота.

Каждая команда пишется на новой строке.

Знак звёздочки* в роботс.тхт — компонент регулярного выражения для последовательности любых символов в месте, где они обычно находятся. Например, в нашем robots.txt для Вордпресс инструкция *.jpg означает любые знаки файла jpg-формата, а /wp-includes/*.js символы, расположенные между https://seo-bility.ru/wp-includes/ и js.

Правильный роботс тхт для Вордпресс

Бывает, что в инструкции допущены ошибки (видели и такое, что один неверный знак полностью закрыл сайт от индексации), поэтому проверить стоит напрямую у робота по ссылке https://webmaster.yandex.ru/tools/robotstxt/ или в аналогичном сервисе в вебмастере Google (мануал).

Плагины

Существует множество плагинов для Вордпресс, которые в режиме реального времени обновляют ваш файл роботс, но использовать их мы крайне не рекомендуем. Проще всего потратить некоторое время на изучение этого инструмента и дополнять его по мере возможности (раз в два месяца, например), чем плодить их избыток, что создаёт повышенную нагрузку на хостинг и негативно сказывается на скорости работы сайта. Собственно, именно поэтому здесь мы их рассматривать не будем.

Что нужно закрыть

Если вы готовите роботс тхт в Вордпрессе впервые и не знаете что происходит внутри сайта, то рекомендуем два способа.

Способ раз

  1. парсинг всех страниц сайта (классная инструкция как это сделать с помощью Screaming Frog Seo Spider);
  2. после остановки процесса сбора пробегаем глазами все урлы на предмет лишних или неестественных знаков и соотносим между собой со строками Content и Status code (если используете Лягушку);
  3. вносим изменения в robots.txt, прогоняем через вебмастера, перезапускаем парсер для проверки.

Способ два

Проверить качество индексации мы можем и в выдаче самой поисковой системы по домену. Ищем подозрительные страницы и закрываем их от индекса (в нашем случае страница, сгенерированная одним из плагинов, давно удалена, но до сих пор висит в поиске).

robots.txt для Вордпресс

И как обычно, ждём комментарии!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *