Правильный файл robots.txt WordPress для Яндекса и Google

В сегодняшнем видео уроке по WordPress SEO я расскажу и покажу на примерах особенности создания и использования файла robots.txt для WordPress, этот урок не планировался как исчерпывающее руководство по robots.txt, но он должен дать вам хорошее представление о том что это за файл и что туда добавлять для минимизации попадания ненужных файлов в индекс поисковых систем и как его использовать для управления тем как поисковые роботы Google и Яндекс индексируют ваш сайт. Если у вас возникнут вопросы — пишите в комметариях, ниже привожу текстовый транскрипт видео, на тот случай если у вас возникнут вопросы или будет нужен фрагмент кода в текстовом виде.

Текстовый транскрипт видео:

Здравствуйте,

Меня зовут Дмитрий, и в этом видео вы узнаете о том, как контролировать индексирование вашего сайта поисковыми системами с помощью файла robots.txt. Плюс в качестве примера мы разберем robots.txt для WordPress, который минимизирует индексирование ненужных файлов поисковыми системами. Итак, приступим.

Для чего нужен файл robots.txt

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции, запрещающие посещение и индексирование отдельных разделов сайта. robots.txt предназначен для использования ботами, в качестве примера ботов можно назвать поисковых роботов Яндекса и Google или ботов архиваторов, как например робот Web Archive.

Для создания robots.txt воспользуйтесь любым текстовым редактором, заполните его в соответствии с вашими пожеланиями и примерами в этом видео и сохраните как просто тест без форматирования, расширение файла должно быть .txt. После этого необходимо загрузить файл в корневой каталог вашего сайта.

Используйте файл robots.txt для ограничения поисковых роботов от индексации отдельных разделов вашего сайта. Вы можете указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы в отдельности, используя директиву User-Agent. Для списка роботов популярных поисковых систем перейдите по ссылке в описании этого видео.

Пример robots.txt для WordPress

В качестве примера robots.txt для WordPress, который минимизирует индексирование ненужных файлов поисковыми системами, вы можете использовать следующий шаблон:

User-Agent: *
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-admin/
Disallow: /*.swf
Disallow: /*.flv
Disallow: /*.pdf
Disallow: /*.doc
Disallow: /*.exe
Disallow: /*.htm
Disallow: /*.html
Disallow: /*.zip
Allow: /

Давайте разберем по порядку, что здесь написано. Строчка User-Agent: * говорит, что это относится к любым агентам, к любым поисковым системам, к любым ботам, которые посещают сайт. Строчки, начинающиеся с Disallow: — это директивы, запрещающие индексирование какой-либо части сайта. Например, строчка Disallow: /wp-admin/ запрещает индексирование папки /wp-admin/, любых файлов, которые находятся в папке /wp-admin/. Сейчас у нас запрещены к индексированию папки – плагины, темы и wp-admin (/plugins/ /themes/ /wp-admin/). Директива Disallow: /*. и расширение файла запрещает к индексированию определенный тип файлов. В данный момент запрещены к индексированию .swf, *.flv, *.pdf, *.doc, *.exe, *.js, *.htm, *.html, *.zip. Последняя строчка Allow: / разрешает индексирование любых других частей сайта и любых других файлов.

Если вы используете плагин кеширования, который генерирует статичные версии ваших страниц или структуру постоянных ссылок, оканчивающуюся .htm/.html, уберите строчки

Disallow: /*.htm
Disallow: /*.html

В общем, если в адресной строке браузера адреса ваших страниц заканчиваются на .htm или .html, то уберите эти две строчки из robots.txt, иначе вы запретите к индексированию большую часть вашего сайта. Если вы хотите открыть все разделы сайта для индексирования всем роботам, то можете использовать следующий фрагмент:

User-agent: *
Disallow:

Так как помимо полезных ботов (например, роботы поисковых систем, которые соблюдают директивы указанные в robots.txt) ваш сайт посещается вредными ботами (спам боты, скрейперы контента, боты которые ищут возможности для инъекции вредоносного кода), которые не только не соблюдают правила, указанные в robots.txt, а, наоборот, посещают запрещенные папки и файлы с целью выявления уязвимостей и кражи пользовательских данных. В таком случае если вы не хотите явно указывать адрес папки или файла, запрещенного к индексированию, вы можете воспользоваться директивой частичного совпадения. Например, у вас есть папка /shop-zakaz/, которую вы хотите запретить к индексированию. Для того, чтобы явно не указывать адрес этой папки для скрейперов и ботов шпионов вы можете указать часть адреса:

Disallow: *op-za*

или

Disallow:*zakaz*

Символ * заменяет произвольное количество символов, тогда любые папки и файлы, содержащие в своем названии эту комбинацию, будут запрещены к индексированию. Старайтесь выбирать часть адреса, который уникален для этой папки, потому что если эта комбинация встретится в других файлах и папках, вы запретите их к индексированию.
Для того, чтобы случайно не запретить к индексированию нужную часть сайта всегда имеет смысл проверить, как поисковые системы воспринимают правила, указанные в вашем robots.txt. Если вы —  подтвержденный владелец сайта в инструментах вебмастера Google или Яндекс — вы можете воспользоваться встроенными инструментами для проверки правил robots.txt.

Проверка robots.txt в Google Webmaster Tools

Для  того, чтобы проверить robots.txt в Google Webmaster Tools перейдите в секцию «Crawl>Blocked URLs», здесь вы можете воспользоваться текущей версией robots.txt или же отредактировать ее, чтобы протестировать изменения, затем добавьте список URL, которые вы хотите протестировать и нажмите на кнопку «Проверить». Результаты теста покажут, какие из указанных URL разрешены к индексированию, а какие запрещены.

Проверка robots.txt в Яндекс Вебмастер

Для  того, чтобы проверить robots.txt в Яндекс Вебмастер перейдите в секцию «Настройка индексирования>Анализ robots.txt», при необходимости внесите изменения в robots.txt, добавьте список URL и нажмите кнопку «Проверить». Результаты теста покажут, какие из указанных URL разрешены к индексированию, а какие запрещены.

Редактируя правила составьте файл robots.txt, подходящий для вашего сайта. Помните, что файл на сайте при этом не меняется. Для того, чтобы изменения вступили в силу, вам потребуется самостоятельно загрузить обновленную версию robots.txt на сайт.

Заключение

Ну, вот мы и осветили основные моменты работы с robots.txt. Если вам нужны фрагменты и примеры файлов robots.txt, которые я использовал в этом видео, перейдите по ссылке, которая указана в описании этого видео. Спасибо за то, что посмотрели это видео, мне было приятно его для вас делать, буду вам благодарен, если вы поделитесь им в социальных сетях)) Ставьте «палец вверх» и подписывайтесь на новые видео.

Если у вас возникли проблемы с просмотром – вы можете посмотреть видео «Уроки WordPress — правильный файл robots.txt WordPress для Яндекса и Google» на YouTube.

28 мыслей о “Правильный файл robots.txt WordPress для Яндекса и Google

    • Дмитрий сказал:

      Почему нет? Например, я различные руководста для подписчиков сохраняю в PDF и не хочу их выставлять их напоказ чтобы кто-угодно мог их скачивать. Это вопрос предпочтения, если для вашего сайта, это не приемлимо уберите ненужные строчки :), а называть что-то бредом потому что у вас другое мнение…

  1. melnik сказал:

    Здрвствуйте мне Гугл в панели Вебмастеров в разделе Файлы Sitemap пишет следующее «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.»
    Вот мой Robots.txt:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /page
    Disallow: /tag
    Disallow: /plugins
    Disallow: /archives
    Disallow: /go
    Disallow: /goto

    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /*?*
    Disallow: /tag
    Disallow: /page
    Disallow: /plugins
    Disallow: /archives
    Disallow: /go
    Disallow: /goto
    Host: krestroy.ru
    Sitemap: http://krestroy.ru/sitemap.xml.gz
    Sitemap: http://krestroy.ru/sitemap.xml
    Помогите пожалуйста!!!

    • Дмитрий сказал:

      Google Webmaster Tools обычно пишет какие файлы из карты сайта заблокированы в robots.txt, если скините пару адресов файлов, то можно будет понять является это проблемой или нет.

  2. Александр сказал:

    День добрый!
    Подскажите пожалуйста:

    1. В корень сайта залит файл robots.txt содержимое:

    User-agent: *
    Disallow:

    2. При переходе по ссылке http://www.alexander.dp.ua/robots.txt
    содержимое не отображается…

    В чем ошибка!?

    С ув. Александр

  3. ирина сказал:

    Сайту 2 недели, GOOGLE проиндексировал 7 стр, yandex-только главную, но все может быть, жду. Вдруг обнаруживаю, что другие роботы не могут посещеть мои страницы, в частности, Megaindex говорит, что у меня запрет на посещение роботов. Так же примерно ведут себя и другие роботы. Но ни в robots.txt, ни в др. настройках запрета нет. Сайт на WordPress, может, где-то в настройках или в плагинах… Уже голову сломала, что делать…Все перерыла. Может, кто-то подскажет, сталкивался?

    • Дмитрий сказал:

      В инструментах вебмастера Google и Яндекса есть инструмент для проверки robots.txt в плане доступности для поисковых роботов http://webmaster.yandex.ru/site/robots.xml и https://www.google.com/webmasters/tools/googlebot-fetch с помощью которых можно проверить как видят ваш сайт поисковые роботы. Чтобы протестировать в чем проблема для других роботов — можно поставить в robots.txt
      User-agent: *
      Allow: /

      • ирина сказал:

        Спасибо за участие. Уже все проверила, видят, согласно google и yandex, только индексировать дальше не хотят, а вот megainex и др. беспатные web-аудиты или не видят вообще или видят только первую страницу без тегов. говорят, значит, ошибки в коде. Аналогично роботы с др. сайтов(типа досок объявлений), на которых я хотела разместить ссылки на свой. Они требуют ссылки обратные, ставлю, а они не видят… Сайт на WP без моих правок, плагинов-минимум, все проверенные. Обновила WP-безрезультатно, сменила тему-тоже самое. Полагаю, в чем-то мой косяк есть, знать бы еще, в чем… htaccess, robots — норм, где б еще копнуть?

  4. Lina сказал:

    Если сами не уверенны в правильности составления Robots.txt можно воспользоваться онлайн-сервисами типа http://mediasova.com/create-robots-txt/ (автоматическая генерация файла)

  5. Василий сказал:

    Посмотрите пожалуйста правильно составлен для магазина-магазину -домену больше года года -Почемуто последнее время стали стр добавлятся,представляете уже загружено 72124 стр-

    User-agent: *
    Disallow:
    Disallow: /search
    Disallow: /cart
    Disallow: /order
    Disallow: /admin
    Disallow: /*?psort=new
    Disallow: /*?psort=popular
    Disallow: /*?page=
    Clean-param: color /
    Clean-param: ref /
    Clean-param: model /
    Clean-param: side /

      • Василий сказал:

        http://kupit-domic.ru/ удалил весь робот оставил только
        User-agent: *
        Disallow:
        будим пробовать
        хотя уже много что перепробовал
        раньше так хорошо индексировался
        я думал дубли страниц хотя это не дубли
        посетители перестали появляться
        в общем пипец-столько бабла на раскрутку ушло

        • Дмитрий сказал:

          Чтобы не было проблем с дублями страниц имеет смысл использовать rel=»canonical» вот здесь про это подробно написано https://support.google.com/webmasters/answer/139066?hl=ru

  6. Andrew сказал:

    Приветствую вас Дмитрий,
    Буду вам признателен если подскажите, правильно ли составлен robots.txt
    Много споров и утверждений по поводу строчек Disallow: /*?* Disallow: /*?
    Проблема в том, что страницы дублируются, а это не есть хорошо.
    Спасибо за совет и помощь!

    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /webstat/
    Disallow: /feed/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Disallow: /category/*/*
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /comments

    User-agent: Yandex
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /webstat/
    Disallow: /feed/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Disallow: /category/*/*
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /comments
    Host: http://www.site.com

    Sitemap: http://www.site.com/sitemap.xml
    Sitemap: http://www.site.com/sitemap.xml.gz

    • Дмитрий сказал:

      У вас сайт http://www.site.com, или это в у вас в robots.txt копипаст с другого сайта? Чтобы не было дублирующихся страниц — помогает канонизация, у вас она настроена?

  7. Александр сказал:

    По-поводу запрета .js c google форума
    «Недавно мы сообщали об изменениях в системе индексирования. Теперь она обрабатывает веб-страницы почти так же, как любой современный браузер с поддержкой CSS и JavaScript. В связи с этим мы подготовили новую версию технических требований в руководстве для веб-мастеров.
    Чтобы добиться оптимального отображения и индексирования контента, следует открыть роботу Googlebot доступ к изображениям и файлам JavaScript и CSS. Если в настройках robots.txt доступ к этим файлам закрыт, алгоритм не сможет правильно отобразить и проиндексировать ваш контент. Это может сказаться на том, как ваш сайт отображается в результатах поиска.»

  8. Сергей К. сказал:

    Здравствуйте, Дмитрий!

    Вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Мой сайт — не блог, а сайт небольшого агентства недвижимости.

    Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/

    Проверяю мои страницы в webmaster Гугла в разделе «Посмотреть как Googlebot». При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указывается, что блокировка этих элементов происходит из-за директив:
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/

    В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным? Если последнее верно, то что нужно сделать, чтобы исправить ситуацию?

    Сергей К.

  9. Милашка сказал:

    Добрый день. У меня такая ситуация,много заходила к этому сайту,вчера все браузеры выдают на экран:
    http://www.akalam.kz/
    Описание веб-страницы недоступно из-за ограничений в файле robots.txt.
    а потом страница показывает 502 Bad Gateway
    Что делать?
    Смартфон показывает сайт,а компьютер нет((((

    • Дмитрий сказал:

      Если хотите запретить индексацию php файлов то лучше написать Disallow: *.php хотя обычно поисковики не индексируют их, ведь при обращении к php файлу отдается html

Добавить комментарий