SandBox,WordPress SEO,Видео Уроки WordPress,ЯExclude,ЯRSS

Правильный файл robots.txt WordPress для Яндекса и Google

В сегодняшнем видео уроке по WordPress SEO я расскажу и покажу на примерах особенности создания и использования файла robots.txt для WordPress, этот урок не планировался как исчерпывающее руководство по robots.txt, но он должен дать вам хорошее представление о том что это за файл и что туда добавлять для минимизации попадания ненужных файлов в индекс поисковых систем и как его использовать для управления тем как поисковые роботы Google и Яндекс индексируют ваш сайт. Если у вас возникнут вопросы — пишите в комметариях, ниже привожу текстовый транскрипт видео, на тот случай если у вас возникнут вопросы или будет нужен фрагмент кода в текстовом виде.

Текстовый транскрипт видео:

Оглавление

1 Для чего нужен файл robots.txt
2 Пример robots.txt для WordPress
3 Проверка robots.txt в Google Webmaster Tools
4 Проверка robots.txt в Яндекс Вебмастер
5 Заключение

Здравствуйте,

Меня зовут Дмитрий, и в этом видео вы узнаете о том, как контролировать индексирование вашего сайта поисковыми системами с помощью файла robots.txt. Плюс в качестве примера мы разберем robots.txt для WordPress, который минимизирует индексирование ненужных файлов поисковыми системами. Итак, приступим.

Для чего нужен файл robots.txt

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции, запрещающие посещение и индексирование отдельных разделов сайта. robots.txt предназначен для использования ботами, в качестве примера ботов можно назвать поисковых роботов Яндекса и Google или ботов архиваторов, как например робот Web Archive.

Для создания robots.txt воспользуйтесь любым текстовым редактором, заполните его в соответствии с вашими пожеланиями и примерами в этом видео и сохраните как просто тест без форматирования, расширение файла должно быть .txt. После этого необходимо загрузить файл в корневой каталог вашего сайта.

Используйте файл robots.txt для ограничения поисковых роботов от индексации отдельных разделов вашего сайта. Вы можете указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы в отдельности, используя директиву User-Agent. Для списка роботов популярных поисковых систем перейдите по ссылке в описании этого видео.

Пример robots.txt для WordPress

В качестве примера robots.txt для WordPress, который минимизирует индексирование ненужных файлов поисковыми системами, вы можете использовать следующий шаблон:

User-Agent: *
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-admin/
Disallow: /*.swf
Disallow: /*.flv
Disallow: /*.pdf
Disallow: /*.doc
Disallow: /*.exe
Disallow: /*.htm
Disallow: /*.html
Disallow: /*.zip
Allow: /

Давайте разберем по порядку, что здесь написано. Строчка User-Agent: * говорит, что это относится к любым агентам, к любым поисковым системам, к любым ботам, которые посещают сайт. Строчки, начинающиеся с Disallow: — это директивы, запрещающие индексирование какой-либо части сайта. Например, строчка Disallow: /wp-admin/ запрещает индексирование папки /wp-admin/, любых файлов, которые находятся в папке /wp-admin/. Сейчас у нас запрещены к индексированию папки – плагины, темы и wp-admin (/plugins/ /themes/ /wp-admin/). Директива Disallow: /*. и расширение файла запрещает к индексированию определенный тип файлов. В данный момент запрещены к индексированию .swf, *.flv, *.pdf, *.doc, *.exe, *.js, *.htm, *.html, *.zip. Последняя строчка Allow: / разрешает индексирование любых других частей сайта и любых других файлов.

Если вы используете плагин кеширования, который генерирует статичные версии ваших страниц или структуру постоянных ссылок, оканчивающуюся .htm/.html, уберите строчки

Disallow: /*.htm
Disallow: /*.html

В общем, если в адресной строке браузера адреса ваших страниц заканчиваются на .htm или .html, то уберите эти две строчки из robots.txt, иначе вы запретите к индексированию большую часть вашего сайта. Если вы хотите открыть все разделы сайта для индексирования всем роботам, то можете использовать следующий фрагмент:

User-agent: *
Disallow:

Так как помимо полезных ботов (например, роботы поисковых систем, которые соблюдают директивы указанные в robots.txt) ваш сайт посещается вредными ботами (спам боты, скрейперы контента, боты которые ищут возможности для инъекции вредоносного кода), которые не только не соблюдают правила, указанные в robots.txt, а, наоборот, посещают запрещенные папки и файлы с целью выявления уязвимостей и кражи пользовательских данных. В таком случае если вы не хотите явно указывать адрес папки или файла, запрещенного к индексированию, вы можете воспользоваться директивой частичного совпадения. Например, у вас есть папка /shop-zakaz/, которую вы хотите запретить к индексированию. Для того, чтобы явно не указывать адрес этой папки для скрейперов и ботов шпионов вы можете указать часть адреса:

Disallow: *op-za*

или

Disallow:*zakaz*

Символ * заменяет произвольное количество символов, тогда любые папки и файлы, содержащие в своем названии эту комбинацию, будут запрещены к индексированию. Старайтесь выбирать часть адреса, который уникален для этой папки, потому что если эта комбинация встретится в других файлах и папках, вы запретите их к индексированию.
Для того, чтобы случайно не запретить к индексированию нужную часть сайта всегда имеет смысл проверить, как поисковые системы воспринимают правила, указанные в вашем robots.txt. Если вы — подтвержденный владелец сайта в инструментах вебмастера Google или Яндекс — вы можете воспользоваться встроенными инструментами для проверки правил robots.txt.

Проверка robots.txt в Google Webmaster Tools

Для того, чтобы проверить robots.txt в Google Webmaster Tools перейдите в секцию «Crawl>Blocked URLs», здесь вы можете воспользоваться текущей версией robots.txt или же отредактировать ее, чтобы протестировать изменения, затем добавьте список URL, которые вы хотите протестировать и нажмите на кнопку «Проверить». Результаты теста покажут, какие из указанных URL разрешены к индексированию, а какие запрещены.

Проверка robots.txt в Яндекс Вебмастер

Для того, чтобы проверить robots.txt в Яндекс Вебмастер перейдите в секцию «Настройка индексирования>Анализ robots.txt», при необходимости внесите изменения в robots.txt, добавьте список URL и нажмите кнопку «Проверить». Результаты теста покажут, какие из указанных URL разрешены к индексированию, а какие запрещены.

Редактируя правила составьте файл robots.txt, подходящий для вашего сайта. Помните, что файл на сайте при этом не меняется. Для того, чтобы изменения вступили в силу, вам потребуется самостоятельно загрузить обновленную версию robots.txt на сайт.

Заключение

Ну, вот мы и осветили основные моменты работы с robots.txt. Если вам нужны фрагменты и примеры файлов robots.txt, которые я использовал в этом видео, перейдите по ссылке, которая указана в описании этого видео. Спасибо за то, что посмотрели это видео, мне было приятно его для вас делать, буду вам благодарен, если вы поделитесь им в социальных сетях)) Ставьте «палец вверх» и подписывайтесь на новые видео.

Если у вас возникли проблемы с просмотром – вы можете посмотреть видео «Уроки WordPress — правильный файл robots.txt WordPress для Яндекса и Google» на YouTube.

28 мыслей о “Правильный файл robots.txt WordPress для Яндекса и Google”

TH сказал:
Посмотрите, пожалуйста, у меня правильно составлен robots.txt, на запрет индексации сайта Яндексом? h_ttp://thajland.com/robots.txt

25.09.2013 / 11:05 пп
Войдите, чтобы ответить
- Дмитрий сказал:
  Если вам нужен запрет индексации для Яндекса но можно указать
  User-agent: Yandex Disallow:/
  
  01.10.2013 / 8:18 пп
  Войдите, чтобы ответить
Ещё один Алён Винницкий сказал:
Запретить индексировать .doc и .pdf? Какой удивительный бред.

26.11.2013 / 3:02 дп
Войдите, чтобы ответить
- Дмитрий сказал:
  Почему нет? Например, я различные руководста для подписчиков сохраняю в PDF и не хочу их выставлять их напоказ чтобы кто-угодно мог их скачивать. Это вопрос предпочтения, если для вашего сайта, это не приемлимо уберите ненужные строчки :), а называть что-то бредом потому что у вас другое мнение…
  
  26.11.2013 / 9:32 дп
  Войдите, чтобы ответить
melnik сказал:
Здрвствуйте мне Гугл в панели Вебмастеров в разделе Файлы Sitemap пишет следующее «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.»
Вот мой Robots.txt:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /page
Disallow: /tag
Disallow: /plugins
Disallow: /archives
Disallow: /go
Disallow: /goto

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /page
Disallow: /plugins
Disallow: /archives
Disallow: /go
Disallow: /goto
Host: krestroy.ru
Sitemap: http://krestroy.ru/sitemap.xml.gz
Sitemap: http://krestroy.ru/sitemap.xml
Помогите пожалуйста!!!

04.01.2014 / 7:56 пп
Войдите, чтобы ответить
- Дмитрий сказал:
  Google Webmaster Tools обычно пишет какие файлы из карты сайта заблокированы в robots.txt, если скините пару адресов файлов, то можно будет понять является это проблемой или нет.
  
  05.01.2014 / 5:07 пп
  Войдите, чтобы ответить
Александр сказал:
День добрый!
Подскажите пожалуйста:

1. В корень сайта залит файл robots.txt содержимое:

User-agent: *
Disallow:

2. При переходе по ссылке http://www.alexander.dp.ua/robots.txt
содержимое не отображается…

В чем ошибка!?

С ув. Александр

06.03.2014 / 1:31 пп
Войдите, чтобы ответить
- Дмитрий сказал:
  У меня файл по ссылке открывается и содержимое отображается.
  
  06.03.2014 / 8:19 пп
  Войдите, чтобы ответить
ирина сказал:
Сайту 2 недели, GOOGLE проиндексировал 7 стр, yandex-только главную, но все может быть, жду. Вдруг обнаруживаю, что другие роботы не могут посещеть мои страницы, в частности, Megaindex говорит, что у меня запрет на посещение роботов. Так же примерно ведут себя и другие роботы. Но ни в robots.txt, ни в др. настройках запрета нет. Сайт на WordPress, может, где-то в настройках или в плагинах… Уже голову сломала, что делать…Все перерыла. Может, кто-то подскажет, сталкивался?

05.05.2014 / 1:49 пп
Войдите, чтобы ответить
- Дмитрий сказал:
  В инструментах вебмастера Google и Яндекса есть инструмент для проверки robots.txt в плане доступности для поисковых роботов http://webmaster.yandex.ru/site/robots.xml и https://www.google.com/webmasters/tools/googlebot-fetch с помощью которых можно проверить как видят ваш сайт поисковые роботы. Чтобы протестировать в чем проблема для других роботов — можно поставить в robots.txt
  User-agent: *
  Allow: /
  
  06.05.2014 / 10:02 пп
  Войдите, чтобы ответить
  - ирина сказал:
    Спасибо за участие. Уже все проверила, видят, согласно google и yandex, только индексировать дальше не хотят, а вот megainex и др. беспатные web-аудиты или не видят вообще или видят только первую страницу без тегов. говорят, значит, ошибки в коде. Аналогично роботы с др. сайтов(типа досок объявлений), на которых я хотела разместить ссылки на свой. Они требуют ссылки обратные, ставлю, а они не видят… Сайт на WP без моих правок, плагинов-минимум, все проверенные. Обновила WP-безрезультатно, сменила тему-тоже самое. Полагаю, в чем-то мой косяк есть, знать бы еще, в чем… htaccess, robots — норм, где б еще копнуть?
    
    06.05.2014 / 11:20 пп
    Войдите, чтобы ответить
Lina сказал:
Если сами не уверенны в правильности составления Robots.txt можно воспользоваться онлайн-сервисами типа http://mediasova.com/create-robots-txt/ (автоматическая генерация файла)

03.01.2015 / 1:11 дп
Войдите, чтобы ответить
Василий сказал:
Посмотрите пожалуйста правильно составлен для магазина-магазину -домену больше года года -Почемуто последнее время стали стр добавлятся,представляете уже загружено 72124 стр-

User-agent: *
Disallow:
Disallow: /search
Disallow: /cart
Disallow: /order
Disallow: /admin
Disallow: /*?psort=new
Disallow: /*?psort=popular
Disallow: /*?page=
Clean-param: color /
Clean-param: ref /
Clean-param: model /
Clean-param: side /

17.01.2015 / 11:42 дп
Войдите, чтобы ответить
- Дмитрий сказал:
  Какой адрес сайта?
  
  17.01.2015 / 2:47 пп
  Войдите, чтобы ответить
  - Василий сказал:
    http://kupit-domic.ru/ удалил весь робот оставил только
    User-agent: *
    Disallow:
    будим пробовать
    хотя уже много что перепробовал
    раньше так хорошо индексировался
    я думал дубли страниц хотя это не дубли
    посетители перестали появляться
    в общем пипец-столько бабла на раскрутку ушло
    
    17.01.2015 / 9:39 пп
    Войдите, чтобы ответить
    - Дмитрий сказал:
      Чтобы не было проблем с дублями страниц имеет смысл использовать rel=»canonical» вот здесь про это подробно написано https://support.google.com/webmasters/answer/139066?hl=ru
      
      22.01.2015 / 9:00 пп
      Войдите, чтобы ответить
Andrew сказал:
Приветствую вас Дмитрий,
Буду вам признателен если подскажите, правильно ли составлен robots.txt
Много споров и утверждений по поводу строчек Disallow: /*?* Disallow: /*?
Проблема в том, что страницы дублируются, а это не есть хорошо.
Спасибо за совет и помощь!

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: http://www.site.com

Sitemap: http://www.site.com/sitemap.xml
Sitemap: http://www.site.com/sitemap.xml.gz

18.01.2015 / 3:19 пп
Войдите, чтобы ответить
- Дмитрий сказал:
  У вас сайт http://www.site.com, или это в у вас в robots.txt копипаст с другого сайта? Чтобы не было дублирующихся страниц — помогает канонизация, у вас она настроена?
  
  22.01.2015 / 8:37 пп
  Войдите, чтобы ответить
Александр сказал:
По-поводу запрета .js c google форума
«Недавно мы сообщали об изменениях в системе индексирования. Теперь она обрабатывает веб-страницы почти так же, как любой современный браузер с поддержкой CSS и JavaScript. В связи с этим мы подготовили новую версию технических требований в руководстве для веб-мастеров.
Чтобы добиться оптимального отображения и индексирования контента, следует открыть роботу Googlebot доступ к изображениям и файлам JavaScript и CSS. Если в настройках robots.txt доступ к этим файлам закрыт, алгоритм не сможет правильно отобразить и проиндексировать ваш контент. Это может сказаться на том, как ваш сайт отображается в результатах поиска.»

14.03.2015 / 2:14 дп
Войдите, чтобы ответить
- Дмитрий сказал:
  Спасибо за апдейт, пост поправлю.
  
  18.03.2015 / 9:35 пп
  Войдите, чтобы ответить
Сергей К. сказал:
Здравствуйте, Дмитрий!

Вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Мой сайт — не блог, а сайт небольшого агентства недвижимости.

Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/

Проверяю мои страницы в webmaster Гугла в разделе «Посмотреть как Googlebot». При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указывается, что блокировка этих элементов происходит из-за директив:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/

В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным? Если последнее верно, то что нужно сделать, чтобы исправить ситуацию?

Сергей К.

26.04.2015 / 4:36 пп
Войдите, чтобы ответить
- Дмитрий сказал:
  Просто удалите эти директивы и проблема исчезнет
  Disallow: /wp-content/plugins/
  Disallow: /wp-content/themes/
  
  02.11.2016 / 9:02 пп
  Войдите, чтобы ответить
Милашка сказал:
Добрый день. У меня такая ситуация,много заходила к этому сайту,вчера все браузеры выдают на экран:
http://www.akalam.kz/
Описание веб-страницы недоступно из-за ограничений в файле robots.txt.
а потом страница показывает 502 Bad Gateway
Что делать?
Смартфон показывает сайт,а компьютер нет((((

21.07.2015 / 11:16 пп
Войдите, чтобы ответить
- Дмитрий сказал:
  Потому что у вас в файле robots.txt стоит запрет на индексацию
  User-agent: *
  Disallow: /
  
  02.11.2016 / 8:33 пп
  Войдите, чтобы ответить
Antonov сказал:
Хороша статья! Автору спасибо!
а то голову сломали с этим файлом уже.

29.07.2015 / 6:33 пп
Войдите, чтобы ответить
Хоб сказал:
Здравствуйте, скажите, не будет ли ошибкой добавить в robots.txt для вордпресс: Disallow: /*.php

02.12.2015 / 12:36 дп
Войдите, чтобы ответить
- Дмитрий сказал:
  Если хотите запретить индексацию php файлов то лучше написать Disallow: *.php хотя обычно поисковики не индексируют их, ведь при обращении к php файлу отдается html
  
  02.11.2016 / 11:04 дп
  Войдите, чтобы ответить
Игорь сказал:
А строке comments тоже нужно блокировать? Она закрывает от индексации комментарии?

29.12.2016 / 3:19 дп
Войдите, чтобы ответить

Добавить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

SandBox,WordPress SEO,Видео Уроки WordPress,ЯExclude,ЯRSS

Правильный файл robots.txt WordPress для Яндекса и Google

Для чего нужен файл robots.txt

Пример robots.txt для WordPress

Проверка robots.txt в Google Webmaster Tools

Проверка robots.txt в Яндекс Вебмастер

Заключение

Здравствуйте, меня зовут Дмитрий и Azoogle.ru этой мой блог

28 мыслей о “Правильный файл robots.txt WordPress для Яндекса и Google”

Добавить комментарий Отменить ответ

SEO аудит сайта c функцией «white label» (брендированные отчеты) с помощью Netpeak Spider

Парсинг данных с сайтов в Excel через CSS селекторы в программе для парсинга Netpeak Spider

Расширение семантики ядра сайта — поиск новых запросов – запросы из Гугл Вебмастер Cерч Консоль

Анализ трафика сайтов конкурентов – как быстро проверить посещаемость чужого сайта онлайн

Netpeak Cheсker – проверка траста сайта и авторитетности сайта

ТопВизор — сервис проверки позиций сайта по ключевым словам в поисковиках (Мониторинг позиций сайта). Детальный обзор

Парсинг товаров с сайтов интернет магазинов с помощью Netpeak Spider

SMMBox – автопостинг/отложенный постинг в соц сети ВК, Инстаграм, Телеграм, Фейсбук

Дешевая и эффективная стратегия продвижения продукта/услуги на рынке для быстрого роста продаж

Как подобрать ключевые слова, оценить конкурентность запроса – анализ сайтов конкурентов в поисковой выдаче

Подбор ключевых слов для сайта — подбор слов для SEO и контекста

Парсинг данных с сайтов в Excel через CSS селекторы в программе для парсинга Netpeak Spider

Contact Form 7 — как настроить прикрепление и отправку файлов к письму в WordPress

Отслеживание заявок с сайта в Google Analytics и Яндекс Метрике на примере ContactForm 7 для WordPress

WP ALL Import WooCommerce – импорт товаров из CSV, XML прайсов

Подбор ключевых слов для сайта — подбор слов для SEO и контекста

Что такое WordPress тема и как установить и активировать WordPress тему

Полезные инструменты WordPress — Импорт, Экспорт, Конвертер рубрик и меток

Различия между записями и страницами в WordPress

ДМИТРИЙ, ТЕЛ. +7 (995) 222-32-56

По какому номеру Вам перезвонить?

Для чего нужен файл robots.txt

Пример robots.txt для WordPress

Проверка robots.txt в Google Webmaster Tools

Проверка robots.txt в Яндекс Вебмастер

Заключение

Вам также может быть интересно:

Здравствуйте, меня зовут Дмитрий и Azoogle.ru этой мой блог

28 мыслей о “Правильный файл robots.txt WordPress для Яндекса и Google”

Добавить комментарий Отменить ответ

SEO аудит сайта c функцией «white label» (брендированные отчеты) с помощью Netpeak Spider

Парсинг данных с сайтов в Excel через CSS селекторы в программе для парсинга Netpeak Spider

Расширение семантики ядра сайта — поиск новых запросов – запросы из Гугл Вебмастер Cерч Консоль

Анализ трафика сайтов конкурентов – как быстро проверить посещаемость чужого сайта онлайн

Netpeak Cheсker – проверка траста сайта и авторитетности сайта

ТопВизор — сервис проверки позиций сайта по ключевым словам в поисковиках (Мониторинг позиций сайта). Детальный обзор

Парсинг товаров с сайтов интернет магазинов с помощью Netpeak Spider

SMMBox – автопостинг/отложенный постинг в соц сети ВК, Инстаграм, Телеграм, Фейсбук

Дешевая и эффективная стратегия продвижения продукта/услуги на рынке для быстрого роста продаж

Как подобрать ключевые слова, оценить конкурентность запроса – анализ сайтов конкурентов в поисковой выдаче

Подбор ключевых слов для сайта — подбор слов для SEO и контекста

Парсинг данных с сайтов в Excel через CSS селекторы в программе для парсинга Netpeak Spider

Contact Form 7 — как настроить прикрепление и отправку файлов к письму в WordPress

Отслеживание заявок с сайта в Google Analytics и Яндекс Метрике на примере ContactForm 7 для WordPress

WP ALL Import WooCommerce – импорт товаров из CSV, XML прайсов

Подбор ключевых слов для сайта — подбор слов для SEO и контекста

Что такое WordPress тема и как установить и активировать WordPress тему

Полезные инструменты WordPress — Импорт, Экспорт, Конвертер рубрик и меток

Различия между записями и страницами в WordPress

ДМИТРИЙ, ТЕЛ. +7 (995) 222-32-56

Вход