В сегодняшнем видео уроке по WordPress SEO я расскажу и покажу на примерах особенности создания и использования файла robots.txt для WordPress, этот урок не планировался как исчерпывающее руководство по robots.txt, но он должен дать вам хорошее представление о том что это за файл и что туда добавлять для минимизации попадания ненужных файлов в индекс поисковых систем и как его использовать для управления тем как поисковые роботы Google и Яндекс индексируют ваш сайт. Если у вас возникнут вопросы — пишите в комметариях, ниже привожу текстовый транскрипт видео, на тот случай если у вас возникнут вопросы или будет нужен фрагмент кода в текстовом виде.
Текстовый транскрипт видео:
Оглавление
Здравствуйте,
Меня зовут Дмитрий, и в этом видео вы узнаете о том, как контролировать индексирование вашего сайта поисковыми системами с помощью файла robots.txt. Плюс в качестве примера мы разберем robots.txt для WordPress, который минимизирует индексирование ненужных файлов поисковыми системами. Итак, приступим.
Для чего нужен файл robots.txt
Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции, запрещающие посещение и индексирование отдельных разделов сайта. robots.txt предназначен для использования ботами, в качестве примера ботов можно назвать поисковых роботов Яндекса и Google или ботов архиваторов, как например робот Web Archive.
Для создания robots.txt воспользуйтесь любым текстовым редактором, заполните его в соответствии с вашими пожеланиями и примерами в этом видео и сохраните как просто тест без форматирования, расширение файла должно быть .txt. После этого необходимо загрузить файл в корневой каталог вашего сайта.
Используйте файл robots.txt для ограничения поисковых роботов от индексации отдельных разделов вашего сайта. Вы можете указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы в отдельности, используя директиву User-Agent. Для списка роботов популярных поисковых систем перейдите по ссылке в описании этого видео.
Пример robots.txt для WordPress
В качестве примера robots.txt для WordPress, который минимизирует индексирование ненужных файлов поисковыми системами, вы можете использовать следующий шаблон:
User-Agent: * Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-admin/ Disallow: /*.swf Disallow: /*.flv Disallow: /*.pdf Disallow: /*.doc Disallow: /*.exe Disallow: /*.htm Disallow: /*.html Disallow: /*.zip Allow: /
Давайте разберем по порядку, что здесь написано. Строчка User-Agent: * говорит, что это относится к любым агентам, к любым поисковым системам, к любым ботам, которые посещают сайт. Строчки, начинающиеся с Disallow: — это директивы, запрещающие индексирование какой-либо части сайта. Например, строчка Disallow: /wp-admin/ запрещает индексирование папки /wp-admin/, любых файлов, которые находятся в папке /wp-admin/. Сейчас у нас запрещены к индексированию папки – плагины, темы и wp-admin (/plugins/ /themes/ /wp-admin/). Директива Disallow: /*. и расширение файла запрещает к индексированию определенный тип файлов. В данный момент запрещены к индексированию .swf, *.flv, *.pdf, *.doc, *.exe, *.js, *.htm, *.html, *.zip. Последняя строчка Allow: / разрешает индексирование любых других частей сайта и любых других файлов.
Если вы используете плагин кеширования, который генерирует статичные версии ваших страниц или структуру постоянных ссылок, оканчивающуюся .htm/.html, уберите строчки
Disallow: /*.htm Disallow: /*.html
В общем, если в адресной строке браузера адреса ваших страниц заканчиваются на .htm или .html, то уберите эти две строчки из robots.txt, иначе вы запретите к индексированию большую часть вашего сайта. Если вы хотите открыть все разделы сайта для индексирования всем роботам, то можете использовать следующий фрагмент:
User-agent: * Disallow:
Так как помимо полезных ботов (например, роботы поисковых систем, которые соблюдают директивы указанные в robots.txt) ваш сайт посещается вредными ботами (спам боты, скрейперы контента, боты которые ищут возможности для инъекции вредоносного кода), которые не только не соблюдают правила, указанные в robots.txt, а, наоборот, посещают запрещенные папки и файлы с целью выявления уязвимостей и кражи пользовательских данных. В таком случае если вы не хотите явно указывать адрес папки или файла, запрещенного к индексированию, вы можете воспользоваться директивой частичного совпадения. Например, у вас есть папка /shop-zakaz/, которую вы хотите запретить к индексированию. Для того, чтобы явно не указывать адрес этой папки для скрейперов и ботов шпионов вы можете указать часть адреса:
Disallow: *op-za*
или
Disallow:*zakaz*
Символ * заменяет произвольное количество символов, тогда любые папки и файлы, содержащие в своем названии эту комбинацию, будут запрещены к индексированию. Старайтесь выбирать часть адреса, который уникален для этой папки, потому что если эта комбинация встретится в других файлах и папках, вы запретите их к индексированию.
Для того, чтобы случайно не запретить к индексированию нужную часть сайта всегда имеет смысл проверить, как поисковые системы воспринимают правила, указанные в вашем robots.txt. Если вы — подтвержденный владелец сайта в инструментах вебмастера Google или Яндекс — вы можете воспользоваться встроенными инструментами для проверки правил robots.txt.
Проверка robots.txt в Google Webmaster Tools
Для того, чтобы проверить robots.txt в Google Webmaster Tools перейдите в секцию «Crawl>Blocked URLs», здесь вы можете воспользоваться текущей версией robots.txt или же отредактировать ее, чтобы протестировать изменения, затем добавьте список URL, которые вы хотите протестировать и нажмите на кнопку «Проверить». Результаты теста покажут, какие из указанных URL разрешены к индексированию, а какие запрещены.
Проверка robots.txt в Яндекс Вебмастер
Для того, чтобы проверить robots.txt в Яндекс Вебмастер перейдите в секцию «Настройка индексирования>Анализ robots.txt», при необходимости внесите изменения в robots.txt, добавьте список URL и нажмите кнопку «Проверить». Результаты теста покажут, какие из указанных URL разрешены к индексированию, а какие запрещены.
Редактируя правила составьте файл robots.txt, подходящий для вашего сайта. Помните, что файл на сайте при этом не меняется. Для того, чтобы изменения вступили в силу, вам потребуется самостоятельно загрузить обновленную версию robots.txt на сайт.
Заключение
Ну, вот мы и осветили основные моменты работы с robots.txt. Если вам нужны фрагменты и примеры файлов robots.txt, которые я использовал в этом видео, перейдите по ссылке, которая указана в описании этого видео. Спасибо за то, что посмотрели это видео, мне было приятно его для вас делать, буду вам благодарен, если вы поделитесь им в социальных сетях)) Ставьте «палец вверх» и подписывайтесь на новые видео.
Если у вас возникли проблемы с просмотром – вы можете посмотреть видео «Уроки WordPress — правильный файл robots.txt WordPress для Яндекса и Google» на YouTube.
Посмотрите, пожалуйста, у меня правильно составлен robots.txt, на запрет индексации сайта Яндексом? h_ttp://thajland.com/robots.txt
Если вам нужен запрет индексации для Яндекса но можно указать
User-agent: Yandex
Disallow:/
Запретить индексировать .doc и .pdf? Какой удивительный бред.
Почему нет? Например, я различные руководста для подписчиков сохраняю в PDF и не хочу их выставлять их напоказ чтобы кто-угодно мог их скачивать. Это вопрос предпочтения, если для вашего сайта, это не приемлимо уберите ненужные строчки :), а называть что-то бредом потому что у вас другое мнение…
Здрвствуйте мне Гугл в панели Вебмастеров в разделе Файлы Sitemap пишет следующее «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.»
Вот мой Robots.txt:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /page
Disallow: /tag
Disallow: /plugins
Disallow: /archives
Disallow: /go
Disallow: /goto
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Disallow: /page
Disallow: /plugins
Disallow: /archives
Disallow: /go
Disallow: /goto
Host: krestroy.ru
Sitemap: http://krestroy.ru/sitemap.xml.gz
Sitemap: http://krestroy.ru/sitemap.xml
Помогите пожалуйста!!!
Google Webmaster Tools обычно пишет какие файлы из карты сайта заблокированы в robots.txt, если скините пару адресов файлов, то можно будет понять является это проблемой или нет.
День добрый!
Подскажите пожалуйста:
1. В корень сайта залит файл robots.txt содержимое:
User-agent: *
Disallow:
2. При переходе по ссылке http://www.alexander.dp.ua/robots.txt
содержимое не отображается…
В чем ошибка!?
С ув. Александр
У меня файл по ссылке открывается и содержимое отображается.
Сайту 2 недели, GOOGLE проиндексировал 7 стр, yandex-только главную, но все может быть, жду. Вдруг обнаруживаю, что другие роботы не могут посещеть мои страницы, в частности, Megaindex говорит, что у меня запрет на посещение роботов. Так же примерно ведут себя и другие роботы. Но ни в robots.txt, ни в др. настройках запрета нет. Сайт на WordPress, может, где-то в настройках или в плагинах… Уже голову сломала, что делать…Все перерыла. Может, кто-то подскажет, сталкивался?
В инструментах вебмастера Google и Яндекса есть инструмент для проверки robots.txt в плане доступности для поисковых роботов http://webmaster.yandex.ru/site/robots.xml и https://www.google.com/webmasters/tools/googlebot-fetch с помощью которых можно проверить как видят ваш сайт поисковые роботы. Чтобы протестировать в чем проблема для других роботов — можно поставить в robots.txt
User-agent: *
Allow: /
Спасибо за участие. Уже все проверила, видят, согласно google и yandex, только индексировать дальше не хотят, а вот megainex и др. беспатные web-аудиты или не видят вообще или видят только первую страницу без тегов. говорят, значит, ошибки в коде. Аналогично роботы с др. сайтов(типа досок объявлений), на которых я хотела разместить ссылки на свой. Они требуют ссылки обратные, ставлю, а они не видят… Сайт на WP без моих правок, плагинов-минимум, все проверенные. Обновила WP-безрезультатно, сменила тему-тоже самое. Полагаю, в чем-то мой косяк есть, знать бы еще, в чем… htaccess, robots — норм, где б еще копнуть?
Если сами не уверенны в правильности составления Robots.txt можно воспользоваться онлайн-сервисами типа http://mediasova.com/create-robots-txt/ (автоматическая генерация файла)
Посмотрите пожалуйста правильно составлен для магазина-магазину -домену больше года года -Почемуто последнее время стали стр добавлятся,представляете уже загружено 72124 стр-
User-agent: *
Disallow:
Disallow: /search
Disallow: /cart
Disallow: /order
Disallow: /admin
Disallow: /*?psort=new
Disallow: /*?psort=popular
Disallow: /*?page=
Clean-param: color /
Clean-param: ref /
Clean-param: model /
Clean-param: side /
Какой адрес сайта?
http://kupit-domic.ru/ удалил весь робот оставил только
User-agent: *
Disallow:
будим пробовать
хотя уже много что перепробовал
раньше так хорошо индексировался
я думал дубли страниц хотя это не дубли
посетители перестали появляться
в общем пипец-столько бабла на раскрутку ушло
Чтобы не было проблем с дублями страниц имеет смысл использовать rel=»canonical» вот здесь про это подробно написано https://support.google.com/webmasters/answer/139066?hl=ru
Приветствую вас Дмитрий,
Буду вам признателен если подскажите, правильно ли составлен robots.txt
Много споров и утверждений по поводу строчек Disallow: /*?* Disallow: /*?
Проблема в том, что страницы дублируются, а это не есть хорошо.
Спасибо за совет и помощь!
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: http://www.site.com
Sitemap: http://www.site.com/sitemap.xml
Sitemap: http://www.site.com/sitemap.xml.gz
У вас сайт http://www.site.com, или это в у вас в robots.txt копипаст с другого сайта? Чтобы не было дублирующихся страниц — помогает канонизация, у вас она настроена?
По-поводу запрета .js c google форума
«Недавно мы сообщали об изменениях в системе индексирования. Теперь она обрабатывает веб-страницы почти так же, как любой современный браузер с поддержкой CSS и JavaScript. В связи с этим мы подготовили новую версию технических требований в руководстве для веб-мастеров.
Чтобы добиться оптимального отображения и индексирования контента, следует открыть роботу Googlebot доступ к изображениям и файлам JavaScript и CSS. Если в настройках robots.txt доступ к этим файлам закрыт, алгоритм не сможет правильно отобразить и проиндексировать ваш контент. Это может сказаться на том, как ваш сайт отображается в результатах поиска.»
Спасибо за апдейт, пост поправлю.
Здравствуйте, Дмитрий!
Вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Мой сайт — не блог, а сайт небольшого агентства недвижимости.
Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Проверяю мои страницы в webmaster Гугла в разделе «Посмотреть как Googlebot». При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указывается, что блокировка этих элементов происходит из-за директив:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным? Если последнее верно, то что нужно сделать, чтобы исправить ситуацию?
Сергей К.
Просто удалите эти директивы и проблема исчезнет
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Добрый день. У меня такая ситуация,много заходила к этому сайту,вчера все браузеры выдают на экран:
http://www.akalam.kz/
Описание веб-страницы недоступно из-за ограничений в файле robots.txt.
а потом страница показывает 502 Bad Gateway
Что делать?
Смартфон показывает сайт,а компьютер нет((((
Потому что у вас в файле robots.txt стоит запрет на индексацию
User-agent: *
Disallow: /
Хороша статья! Автору спасибо!
а то голову сломали с этим файлом уже.
Здравствуйте, скажите, не будет ли ошибкой добавить в robots.txt для вордпресс: Disallow: /*.php
Если хотите запретить индексацию php файлов то лучше написать Disallow: *.php хотя обычно поисковики не индексируют их, ведь при обращении к php файлу отдается html
А строке comments тоже нужно блокировать? Она закрывает от индексации комментарии?