Многие из вас уже слышали о скандалах, когда в Интернет попала нежелательная информация о пользователях Интернет-магазинов и прочих сервисов. Причина очень проста: неправильная настройка файла robots.txt.

Что это за зверь? Файл robots.txt дает знать посиковым роботам, какие данные на сайте/ блоге можно индексировать, а какие - нет.

По умолчанию, роботы поисковых систем индексируют и показывают в результатах поиска все найденные данные. Что означает как попадание в общий доступ конфиденциальной информации, так и дублирование контента.

По умолчанию WordPress создает большое количество дубликатов контента. URL записи на странице, в рубриках, категориях и архивах - разные, из-за чего  поисковик считает их отдельными постами. Хотя по сути, это одна и та же запись.

Сюда же входят RSS канал, запросы через поиск и еще масса ненужных для внесения в базу поисковика адресов – входа в панель администрации WordPress и административную папку в целом.

По поводу санкций за дублирование контента на одном и том же сайте, существуют разные мнения. Но закрыть от индексации служебные директории (страницы регистрации и авторизации, админку, страницы темы, плагины) - дело нужное.

Итак, что нужно знать для создания robots.txt?

- User-Agent -указывается имя робота, к которому применяются правила, описанные в robots.txt (не должно быть пустым),

-  если блог, а не обычный сайт,  вначале нужно выделить бота Яндекс.Блогов и разрешить ему все, т.к. он ходит только по фидам и в админку и прочие не нужные разделы сам не полезет:

User-agent: YandexBlog
Disallow:

Если будете использовать несколько юзерагентов, тогда перед каждым последующим обязательно должна быть пустая строка! И начинать лучше с конкретных роботов, а только потом использовать *.

- cпецсимвол '*' означает любую (в том числе пустую) последовательность символов,

- директива Allow разрешает индексацию,  Disallow - запрещает,

- Allow: /wp-content/uploads/ - открывает доступ только к папке uploads для трафика по картинкам (в ней хранятся изображения загруженные через админку wordpress). Для папки более верхнего уровня - wp-content - индексация запрещена.

- Disallow: /tag - запрещает индексацию тегов. Если вы не продвигаете страницы тегов в поисковых системах,

- Disallow: /category
Disallow: /archive - только если вы не выбрали отображать url вашего блога как – http://ваш сайт/category/123,

- Disallow: /author - если он есть в вашем шаблоне,

- Disallow: */feed/ - от Google лучше не закрывать - это ускоряет индексацию,

- Disallow: */comments/ - запрещает индексацию комментариев,

- Disallow: /?s=
Disallow: /*?*
Disallow: /*? - запрещает индексацию динамических адресов блога, которые обычно по умолчанию создаются при написании постов.  Если у Вас URL адреса страниц имеют именно такой вид со знаком вопроса (то есть выбор url записей блога по-умолчанию), то обязательно исключите эти команды из файла robots.txt,

- Sitemap: http://elenamadina.blog-ltd.ru/sitemap.xml - адрес карты сайта,

- Host: elenamadina.blog-ltd.ru - главное зеркала сайта. Я  использую вариант без www - красивее смотрится и лучше запоминается. Если же домен лучше упоминать с www, тогда укажите это в директиве Host.

Как создать файл robots.txt для своего блога?

1. Создаете в текстовом редакторе (например, Notepad++) файл с названием robots и расширением .txt (обычный текстовый файл).

2. Копируете список, показанный ниже,  в свежесозданный файл.

3. Удаляете ненужные на вашем блоге запреты (там указаны почти все). Или добавляете нужное (вроде директив Crawl-delay или Clean-param).

4. С помощью файлового менеджера закидываете сохраненный файл на хостинг в корневую директорию вашего сайта.

Если сайт единственный - то в public_html, если для поддомена нужен отдельный файл robots.txt или на хостинге несколько сайтов, то копируете в public_html/папка_сайта (пример: public_html/blogltd.ru).

Пример robots.txt.

User-agent: YandexBlog
Disallow:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /page/
Disallow: /category
Disallow: /archive
Disallow: /archives
Disallow: /trackback/
Disallow: /feed/
Disallow: /author
Disallow: /template.html
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Sitemap: http://elenamadina.blog-ltd.ru/sitemap.xml

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /category
Disallow: /archive
Disallow: /archives
Disallow: /page/
Disallow: /trackback/
Disallow: /feed/
Disallow: /template.html
Disallow: /author
Disallow: /comments/
Disallow: */trackback/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Host: elenamadina.blog-ltd.ru

Я использую сильно урезанную версию:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Sitemap: http://elenamadina.blog-ltd.ru/sitemap.xml

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Host: elenamadina.blog-ltd.ru

А какие директивы используете Вы?

P.S. можно так же узнать на help.yandex.ru/webmaster

Проверить правильность составления - webmaster.yandex.ua/robots.xml


Поделиться в соц. сетях

Опубликовать в Google Buzz
Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Одноклассники

6 комментариев на “Как сделать robots.txt для блога”

Оставить комментарий

Поиск
Фото, видео, картинки
Фото, видео, картинки
RSS

Чтобы первым узнавать о новых записях на блоге,
жми на значок RSS
(что это такое?)

Записи
Комментарии
Bookmarks
Интернет-магазин для ленивых