Как сделать правильный robots.txt для WordPress?

Приветствую вас мои уважаемые читатели. В этой статье я вам наглядно покажу, как сделать правильный robots.txt, чтобы у вас не было никаких ошибок, которые могут существенно повлиять на продвижение в поисковых системах, таких как Яндекс и Google. Итак, начнем по порядку, чтобы всем было все понятно.

 

Что такое robots.txt и зачем он нужен?

robots.txt – это простой текстовый блокнот в корне вашего сайта, в котором прописаны правила для поисковых ботов, которые индексируют, и заносят новый материал (страницы) в базу поиска. В robots.txt вы множете прописать, что можно индексировать на вашем сайте, а что нельзя.

Данный файлик очень важно создать еще в самом начале создания блога, так как если этого не сделать все ваши усилия могут пойти прахом и ваш сайт попадет просто в бан поисковых систем. Если это случится, то развивать сайт уже не будет никакого смысла, так как вывести сайт из бана, который, кстати, еще называют фильтром АГС, будет очень трудно. На практике мало кто смог вывести сайт из АГС меньше чем за год.

Теперь я думаю, вы понимаете, как важен для вас правильный файл robots.txt. Дело в том, что движок WordPress это непростой сайт на html в котором все просто. WordPress создает очень много дублей, на которые у поисковиков аллергия. Дубль — это когда одна и та же страница или часть страницы доступна по разным адресам (урлам) на блоге.

Это также ведет к частичному копипасту, то есть к неуникальному тексту. Например, на моей главной странице http://firstprize.ru/ всегда находится маленький анонс статьи, который принадлежит к статье, которая находится по другому адресу.

Как видите движок WordPress весь так устроен, что у него просто куча дублей, которые делают: метки, категорий, теги, которые надо закрывать от индексаций, а то бан в самом начале пути обеспечен.

Также помимо дублей надо закрыть от индексаций и другие страницы, которые не представляют интереса и ценности, как для поисковиков, так и для посетителей. Например, страницу админки блога там, где вы вводите свой логин и пароль, чтобы зайти на блог. Я думаю, вы не очень обрадуетесь, если однажды увидите  в статистке переходов, как кто-то часто вам заходит на эту страницы пытаясь взломать ее, тем самым украсть у вас ваше детище.

Ну, ладно больше не буду вас пугать, а то у вас наверно уже начал глаз дергаться, от того ужаса, что я тут описал ^_^.  Чтобы лучше понять, что делает этот файл, просто посмотрите на картинку ниже.

 Как сделать правильный robots.txt для WordPress?

Как сделать правильный robots.txt для WordPress?

1) Сделайте на рабочем столе файл, который называется блокнот, и назовите его robots.txt. Хочу подметить, что некоторые делают одну грубую ошибку называя файл Robots.txt или robot.txt. Внимательно смотрите, как вы называете файл, а то поисковые боты просто будут игнорировать его, что непременно приведет, как я уже писал выше к фильтру АГС.

2) Теперь нам надо заполнить данный файл, то есть прописать в нем правила для ботов их называют директориями.

1) Первая директория, с которой обязательно должен начинаться файл robots.txt это User-agent. Он отвечает, какую выполнить команду роботу той или иной поисковой системы, которая будет указана далее. Например, если вы хотите данное правило прописать для всех поисковых ботов, то надо добавить в конце звездочку.

Пример: User-agent: *

Если же вы хотите, чтобы данным правилам придерживался только поисковые боты Google, то вместо звездочки надо прописать называние бота Google.

Пример: User-agent:  Googlebot

Вот вам, кстати, список названий ботов популярных поисковых систем.

Поисковики.  Поисковые роботы.

Google                  Googlebot

Yahoo!                  Slurp

Яндекс                  Yandex

Рамблер              StackRambler

Мэйл.ру                Mail.Ru

Апорт                   Aport

В нашем случай мы будем прописывать две директорий. Одну для всех поисковиков и одну для Яндекса, так как он у нас жутко капризный и требует к себе особого внимания.

2) В robots.txt есть еще две важные директорий. Первая это Allow, которая разрешает ботом индексировать и Disallow, которая запрещает индексировать. Какой бы вы не составляли robots.txt в нем обязательно должна быть хотя бы одна директория Disallow в отличи от Allow, а то ваш robots.txt будет неправильным.

По сути можно вообще не пользоваться директорией  Allow, так как с помощью директорий Disallow можно не только закрыть, но и открыть индексацию роботом. Вот смотрите, если мы так пропишем в нашем robots.txt директорий, то мы разрешим индексировать поисковому роботу Яндекса весь блог.
User-agent: *
Disallow:

А вот если поставить черточку / после Disallow: то мы запретим индексировать наш блог Яндексу.
User-agent: *
Disallow: /

Некоторые веб-мастера закрывают свой ресурс от ботов Yahoo, так как у него есть специальная панель, по которой можно спалить (посмотреть) ссылки, ведущие на другие сайты. То есть по нему можно наглядно определить, какое количество и качество ссылок надо купить, чтобы добиться таких же результатов, как сайт конкурента.

Поэтому многие прописывают дополнительную директорию для Yahoo, чтобы он не индексировал их ресурс и заодно не палил их беки (ссылки) ведущие на сайт. Если вы тоже хотите закрыть индексацию от Yahoo, то пропишите в вашем robots.txt такую строчку:

User-agent: Slurp

Disallow: /

3) Теперь нам надо закрыть страницы, которые относятся непосредственно к движку WordPress.
Disallow: / wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/cache
Disallow: /wp-admin/
Disallow: / wp-includes/

В папке wp-content нет ничего ценного кроме наших картинок, которые лежат в папке uploads поэтому мы отдельно прописали правила для всех папок, которые лежат в wp-content. Если же в папке wp-content у вас есть еще свой папки, в которых лежат скрипты или еще что-то,  что лучше на вид не показывать, то также прописываем в файле robots.txt эту папку.

4) Теперь закрываем страницы, которые делают нам дубли.

Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*

5) Ок и в самом конце прописываем еще три строчки.
Host: firstprize.ru
Sitemap: http://firstprize.ru/sitemap.xml
Sitemap: http://firstprize.ru/sitemap.xml.gz

sitemap.xml — это карта вашего сайта для поисковых роботов, которая помогает намного быстрее проиндексировать ваш ресурс. Данную карту можно сделать с помощью плагина Simple Google Sitemap или на этом сайте. Если будете делать на mysitemapgenerator.com, то после того, как сделайте карту sitemap.xml вам надо будет ее потом закинуть в корень вашего блога.

6) Вот вам пример, как должен выглядеть правильный файл robots.txt для WordPress. Только не копируйте его себе, так как я тут просто поясняю, какая страница за что отвечает.

User-agent: * — разрешить индексировать блог всем ботам поисковых систем.
Disallow: /wp-login.php – запретить индексировать страницу авторизаций.
Disallow: /wp-register.php – запретить индексировать страницу регистраций.
Disallow: /webstat/ — запретить индексировать служебные файлы.
Disallow: /feed/ — запретить индексировать дубли RSS.
Disallow: /trackback — запретить индексировать уведомления в комментариях.
Disallow: */trackback — запретить индексировать уведомления в комментариях.
Disallow: */feed — запретить индексировать дубли RSS.
Disallow: */comments — запретить индексировать комментарии.
Disallow: /*?* — запретить индексировать дубли при поиске.
Disallow: /*?  —  запретить индексировать дубли поиска.
Disallow: /category/*/*  — запретить индексировать дубли в категориях.
Disallow: /wp-content/plugins — запретить индексировать плагины блога.
Disallow: /wp-content/themes – запретить индексировать тему оформления блога.
Disallow: /wp-admin/ — запретить индексировать страницу вход в админку.
Disallow: /wp-includes/ — запретить индексировать служебные файлы.
Disallow: /comments – запретить индексировать комментарии.

User-agent: Yandex - разрешить индексировать блог поисковику Яндекс.
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disllow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: firstprize.ru – название домена вашего сайта, блога.
Sitemap: http://firstprize.ru/sitemap.xml — адрес, где лежит карта для ботов.
Sitemap: http://firstprize.ru/sitemap.xml.gz — сжатая карта сайта.

 

3) А вот этот список директорий можно уже скопировать и вставить в ваш robots.txt.
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: домен вашего блога

Sitemap: http://ваш блог/sitemap.xml
Sitemap: http://ваш блог/sitemap.xml.gz

Только не забудьте в самых последних строчках указать домен вашего блога и его адрес.

правильный robots.txt для WordPressТут, кстати, есть еще пара важны моментов, которые надо обсудить. Как мы видим, я закрыл комментарий от индексации. Некоторые могу не понять, зачем я это сделал? Зачем закрывать комментарий, от индексаций это же бесплатный контент, который помогает нам, нравится поисковикам.

Дело в том, что многие затачивают каждую свою статью под определенное поисковое слово или фразу, которое должно повторяться в тексте статьи определенное количество раз. Это количество повтора зависит от размера статьи. Так вот если разрешить индексировать комментарий, то нужное количество повтора этого слово будет уменьшаться, то есть в ответах на комментарий надо будет писать ту же самую фразу, по которой продвигается статья.

Также из-за комментариев может поменяться Description (кусок текста статьи в поиске) не в самом привлекательном виде, что уменьшит наши шансы заинтересовать посетителя перейти на наш сайт, блог.

Помимо этого если у вас не стоит какая-нибудь защита от спама, то вас могут завалить левыми ссылками. В этом случай это очень плохо отразится на вашем сайте и Яндекса может даже стошнить, от того обилия спама ведущего на сайты по заказу курительных смесей (спайсы), на сайты адалт тематики (порно), и конечно же на разнообразные лохотроны.

Ок, с этим разобрались теперь поговорим, зачем я закрыл категорий. Ну, как я уже писал выше, они делают дубли на сайте, но тут нужно быть поосторожнее. Дело в том, что некоторые темы для WordPress выводят статьи только по категориям и не показывают их анонсы на главной странице, как у меня. Если у вас нет карты сайта для людей, и у вас не отображаются анонсы на главной страницы блога, то категорий надо открыть, а то поисковики никогда не смогут проиндексировать у вас ни одну статью.

 

Как проверить robots.txt на ошибки?

4) После того как вы прописали все директорий в файле robots.txt вам нужно закачать его в ваш корень сайта через программу FTP в папку httpdocs (или public_html , www, domains). Потом перейти по ссылке в панель Яндекс Вебмастер и зайти в «настройки индексирования», «анализ robots.txt». Теперь просто нажмите на кнопку «Загрузить robots.txt с сайта» а потом «проверить». Если вы увидите следующие строчки, то у вас правильный robots.txt.

Яндекс Вебмастер

Ок, теперь тоже самое проверим у Google по этой ссылке. Заходим в «сканирование» а потом в «заблокированные URL» и нажимаем «проверить». Тут вам Google также выдаст информацию как Яндекс, если в вашем файле robots.txt будут ошибки. Ну, там например, если вы написали Disllow вместо Disallow.

После того, как вы измените robots.txt его настройки не сразу вступят в силу а тогда, когда к вам снова придет поисковой бот и проиндексирует этот файл заново, после чего вам надо будет еще немного подождать апдейт поисковой выдачи (1-3 месяца).

На этом все. Если у вас еще остались вопросы, как сделать правильный robots.txt для WordPress, то задавайте мне их здесь.

Похожие публикаций:

Как не умереть за компьютером во время работы?
Как вставить видео на сайт с YouTube, Вконтакте, Rutube, и т.д.
Как создать новую тему обсуждения на форуме?

Поделиться с друзьями и коллегами.

Система Orphus
  1. Саня:

    Странно! У меня откуда -то появились куча дублей с feed. Ломаю голову не знаю как их убрать 💡

    • Макс:

      Как узнал что дубли есть? Через поисковик или другими методами?

    • Александр Борисов:

      Через поисковик. /feed на конце.

    • Макс:

      Советую для начала хорошо проверить файл robots.txt. Затем в плагине Platinum SEO проверить поставлены ли галочки возле: Automatically do 301 redirects for permalink changes и Canonical URLs. Если все норм, то рекомендую вспомнить, что до этого вы ковыряли на блоге и может ли это быть причиной появлением дублей. Если что можете просто подождать, возможно, это ошибка поисковиков. Если не хотите ждать просто по удаляйте дубли в панели webmaster.yandex.ru.

    • Александр Борисов:

      Спасибо! Automatically do 301 у меня нет, у меня другой плагин!

    • Макс:

      Не за что всегда рад помочь.

  2. ЯНИС:

    Скажите пжл, пол интернета уже облазил, как открыть картинки для индексации, если они находятся в папке wp-content-uploads-4545, тогда так прописать Allow: /wp-content/uploads/4545 ???Они именно, например в 4545.

    • Макс:

      В robots.txt удалите строчку Allow: /wp-content/uploads/4545 она там не нужна. Если ваши картинки не появляются в поиске, то значит у вас просто плохая индексация firstprize.ru/2013/10/25/... -sajta-v-10-raz/

  3. ЯНИС:

    Я прописал именно так в роботс, и при анализе в яндекс метрике, показывает, что теперь эту папку будет индексировать, а раньше запрет был! У меня в папке uploads есть еще просто файлы, один из них от плагина защиты и еще там, поэтому я не хочу, чтобы всю папку uploads индексировало,а папка 4545 создалась автоматически раньше и еще там 2 других...

  4. янис:

    А что такого, если я так прописал? можете просмотреть мой роботс, мне кажется там все грамотно прописано!?

    • Макс:

      Тогда советую сделать такой же robots.txt как у меня в статье, но прописать к нему еще несколько строчек, которые относятся к папкам вашего плагина. В таком случае картинки будет индексироваться, но не файлы плагина.

      Пример: Disallow: /wp-content/uploads/ (название папки с плагином)

Прокомментировать

Максим Вячеславович – автор блога firstprize.ru, вольный SEO специалист, вебмастер, Web-разработчик на WordPress и человек-оркестр с опытом в некоторых других областях. Личное кредо — хочешь сделать что-нибудь хорошо, сделай это сам. В моменты особого вдохновения создаю видеоклипы и ковыряюсь в кодах. Основные профессиональные инструменты —Dreamweaver, Adobe Photoshop, Site-аuditor. Спасибо за внимание, заходите снова!