Блог php кодера: robots.txt для яндекса и гугла

пятница, 12 апреля 2013 г.

robots.txt для яндекса и гугла

robots.txt имеет простую цель - показать роботам, что можно индексировать, а что нельзя.

Сначала обычно пишется, для кого правило, а потом само правило:

User-agent: *
Disallow: /

* - Означает для всех
Disallow - запретить
/ - все директории, начиная с корня сайта

Disallow - запрещает доступ
Allow - разрешает

Вот возможные значения для яндекса:

YandexBot - основной индексирующий робот;
YandexMedia - робот, индексирующий мультимедийные данные;
YandexImages - индексатор Яндекс.Картинок;
YandexCatalog - "простукивалка" Яндекс.Каталога, используется для временного снятие с публикации недоступных сайтов в Каталоге;
YandexDirect - робот Яндекс.Директа, особым образом интерпретирует robots.txt;
YandexBlogs - робот поиска по блогам, индексирующий посты и комментарии;
YandexNews - робот Яндекс.Новостей;
YandexPagechecker - валидатор микроразметки;
YandexMetrika - робот Яндекс.Метрики;
YandexMarket - робот Яндекс.Маркета;
YandexCalendar - робот Яндекс.Календаря.

Googlebot - обозначение робота гугла
Googlebot-Image - гугловый робот для индексирования картинок

Sitemap - директива для обозначения пути до sitemap.xml
Пример: Sitemap: sitemaps.xml

Остальные директивы:

Host - используется для указания главного зеркала сайта роботу


Disallow:

Host: www.host1.ru

Crawl-delay - задает таймаут между заказчками страниц для робота.


User-agent: Yandex

Crawl-delay: 2

Clean-param - директива, использующаяся для указания параметров, не влияющих на уникальность страницы


User-agent: Yandex

Disallow:

Clean-param: ref /some_dir/get_book.pl

Блог php кодера

пятница, 12 апреля 2013 г.

robots.txt для яндекса и гугла

Комментариев нет:

Отправить комментарий

Количество просмотров за прошлую неделю

пятница, 12 апреля 2013 г.

robots.txt для яндекса и гугла

Комментариев нет:

Отправить комментарий

Количество просмотров за прошлую неделю

пятница, 12 апреля 2013 г.