Роботы под контролем! Задаем правила индексации с robots.txt

Сегодня рассмотрим файл robots.txt. Этот файл частично контролирует индексацию сайта поисковыми системами. Что именно контролирует? В нем задаются страницы и/или разделы сайта, которые запрещены к индексации и которые не нужно индексировать. Кроме этого может содержать обратную информацию. Например, можно сделать так, чтобы доступ к разделу /news/ был запрещен для всех страниц, кроме /news/page.html. Ну и кроме всего этого может содержать и другую информацию, но она нам будет не очень интересна, хотя частична будем упомянута.

Файл должен находится в корне сайта и иметь относительно корня ссылку http://www.yousite.ru/robots.txt

В общем виде, файл robots.txt должен содержать как минимум две строки:

 User-agent: *
 Disallow: /images/

Это я привел в пример. У каждого будет своё второе правило. Объясню немного. В первой строке указываются роботы, для которых будут действовать нижеописанные правила. Звездочка * означает, что правила будут действовать для всех ботов. Вместо * можно вписывать имя бота, если нужно поставить ограничение только для конкретной ПС. Вторая строка указывает боту на то, что раздел /images/ индексировать не надо. Этот раздел указан для примера, вы указываете свой.

Кроме правила Disallow, который запрещает индексацию, есть обратное правило Allow, которое, как вы наверное поняли уже, разрешает индексацию страниц. Обычно это правило используется в редких случаях для того, чтобы разрешить индексацию только для отдельной папки или страницы раздела, который запрещен к индексации правилом Disallow.

В файле robots.txt НЕ НУЖНО указывать ссылки на админ-панели или на файл конфигурации.

Хорошим примером файла robots.txt для блога WordPress может быть следующий код, если конечно вы пользуетесь ЧПУ, который вы смело можете использовать на своем блоге:

User-agent: *
Allow: /wp-content/uploads/
Disallow: */comment-page
Disallow: */comments/
Disallow: */feed/
Disallow: */trackback/
Disallow: /category/
Disallow: /page/
Disallow: /tag/
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: */?*

Хорошим примером файла robots.txt для форума phpBB может быть следующий код, который вы смело можете использовать на своем форуме:

User-agent: *
Disallow: /cache/
Disallow: /download/
Disallow: /files/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /store/
Disallow: /styles/
Disallow: /common.php
Disallow: /cron.php
Disallow: /memberlist.php
Disallow: /mcp.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /style.php
Disallow: /ucp.php

Кстати, отличным дополнение кода будет следующая строка:

Sitemap: http://www.yoursite.ru/sitemap.xml

Как вы понимаете наверное, эта строка показывает поисковым системам ссылку на карту Вашего сайта. Это облегчит и ускорит индексацию вашего сайта.

Думаю Вам этого хватит для составления нужного содержания файла robots.txt. Сейчас самое время готовится к празднованию Нового Года. :)

Интересно, никто однозначно не может определится какого цвета тигр: желтого или белого? 😀

Всех поздравляю с Наступающим Новым 2010 Годом, годом тигра. 😉

Если вы не разбираетесь в компьютерах, вам поможет услуга обслуживания компьютеров и серверов, куда также входит ремонт компьютеров.

Как много времени у вас отнимает уборка квартир киев? Чтобы обеспечить чистоту в своей квартире, можно заказать уборку у специалистов.

Иногда бывает очень сложно подобрать двери межкомнатные киев для своей квартиры, но справится с этой задачей вам могут помочь дизайнеры.

Вам также будет интересно почитать и следующие записи

Добавить комментарий