Как запретить индексацию страницы или раздела на сайте с помощью файла robots.txt

Если вы хоть раз создавали свой собственный сайт, то наверняка сталкивались с ситуацией, когда необходимо закрыть от поиска яндекса (гугла, рамблера, бинга…) некоторые странички сайта или целые разделы. Специально для этого случая поисковые роботы руководствуются файлом robots.txt, который должен лежать у вас в корневом каталоге сайта. Как работать с этим файлом описано в данной хаутошке.

logo-1789135

Немного теории

Наверное ни для кого не секрет, что поисковые системы работают не в режиме настоящего времени. Поисковый робот постоянно обходит новые сайты, заносит их тексты в базу поисковика, а также обновляет ресурсы, уже внесённые в базу. Именно поэтому новые сайты попадают в поисковики далеко не сразу.

Обычно поисковый робот обнаруживает новый сайт по чьей-либо ссылке или в результате добавления его через специальные формы поисковиков (так называемые «аддурилки», от фразы «add url» — добавить url).

Как только поисковый робот попадает на сайт, он сразу же запрашивает файл robots.txt. Если он его не находит — он действует по-умолчанию. Поэтому файл robots.txt иногда называют файлом исключений для поисковых роботов.

Файл robots.txt используется для запрета индексации некоторых страниц и целых разделов сайта, а также для передачи поисковому роботу файла sitemap.xml (файл карты сайта).

Использование файла robots.txt

Файл состоит из специальных записей. Записи должны быть разделены символом конца строки (при редактировании файла в текстовом редакторе символ конца строки выставляется при нажатии Enter, т.е. при переходе на новую строку).

Мы рассмотрим работу файла robots.txt на примерах.

Запрет индексации всего сайта

Для того, чтобы запретить индексацию всего сайта необходимо в robots.txt внести следующие строчки:

User-agent: *
Disallow: /

Запрет индексации отдельной папки

Запись User-agent указывает кому именно запрещена индексация (вместо звёздочки * здесь может быть написано «yandex» или «googlebot»), а запись «Disallow» описывает, что именно запрещено к индексации.

User-agent: *
Disallow: /private/

Запрет индексации отдельных типов файлов

Если вы используете CMS (движок сайта), то практически наверняка вы используете специальный модуль SEF URL (Search Engine Friendly URL— дружественные к поисковым системам url-адреса страниц). Это подразумевает автоматическую замену адресов вида:

www.website.ru/index.php?option=com_content&format=feed&type=atom&view=f…

на более дружественные к поисковой системе адреса типа www.website.ru./atom.html

При этом будет очень полезным запретить индексацию страничек типа «index.php?…» в принципе.

Сделать это можно следующим образом:

User-agent: * Allow: /$ Allow: /*.php$ Allow: /*.jpg$ Allow: /*.gif$ Allow: /*.xml$

Disallow: /index.php?*

Таким образом мы разрешаем индексацию всего, а в самом конце запрещаем индексацию адресов «index.php?…»

Передача поисковому роботу файла sitemap.xml

Файл sitemap.xml предназначен для передачи поисковому боту списка адресов страниц сайта, предназначенных для индексации. Этот файл помогает поисковым системам разобраться во внутренней структуре сайта. Его наличие практически обязательно, если вы хотите, чтобы ваш сайт уверенно индексировался в поисковых системах.

Мы не будем подробно останавливаться на написании этого файла. Предположим, что с этим файлом вы разобрались. Покажем один из способов передачи этого файла поисковой системе, а именно передачу файла через robots.txt. Для этого необходимо в robots.txt добавить следующую строчку:

Sitemap: http://www.website.ru/sitemap.xml

Подразумевается, что файл sitemap.xml существует и написан правильно.

Инструменты для работы с файлом robots.txt

Вообще при работе с файлом достаточно самого простого текстового редактора, поэтому речь тут пойдёт о других инструментах. Существуют специальные сервисы для проверки правильности составления robots.txt. Из таких сервисов следует выделить инструмент, предоставляемый Яндексом на своём сервисе «Яндекс.Вебмастер»: http://webmaster.yandex.ru

Рейтинг
( Пока оценок нет )