Киллер
Группа: Повелитель Зоны
Сообщений: 335
Персонаж: Каратель
| Наш сайт проиндексирован и казалось бы что еще нужно? Однажды обнаруживаешь, что проиндексировались абсолютно не нужные страницы, такие как вход и регистрация пользователя, лист стилей, формат pdf и мало ли что еще увидит поисковик... Вот тут и понимаешь важность файла робот.
Урок 13. Создание файла robots.txt
В этом уроке попробуем ответить на следующие вопросы:
Как правильно создать robots txt. Для чего нужен файл робот - какие страницы закрывать от индексации поисковиками. Пример файла robots txt для разных случаев. Пойдем искать информацию во всемирной паутине.
Как создать файл робот.
Формат файла robots.txt - простой текстовый файл, создается в обычном блокноте. Местонахождение файла робот - корневая директория сайта. Пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта. большие robots.txt (более 256 Кб) считаются полностью разрешающими Регистр написания имени файла - только нижний. При копировании файла с помощью ftp-клиента, его нужно настроить на текстовый режим обмена файлами. Что должно обязательно быть в файле robots.txt? Две директивы: «User-agent» и «Disallow».
Существуют еще и дополнительные записи для различных поисковых систем. Например, Яндекс для определения главного зеркала веб-сайта использует директиву «Host».
Напишем себе шпаргалку о записях в директивах.
Обязательная директива «User-agent»
Запись «User-agent» содержит в себе название поискового робота.
Если обращение происходит абсолютно ко всем поисковикам, то пишем символ звездочку «*», выглядит это так: User-agent: *
Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так: User-agent: Yandex
Обязательная директива «Disallow»
Директива «Disallow» укажет поисковому роботу, какие файлы, каталоги запрещается индексировать.
Если сайт открыт для индексирования весь, то нужно писать так: Disallow:
или
Allow: /
Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой: Disallow: /links.html
Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:
Disallow: /noybot/my.html
Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так: Disallow: /cgi-bin/
Disallow: /forum/
Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.
Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.
Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow». Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:
Disallow: /my
В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «*» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки). Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:
Disallow: *.htm$
Еще пример запрета индексации файлов PDF для гугл
User-agent: Googlebot
Disallow: *.pdf$
Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:
User-agent: *
Disallow: /pdf/
Директива «Host»
Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.
Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host» понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.
Записывается следующим образом:
Host: www.site.ru
На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.
Например:
User-Agent: * # Все поисковый системы
Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки
Host: www.mainsite.ru # Главное зеркало
User-Agent: Googlebot # Личный блок для гугла
Disallow: /admin/ # Запрет директории гуглом
Пожалуй, минимум о создании robots txt составила. Это только фундамент знаний, еще много возможностей управлять индексацией своего сайта предоставляет файл робот.
Добавлю еще один пример файла роботс, где правила для бота яндекса прописываются в отдельной секции, а другая секция для всех роботов.
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/
User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: www.master-live.ru
Все о роботе можно почитать по этой ссылке яндекса вебмастера
Какие страницы сайта лучше закрывать от индексации поисковиками с помощью файла робот.
Для чего нужно закрывать страницы от индексации?
Очень просто, поисковый робот походит по сайту, проиндексирует все, что ему вздумается и уйдет. А вы потом с удивлением замечаете, что в выдачу попали страницы с технической информацией, а большая информативная статья не проиндексирована. Устал робот и не дошел до важной страницы вашего сайта.
Что ж можно закрыть от роботов, дабы они зря не тратили время на ненужные для выдачи страницы сайта?
Можно закрыть от индексации админ. раздел сайта, директории /images/ с графической информацией. Хотя учтите, что файл робот может прочитать любой желающий, а знаете что будет, если написать «не смотреть, здесь секрет»? Вот то-то... А поиск по картинкам в различных поисковых системах? Тоже посетителей привлекает.
Если вы владелец интернет-магазина, то можно закрыть служебные страницы с осуществлением покупки.
А чтобы не привлекать внимание к файлам, стандартные названия которых говорят о многом, можно создать специальную папку и хранить их в ней. А в файле robots.txt запретить индексацию только этой папки.
Примеры файла robots txt.
# - означает начало комментариев
User-agent: Yandex
Disallow: / # блокирует доступ ко всему сайту
User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам начинающимся с '/cgi-bin'
Использование спецсимволов "*" и "$"
User-agent: Yandex
Disallow: /cgi-bin/*.aspx
# запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'
Директива Host
#Если www.mysite.ru главное зеркало сайта, то robots.txt
#для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.mysite.ru
|