[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
  • Страница 1 из 1
  • 1
Форум » Веб-раздел » Раскрутка сайтов юкоз » Создать Файл robots.txt
Создать Файл robots.txt
monolito-sДата: Четверг, 15.12.2011, 21:39 | Сообщение # 1
Киллер
Группа: Повелитель Зоны
Сообщений: 335

Персонаж: Каратель


 
Наш сайт проиндексирован и казалось бы что еще нужно? Однажды обнаруживаешь, что проиндексировались абсолютно не нужные страницы, такие как вход и регистрация пользователя, лист стилей, формат pdf и мало ли что еще увидит поисковик... Вот тут и понимаешь важность файла робот.

Урок 13. Создание файла robots.txt

В этом уроке попробуем ответить на следующие вопросы:

Как правильно создать robots txt.
Для чего нужен файл робот - какие страницы закрывать от индексации поисковиками.
Пример файла robots txt для разных случаев.
Пойдем искать информацию во всемирной паутине.

Как создать файл робот.

Формат файла robots.txt - простой текстовый файл, создается в обычном блокноте.
Местонахождение файла робот - корневая директория сайта.
Пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта.
большие robots.txt (более 256 Кб) считаются полностью разрешающими
Регистр написания имени файла - только нижний.
При копировании файла с помощью ftp-клиента, его нужно настроить на текстовый режим обмена файлами.
Что должно обязательно быть в файле robots.txt? Две директивы: «User-agent» и «Disallow».

Существуют еще и дополнительные записи для различных поисковых систем. Например, Яндекс для определения главного зеркала веб-сайта использует директиву «Host».

Напишем себе шпаргалку о записях в директивах.

Обязательная директива «User-agent»

Запись «User-agent» содержит в себе название поискового робота.

Если обращение происходит абсолютно ко всем поисковикам, то пишем символ звездочку «*», выглядит это так:
User-agent: *

Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так:
User-agent: Yandex



Обязательная директива «Disallow»

Директива «Disallow» укажет поисковому роботу, какие файлы, каталоги запрещается индексировать.

Если сайт открыт для индексирования весь, то нужно писать так:
Disallow:

или

Allow: /



Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой:
Disallow: /links.html

Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:

Disallow: /noybot/my.html

Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так:
Disallow: /cgi-bin/

Disallow: /forum/

Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.

Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.

Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow».
Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:

Disallow: /my

В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «*» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки).
Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:

Disallow: *.htm$

Еще пример запрета индексации файлов PDF для гугл

User-agent: Googlebot

Disallow: *.pdf$

Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:

User-agent: *

Disallow: /pdf/



Директива «Host»

Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.

Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host» понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.

Записывается следующим образом:

Host: www.site.ru

На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.

Например:

User-Agent: * # Все поисковый системы

Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки

Host: www.mainsite.ru # Главное зеркало

User-Agent: Googlebot # Личный блок для гугла

Disallow: /admin/ # Запрет директории гуглом

Пожалуй, минимум о создании robots txt составила. Это только фундамент знаний, еще много возможностей управлять индексацией своего сайта предоставляет файл робот.

Добавлю еще один пример файла роботс, где правила для бота яндекса прописываются в отдельной секции, а другая секция для всех роботов.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.master-live.ru



Все о роботе можно почитать по этой ссылке яндекса вебмастера

Какие страницы сайта лучше закрывать от индексации поисковиками с помощью файла робот.

Для чего нужно закрывать страницы от индексации?

Очень просто, поисковый робот походит по сайту, проиндексирует все, что ему вздумается и уйдет. А вы потом с удивлением замечаете, что в выдачу попали страницы с технической информацией, а большая информативная статья не проиндексирована. Устал робот и не дошел до важной страницы вашего сайта.

Что ж можно закрыть от роботов, дабы они зря не тратили время на ненужные для выдачи страницы сайта?

Можно закрыть от индексации админ. раздел сайта, директории /images/ с графической информацией. Хотя учтите, что файл робот может прочитать любой желающий, а знаете что будет, если написать «не смотреть, здесь секрет»? Вот то-то... А поиск по картинкам в различных поисковых системах? Тоже посетителей привлекает.

Если вы владелец интернет-магазина, то можно закрыть служебные страницы с осуществлением покупки.

А чтобы не привлекать внимание к файлам, стандартные названия которых говорят о многом, можно создать специальную папку и хранить их в ней. А в файле robots.txt запретить индексацию только этой папки.

Примеры файла robots txt.

# - означает начало комментариев

User-agent: Yandex

Disallow: / # блокирует доступ ко всему сайту



User-agent: Yandex

Disallow: /cgi-bin # блокирует доступ к страницам начинающимся с '/cgi-bin'



Использование спецсимволов "*" и "$"

User-agent: Yandex

Disallow: /cgi-bin/*.aspx

# запрещает '/cgi-bin/example.aspx' и '/cgi-bin/private/test.aspx'

Disallow: /*private # запрещает не только '/private', но и '/cgi-bin/private'



Директива Host

#Если www.mysite.ru главное зеркало сайта, то robots.txt

#для всех сайтов из группы зеркал выглядит так

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: www.mysite.ru
 
Форум » Веб-раздел » Раскрутка сайтов юкоз » Создать Файл robots.txt
  • Страница 1 из 1
  • 1
Поиск:

Вход на сайт
Мини-чат
Опросы
Как вы оцениваете наш портал?
Всего ответов: 392
Статистика