Автор статьи:
Правила описания файла robots.txt и мета-тэга Robots —
>httр://www.yаndex.ru/info/webmaster2.html
Принципы поиска www.yаndex.ru
- Поиск производится по тексту документа, заголовку документа (<title>), ключевым словам документа(<meta name=keywords content=…>), описанию документа (<meta name=description content=…>) и полям alt для изображений (<img src=… alt=»…»>).
- индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта). С помощью мета-тэга Robots (<meta name=robots content=…>) можно управлять индексацией документа.
- Определение соответствия документа запросу пользователя имеет следующие особенности:
- наивысший приоритет имеет текст указанный в заголовке документа. сам заголовок рекомендуется делать не более 20-25 слов.
- слово встречающееся в основном тексте документа и содержащиеся в первых 50-ти ключевых слов документа повышает соответствие документа запросу пользователя
- для поиска имеет значение размер документа, т.е. слово встречающееся в маленьком документе будет иметь больший приоритет, чем то же самое слово, но в большом документе, поэтому дается совет делать разбивать большие документы на несколько частей.
- чтобы Яндекс определял последовательность букв как слово надо не набирать слова вразрядку (каждая буква через пробел), избегать набора слов только большими буквами, точки и запятые ставить сразу после слова, а после них ставить пробел.
- Определенную часть текста Яндекс может признать спамом (огромное количество ключевых слов, текст написанный мелким шрифтом, цветом фона и пр.) из-за чего снижает соответствие документа запросу пользователя.
- Важным моментом с точки зрения Яндекса является дата последнего изменения страницы (http-заголовок Last-Modified) и charset страницы, которые выводятся при запросе пользователя как справочная информация о странице.
Принципы поиска www.aport.ru
- Поиск производится по тексту документа, заголовку документа (<title>), ключевым словам документа (<meta name=keywords content=…>), описанию документа (<meta name=description content=…>) и полям alt для изображений (<img src=… alt=»…»>). Также считаются принадлежащими документу тексты ссылок на эту страницу (<a href=…>text</a>), с самого сайта и внешних по отношению к сайту страниц, и описание сайта, составленное редакторами Апорта.
- индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы содержащие в URL знак ‘?’ (страницы автоматически создающиеся на стороне сервера по параметрам присланым в запросе). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта), имя робота для Апорта в этом файле — Aport. С помощью мета-тэга Robots (<meta name=robots content=…>) можно управлять индексацией документа.
- Ключевые слова документа не имеют особого приоритета при определении соответствия документа запросу пользователя перед другими частями документа.
- Множественное повторение одного и того же слова в тексте документа не влияет на определение соответствия документа запросу пользователя.
- Принципы определения соответствия документов запросу пользователя насайте Апорта описаны так:
- количество искомых слов в тексте документа (в процентах), расстояние между поисковыми словами в тексте документа
- место в тексте, где встречаются поисковые слова (заголовок, описание,мета-таг и т.п.)
- внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет)
- количество ссылок из интернета на данный документ — использование искомого слова в тексте ссылок из интернета на данный документ
Принципы поиска http://www.rambler.ru/
- Поиск производится только по тексту документа. Ключевые слова и описания документа (<meta name=keywords content=…> и <meta name=description content=…>) игнорируются. Максимальный размер индексируемого документа — 200Кб, все документы большего размера отсекаются по этому размеру.
- индексируются все документы на сайте (к которым можно прийти по ссылкам с начального адреса или с внешних ссылок). Не индексируются страницы и каталоги указанные в файле robots.txt (должен находится в корневой директории сайта). Для управления индексацией текста в документе можно использовать тэги <index> и <noindex>. Из индекса исключаются слова, встреченные Rambler’ом более чем на 800.000 документов.
- Значимость слова увеличивается, если оно находится внутри тэгов (в порядке убывания значимости):
— <title>
— <h1>..<h6>
— <address>
— <b>, <strong>
Чем ближе к началу текста располагается слово, тем более увеличивается его значимость. - Текст, написанный цветом фона, не учитывается — об этом сказано что «не следует использовать».