[подготовка веб-сайат к индексации поисковыми системами]материал подготовил: 06.08.2003
Любой веб-сайт создается для каких-то конкретных целей: коммерции, предоставления разного рода информации, организации различных форм общения и многого другого. Одно из необходимых условий достижения любой из этих целей — посетители. Чем больше людей посетит коммерческий или корпоративный веб-сайт, тем выше вероятность того, что среди них окажутся потенциальные клиенты и партнеры, работники и работодатели. Чем больше людей будет принимать участие в вашем форуме, тем живее и интереснее может стать обсуждение.
Понятно, что случайно на ваш веб-сайт никто не набредет по той простой причине, что его название пока никому не известно (естественно, при условии, что вы не затратили уйму денег на рекламные щиты и объявления в метро). Здесь стоит задуматься: куда обычно идет человек, который желает что-то найти в интернете? Правильно, в свою любимую поисковую систему*. И если ваш веб-сайт проиндексирован наиболее популярными поисковиками, это наверняка увеличит приток посетителей, возможно, даже существенно.
Весьма вероятно, что одного только факта индексации вашего веб-сайта будет недостаточно для организации постоянного потока посетителей, так что впоследствии вам придется озадачиться еще и тем, чтобы в результатах поиска он присутствовал не на 5238-м месте, а где-нибудь поближе к началу, но, тем не менее, правильная подготовка веб-сайта к индексации поисковиками — это первый важный шаг в сторону повышения его популярности. Приведенные ниже рекомендации в основном касаются правильной подачи материала и только слегка затрагивают вопросы позиционирования веб-сайта в результатах поиска.
Часто бывает так, что веб-сайт начинают «готовить к индексации» уже после того, как он полностью готов, иногда это может привести к серьезным проблемам, поэтому о подготовке к индексации необходимо думать заранее, еще на этапах дизайна и верстки.
Перед тем как углубиться в детали, вкратце опишем процесс индексации. Каждая поисковая система включает в себя программу сбора информации — поисковый робот*, который перебирает страницы веб-сайтов по известному только ему алгоритму, находя новые и помещая их в базу данных поисковой системы, а также проверяя уже проиндексированные на предмет изменений. Проиндексировав выбранную страницу, робот выбирает все находящиеся на ней ссылки для последующего просмотра, «продвигаясь» таким образом по иерархии веб-сайта и находя другие, еще неизвестные ему веб-сайты. Некоторые из приведенных в данной статье советов частично опираются на гипотезы, построенные по результатам наблюдений за деятельностью роботов различных поисковых систем.
О подготовке веб-сайта к индексации необходимо думать еще на этапах дизайна и верстки
Теперь перейдем непосредственно к дизайну и верстке веб-сайта. Вряд ли есть особый смысл останавливаться на очевидных вещах наподобие того, что нельзя писать слова вразрядку, не надо расставлять вручную переносы, не рекомендуется без особой необходимости писать слова прописными буквами и тому подобное. Но уже не так очевидно, например, что нежелательно располагать на одной странице слишком много текста, так как это повлияет на положение данной страницы в результатах поиска: чем меньше текста на странице, тем более весомыми покажутся поисковику найденные на ней слова, поэтому слишком объемные страницы рекомендуется разбивать на отдельные странички.
слишком объемные страницы рекомендуется разбивать на отдельные странички
Несмотря на то, что фреймы* в настоящее время очень популярны (особенно среди непрофессионалов), их использование в приложении к поисковикам считается моветоном. раньше поисковые роботы индексировали только текст, находящийся на страницах с описанием фреймов, полностью игнорируя ссылки на внутренние фреймы, из-за чего в старых рекомендациях по построению веб-сайтов всегда можно встретить упоминание об обязательном использовании html-тега noframes. Сейчас эта ситуация изменилась, и фреймы обрабатываются корректно многими поисковиками (хотя, например, Altavista все еще придерживается старых традиций), однако страница с описанием фрейма — это лишний запрос для поискового робота, который не может посвящать все свое время вашему веб-сайту, так что из-за выборки страницы с фреймом он отложит индексирование какой-нибудь другой, более важной, страницы на другое посещение вашего веб-сайта. Кроме того, если в результатах поиска появятся ссылки на внутренние страницы, то пользователь увидит их без фреймового обрамления (разве что вы воспользуетесь стандартным трюком с обработкой http-заголовка Referer, но он работает далеко не всегда). Поэтому, если вы обратите внимание на портфолио серьезных веб-дизайнерских групп, то обнаружите, что фреймами они не пользуются никогда.
Проблему лишнего запроса порождает и использование заставок (splash screen). Это может быть, например, страница с логотипом фирмы и ссылкой «вход» или выбором языка — страница, не несущая информации, но зато требующая лишнего запроса робота и занимающая полезное место в базе данных поисковой системы. Почему бы просто не расположить логотип в одном верхнем углу страницы, а переключатель языка в другом?
Страница с описанием фрейма — это лишний запрос для поискового робота
Поскольку поисковики индексируют только текст, графика остается невостребованной. Сейчас почти все поисковые системы предоставляют возможность поиска по имени файла изображения, но это не совсем то, что хотелось бы, поэтому для всех изображений рекомендуется проставлять подписи (параметр alt html-тега img). То же относится и к флеш-роликам, на которых сейчас строятся целые веб-сайты. Если вся система навигации вашего веб-сайта построена на флеш-роликах, то робот остановится на первой же странице и не сможет пройти глубже, поскольку не найдет ссылок. В настоящее время поисковая система «Рамблер» умеет выбирать ссылки из флеш-файлов как раз для того, чтобы решить эту проблему, но при создании веб-сайта желательно все-таки ориентироваться на то, что «умеет» как можно большее количество поисковиков. Самый простой метод решения «проблемы флеш» — создать две версии веб-сайта: флеш-версию и html-версию. Таким образом вы одновременно позаботитесь и о тех посетителях, которые не могут пользоваться флеш-версией из-за ограничений браузера или медленной связи.
Не следует забывать, что при выборке ссылок для дальнейшего «продвижения» по вашему веб-сайту робот анализирует html-теги a, поэтому навигация через формы (html-тег form) и яваскрипт* останется для него незамеченной, и пользоваться такой навигацией можно только при условии, что она ведет на страницы, которые не нужно индексировать, либо к этим страницам есть альтернативный доступ через html-теги a.
При проектировании «ссылочной инфраструктуры» веб-сайта следует помнить о том, что некоторые роботы (например, Altavista) не обрабатывают ссылки, содержащие знак ?, которые они считают динамическими. Поэтому, если у вас есть несколько динамических страниц с параметрами, которые вы желаете обязательно проиндексировать, воспользуйтесь, например, внутренними редиректами, которые предоставляет модуль mod_rewrite популярного веб-сервера*apache. С помощью одной простой директивы можно сделать так, чтобы ссылка на вашем веб-сайте имела вид /cities/russia/moscow.html, а настоящий запрос выглядел как /cgi-bin/citie
s.cgi?country=russia&city=moscow.
Если ваш веб-сайт сильно «завязан» на флеш-технологии, рекомендуется создать его html-версию
В ссылках на первые страницы веб-сайтов и на директории желательно ставить в конце символ / (слеш), так как в ответ на запрос вида http://masterhost.ru любой уважающий себя веб-сервер возвратит редирект на http://masterhost.ru/, так же как на ссылку вида http://hostinfo.ru/news возвратится редирект на http://hostinfo.ru/news/. лишний редирект — это лишний запрос для поискового робота, который зря потратит на него время.
При верстке веб-сайта на каждой странице желательно поместить три основных тега, которые могут существенно повлиять на положение данной страницы в результатах поиска, если в них встречаются слова из запроса.
html-тег title — заголовок страницы, по возможности должен быть уникальным для каждой страницы и не слишком длинным (не больше 20-25 символов). Пример: «<title>Страница Пупкина Василия. Архив умных мыслей. Мысль о смысле жизни</title>«.
мета-тег description — описание страницы. Некоторые поисковики также показывают содержимое этого мета-тега в результатах поиска. Пример: «<meta name=»description» content=»Одна из наиболее умных мыслей Пупкина Василия, записанная со слов автора»>«.
мета-тег keywords — ключевые слова, по которым, как вам кажется, будут искать данную страницу. Не рекомендуется задавать слишком много слов, а также повторять одни и те же слова, т.к. поисковики все равно отбросят лишнее при индексации страницы. Но зато очень полезно ставить часто употребляемые синонимы. Пример: «<meta name=»keywords» content=»Пупкин Василий смысл жизни умные гениальные мысли изречения»>«.
Не все поисковые системы одинаково обрабатывают данные теги (например, «Рамблер» игнорирует description и keywords), но в данном случае лучше рассчитывать на те поисковики, которые «умеют» больше. Помещать какие-то слова в html-комментарии «<!— —>» в качестве своеобразной замены мета-тега keywords не рекомендуется, так как омментарии поисковиками игнорируются.
лишний редирект — это лишний запрос для поискового робота
Многие поисковые роботы планируют посещения вашего веб-сайта в зависимости от того, насколько много информации несут его страницы, а также насколько часто они изменяются. В связи с этим категорически не рекомендуется выкладывать полупустые страницы «under construction», особенно на длительный срок, иначе потом вам придется очень долго ждать, пока робот не «поймет», что ваш веб-сайт уже давно стал нормальным и заслуживает более пристального внимания.
В каждой поисковой системе неявно заложено некое максимальное количество страниц, которые можно проиндексировать для одного веб-сайта (обычно несколько тысяч). При подходе к этому лимиту поисковый робот почти все свое время, выделенное для обработки вашего веб-сайта, начинает тратить на проверку изменений в уже проиндексированных страницах, а новые добавляет в базу данных все реже и реже. Поэтому, если ваш веб-сайт очень большой, рекомендуется разрешить для индексации только наиболее значимые его части (о том, как ограничить индексацию, см. ниже). Например, для новостного веб-сайта можно разрешать индексацию только новостей за несколько последних месяцев, а поиск в полном архиве новостей организовать «у себя». Вообще, желательно сразу закрывать доступ к страницам, не несущим полезной информации либо меняющим свое содержание или от запроса к запросу или в зависимости от cookies*.
Категорически не рекомендуется выкладывать полупустые страницы «under construction»
Поисковый робот «путешествует» по вашему веб-сайту, руководствуясь своим алгоритмом, вмешиваться в который вы не можете. Единственное доступное вам средство управления действиями робота — это ограничение доступа к различным частям веб-сайта. Каждый «официальный» поисковый робот периоди