[программа анализа контента]материал подготовил: Михаил Брод 05.04.2005
Создание сайта не заканчивается на том, что после размещения на каком-либо сервере он становится доступен для посетителей. Придумать идею, воплотить ее в html-страницы, наполнить содержанием и графикой, разместить в интернете — только первые шаги. Теперь, если автор проекта хочет, чтобы посетители легко находили его творение, нужно добиться, чтобы поисковые машины по определенным, важным для автора словам выдавали ссылку на него на первых страницах результатов поиска. Для этого используются различные методы, и один из них заключается в оптимизации ключевых слов.
Если сайт состоит из нескольких страничек, проанализировать их содержание, выбрать наиболее подходящие и нужные ключевые слова и разместить их в метатегах, правильно составить фразы, по которым эти страницы должны находиться наилучшим образом, — не очень сложная и длительная по времени задача. Немного терпения, и все можно сделать. Другое дело, когда таких страниц много, текст на них разный и ставили-то его на страницы не только вы, автор, но и ваши помощники. Проанализировать каждую страницу, подсчитать наиболее часто встречающиеся слова, определить их весовое значение — вот это уже задача посложнее. Делать «врукопашную» — долго и сложно. Нужна помощь. И приходит она в виде программы Site Content Analyzer.
Эта программа выполняет анализ содержимого веб-страниц, автоматически выделяет ключевые слова, подсчитывает количество вхождений каждого слова, анализирует как отдельную страницу, так и сайт полностью, как расположенный локально, так и находящийся в онлайне. На основе наиболее употребимых слов, имеющих для конкретной страницы наибольший рейтинг, программа будет конструировать фразы. Как фразы, так и ключевые слова очень легко экспортируются в текстовый файл.
Основным понятием в программе является понятие «проект». Собираетесь ли вы анализировать отдельную страницу или целый сайт, первое, что требуется сделать, — это создать новый проект. Затем для проекта определяется страница, раздел, в котором находится офлайновый проект, или сетевой адрес проекта, который требуется проанализировать. Каждому проекту в программе соответствует отдельное окно. Одновременно можно открывать неограниченное количество окон (проектов) и запускать в каждом из них свои задачи или выполнять анализ обработанных данных — у каждого окна есть своя собственная инструментальная панель.
Работа с проектом начинается с его проработки (в программе используется слово «парсинг»). В зависимости от количества страниц, их насыщенности текстом, расположения и доступности процесс может проходить как очень быстро, в считаные секунды, так и занимать порядочное количество времени. Впрочем, на длительность процесса влияют также и настройки программы. Что к ним относится? В настройках три раздела. Первый предназначен для общих настроек размещения проектов, сохраняемых страниц, при обработке удаленного сайта, настройке доступа через прокси, а также выбор того, в качестве какого объекта анализатор будет восприниматься на стороне веб-сайта: как собственно анализатор или как один из видов браузеров — MS IE или Opera.
Анализировать можно как локальные страницы, так и сайты, расположенные в Сети
Следующий раздел настроек определяет принципы анализа («парсинга»). Здесь можно определить, следует ли анализировать комментарии, описания изображений, ссылок, что считать разделителями слов. Весовая значимость слов, которая будет учитываться в дальнейшем разборе страниц, зависит от того, в какой части страницы слово было обнаружено. (Нас