Автор статьи: Басов Алексей
В основе идентификации пользователя в интернете лежат его действия, без которых статистическая система не знает, подключен он сейчас к Сети или нет. На данный момент подавляющее большинство систем учета пользователей учитывают только запросы на загрузку web-страниц (то есть запросы по протоколу HTTP), таким образом, посещения Сети только для просмотра текущей корреспонденции (протоколы POP3, IMAP) или загрузки файлов через протокол FTP остаются неучтенными.
Каждое действие описывается рядом параметров, которые можно зафиксировать. Это: некоторые передаваемые серверу характеристики браузера (тип, язык, встроенные расширения, поддержка приложений), просматриваемая страница, ссылающаяся страница, IP-адрес, данные прокси-сервера, поддержка <жетонов> (cookie) и Java, а также часовой пояс. Все эти параметры передаются серверу при запросе страницы или могут быть получены через специальный Java-код, установленный на просматриваемой странице. На основе полученных исходных данных можно с некоторой точностью идентифицировать пользователя.
Трудности опознания
погрешность идентификации, основанной на IP-адресе (до недавнего времени учет <хостов> был основным методом идентификации), складывается из погрешностей передачи и погрешностей пользования компьютером. Так, например, при работе пользователей через прокси-сервер вся подсеть, которая за ним скрывается, в большинстве случаев будет иметь единый IP-адрес. С другой стороны, работая через коммутируемое соединение, пользователь при каждом подключении будет получать от провайдера новый IP-адрес и т. д. В России, где выделенные каналы для домашних пользователей являются большой редкостью, погрешность идентификации по одному IP-адресу очень высока: в среднем до 40% пользователей не могут быть идентифицированы таким способом.
Для более точной идентификации еще в начале 90-х годов начали применять так называемые <жетоны> — небольшие файлы, записываемые на компьютер пользователя при заходе на сайт. В этих файлах содержится некоторая ключевая информация (например, уникальный идентификационный номер, присваиваемый пользователю <движком> сайта) в специальном формате. При последующем заходе на сайт записанная ранее информация считывается и именно таким способом пользователь идентифицируется.
погрешности этого метода заметно ниже, так как они идентифицируют не IP-адрес, который в большинстве случаев выдается динамически из пула, а конкретный компьютер. Тем не менее остаются проблемы совместного использования компьютеров, а также идентификация тех пользователей, которые используют различные компьютеры для подключения к Сети (например, дома и на работе, в институте и в интернет-кафе и т. д.). вышеописанные погрешности частично компенсируются существующей в ОС Windows возможностью заведения на одном компьютере нескольких профилей с различными настройками интернета, так как в этом случае cookies пишутся для каждого пользователя отдельно.
К сожалению, далеко не все пользователи реально задействуют эту возможность, поэтому наиболее точным методом идентификации на сегодняшний момент является прямой опрос (авторизация) пользователей (ввод ими уникального имени — login). Очевидно, что реализовать сквозную авторизацию пользователей на всем пространстве интернета невозможно, даже если бы на то было согласие всех пользователей.
Для компенсации погрешностей идентификации, возникающих из-за удаления или отказа в приеме cookies, используется интегральная идентификация одновременно по нескольким параметрам. Совместно с cookies используют IP-адреса и некоторые параметры браузера, которые передаются в HTTP-запросе. Например, если у пользователя отключены cookies, но мы хотим его идентифицировать в пределах сеанса, то запоминается IP-адрес и настройки компьютера — разрешение монитора, количество цветов, версия браузера и т. п. — вряд ли эти настройки будут изменены в течение просмотра одного сайта, поэтому можно достигнуть очень высокой степени идентификации. Указанная схема имеет смысл только в пределах сеанса (здесь сеанс — это одно непрерывное подключение пользователя к интернету), для долговременного мониторинга ее использовать нельзя, так как эти настройки изменяются.
Следует особо отметить, что при любой схеме идентификации, включая сквозную авторизацию, статистическая система не имеет персональных данных пользователя, если он не пожелает их специально сообщить. Таким образом, не может идти и речи о нарушении какой бы то ни было приватности — все данные собираются в обезличенном виде.
Вторичные данные
По полученным исходным данным можно получить вторичные отчеты путем группировки нескольких полученных параметров. Так, например, располагая данными о часовом поясе и IP-адресе, а также сеткой распределения IP-адресов между интернет-провайдерами, можно получить данные о географии пользователя с точностью до города или области. По этим же данным, а также по времени соединения можно вычислить место соединения (дома, на работе, в институте и пр.). Анализируя статистику за продолжительный период времени, можно отделить пользователей мобильных компьютеров, которые подключаются через разных провайдеров и из разных типов подсетей, от стационарных. При наличии на странице специального раздельного кода, реализованного в системе SpyLOG, можно получить данные о скорости загрузки страницы, а следовательно, и о скорости соединения.
Возможности получения вторичной информации о пользователях ограничены только возможностями алгоритмизации процессов (лишь некоторые способы добычи <вторсырья> приведены в таблице). Например, можно построить эвристический алгоритм, который на основе изначально введенных данных и маршрутов пользователей, а также манере поведения их на сайте, будет определять пол и возраст человека. Одновременно по группе технических данных (таких, как скорость соединения, разрешение монитора и пр.) совместно с интересами пользователей можно с некоторой точностью определять социальный статус и сферу занятости пользователей и так далее.
Несколько месяцев назад компания Amazon проводила закрытые эксперименты на посетителях своего магазина. В зависимости от некоторых характеристик пользователя (географии, экранного разрешения и пр.) менялись цены на запрашиваемые человеком в магазине товары. Эксперимент получил огласку случайно, когда один из покупателей магазина решил заказать себе книжку, находясь в другой стране.
Однако опыты по построению сложных аналитических алгоритмов, задействующих интеллектуальные схемы, на данный момент только начинаются. Скорее всего, уже в следующем году можно ожидать появления систем, идентифицирующих пользователя по его биометрическим характеристикам (например, манере перелистывания страниц, набора текста и пр.). Вопрос только в том, какие вычислительные мощности для этого потребуются.
вторичные данные |
география | IP-адрес, база данных распределения адресов между провайдерами, часовой пояс |
социальный статус | маршрут пользователя по сети, IP-адрес, производительность компьютера и/или разрешение экрана (для домашних пользователей) |
уровень доходов | информация о посещаемых сайтах (интернет-магазины, histile) |
профессиональная деятельность | анализ маршрутов втечение рабочего времени |
пол, возраст | эвристический анализ маршрута пользователя + маска контрольной группы |