Трусов А. В., Бабарыкин Е. П.,
г. Пермь

УДК 330. 341. 1

ОЦЕНКА ГРАНИЦ ОБЛАСТИ
ТЕМАТИЧЕСКОГО ИНФОРМАЦИОННОГО ЗАПРОСА
В РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

(презентация)

В статье приводятся результаты исследования  оценки границ области тематического информационного запроса в распределенных информационных системах сети Internet. Результаты исследования показали, что определение границ тематических областей можно использовать для предварительной оценки при поиске документов в сети Internet или выделении семантического ядра для разработки web-ресурсов. Полученные данные можно также интерпретировать как полноту Internet по определенной тематике.

Ценность любой информационной сети определяется ее информационными ресурсами, то есть знаниями и данными, которые сеть предоставляет пользователям. Эти ресурсы должны как можно шире охватывать те области, в которых работают пользователи сети. Вся современная обработка информации рассчитана на использование информационных банков.

При работе с распределенными информационными ресурсами сети Internet, содержащими большие объемы неструктурированных документов, возникает проблема обработки результатов поисковых запросов, так как при релевантном поиске информации таких документов значительное количество. На практике, как правило, пользователи ограничиваются несколькими первыми документами, которые не совсем отвечают условиям пертинентности. Для решения этой проблемы обычно выделяют некоторую тематическую группу документов, объединенных в некоторое множество.

Рассмотрим два множества (рис.1): множество документов D и множество поисковых запросов Q. Будем считать, что они полные и одно множество отображается на другое. Во множестве Q есть подмножество q, которое отвечает тематическому запросу, т.е. некоторому количеству поисковых предписаний по одной теме. Этому подмножеству q во множестве D соответствует подмножество d документов по этой тематике. Предположим, что эти два множества D и Q подобны:

(1)

Соответственно, можно предположить, что количество запросов nq по конкретному поисковому предписанию пропорционально количеству найденных документов nd

, (2)

где – коэффициент подобия.

Таким образом, элементарное событие заключается в определении конкретного поискового предписания и соответствующих, этому предписанию, документов. Случайная же величина определяется как отношение количества запросов к количеству найденных документов за определенный достаточно большой период времени, т.е. коэффициент подобия . Таким образом, можем определить выборку случайных величин как

( , , …, ). (3)

Тогда средняя величина будет определена как

, (4)

где – количество элементов в выборке.

Дисперсия же определяется

. (5)

В результате исследования (тема поискового запроса выбрана: «аптеки»), экспертным путем был определен первичный набор поисковых предписаний. Затем этот набор был расширен с помощью поисковой машины www.rambler.ru до 306 элементов, после чего с помощью поисковой машины www.yandex.ru были получены значения случайной величины для документов и для web-ресурсов. Данные результатов исследования представлены на рис. 2 – 4.

На рис. 2 и 3 шкала абсцисс неоднородна. Это связано с тем, что реперные точки поставлены последовательно на равные промежутки. Здесь можно выделить области однородности, на которых теоретическая прямая линейна. Границы этих областей определяют тематические границы набора поисковых предписаний и соответственно тематически связанных документов. Вне этих границ располагаются поисковые предписания, которые не соответствуют заданной тематике, либо из-за своей распространенности (область справа определяет класс стоп-слов), либо плохо согласуются с данной тематикой (область слева). Причем, экспериментальные данные по документам лучше ложатся на вычисленную прямую, особенно в области больших значений количества запросов поискового предписания. Связано это с тем, что коэффициент подобия для сайтов нелинеен (см. рис.4), что в свою очередь связано с тем, что документы кластеризуются в группы, которые и представляют собой тематические web-ресурсы.


Результаты исследования показали, что определение границ тематических областей можно использовать для предварительной оценки при поиске документов в Internet или выделении семантического ядра для разработки web-ресурсов. Полученные данные можно так же интерпретировать как полноту Internet по определенной тематике. Если экспериментальная величина находиться выше теоретической прямой (см. рис.4), то это означает что документов, соответствующих конкретному запросу, мало и можно позиционировать разрабатываемый web-ресурс в этой тематической области.