Информационно-поисковые системы. Средства информационного поиска и их составные части

ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера.

Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное – по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

Кроме того, ИПС также могут специализироваться по поиску различных источников информации, например, документов WWW, файлов, адресов и т.д.

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределенных источников информации.

Следовательно, сначала нужно описать информационные ресурсы и создать индекс. Построение индекса начинается с определения начального набора URL источников информации. Затем проводится процедура индексирования.

Индексирование – описание источников информации и построение специальной базы данных (индекса ) для эффективного поиска.

В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае процедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек.

В ИПС второго типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру.

Следовательно, следующей задачей для ИПС второго типа является разработка робота-индексировщика. Для поиска в системах данного типа пользователю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Не последнее значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с интерфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом системы (системой формирования запросов и просмотра результатов поиска).

Информационно-поисковые системы

Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса пользователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи результатов поиска пользователю.

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно было отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользователя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрезвычайно важно хранить запросы, на которые получен удовлетворительный ответ.

Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии.

Web-сайты – те информационные ресурсы, доступ к которым обеспечивает ИПС.

Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описании подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:

    Заголовки (Title).

    Заглавия.

    Аннотация (Description).

    Списки ключевых слов (KeyWords).

    Полные тексты документов.

Кстати, поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полнотекстовыми.

Для того, чтобы описать файл в ресурсе FTP используется URL. Для описания статьи в группе новостей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).

Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список называемых стоп-слов, которые игнорируются в процессе индексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфологии.

Учет морфологии означает умение работать с различными формами слов конкретного языка.

Здесь следует отметить достаточную сложность русского языка, слова которого изменяются по числам, падежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут и т.д. Все существующие ИПС с учетом морфологии русского языка используют "Грамматический словарь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно склоняется или спрягается.

Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС.

Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмотренных выше ИПС. В общем случае, можно выделить следующие поисковые инструменты для WWW:

    поисковые системы,

    метапоисковые системы и программы ускоренного поиска.

Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог – поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Рассмотрим особенности систем-каталогов.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины.

База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Среди самых популярных зарубежных каталогов можно упомянуть: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),

Российские каталоги: @Rus (www.atrus.ru); Weblist (www.weblist.ru); Созвездие интернет (www.stars.ru).

Поисковая система – система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Отличительной чертой поисковых систем является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

Зарубежные поисковые машины (системы):

Google - www.google.com (примерно 38% охвата русскоязычных запросов)

Altavista- www.altavista.com

Excite www.excite.com

HotBot - www.hotbot.com

Nothern Light- www.northernlight.com

Go (Infoseek) www.go.com (infoseek.com)

Fast www.alltheweb.com

Российские поисковые машины:

Яndex - www.yandex.ru (или www.ya.ru) (48% охвата русскоязычных запросов)

Рэмблер - www.rambler.ru

Апорт- www.aport.ru

Метапоисковая система – система, не имеющая своего индекса, способная послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

6 Принципы работы метапоисковых систем. Механизмы поиска в интернет. Язык запросов.

При работе метапоисковой системы из полученного от поисковых систем множества документов необходимо выделить наиболее релевантные, то есть соответствующие запросу пользователя.

Простейшие метапоисковые системы реализуют стандартный подход, представленный на рис. 1. В таких системах анализ полученных описаний документов не производится, что может поставить нерелевантные документы, идущие первыми в одной поисковой системе, выше релевантных в другой, чем существенно понизить качество самого поиска.

Рис.1 Стандартная метапоисковая система

При разработке следующего поколения метапоисковых систем были учтены недостатки, присущие стандартным метапоисковым системам. Были созданы системы с возможностью выбора тех поисковых машин, в которых, по мнению пользователя, он с большей вероятностью может найти то, что ему нужно (рис. 2)

Рис. 2. Следующее поколение метапоисковых систем

Кроме этого, такой подход позволяет уменьшить используемые вычислительные ресурсы метапоискового сервера, не перегружая его слишком большим объемом ненужной информации и серьезно сэкономить трафик. Здесь нужно отметить, что в любой системе метапоиска наиболее узким местом в основном является пропускная способность канала передачи данных, так как обработка страниц с результатами поиска, полученными от нескольких десятков поисковых серверов не является слишком трудоемкой операцией, потому что затраты времени на обработку информации на порядки меньше времени прихода страниц, запрошенных у поисковых серверов.

Как пример систем, имеющих подобную организацию, можно назвать Profusion,Ixquick,SavvySearch,MetaPing.

Примером метапоисковой системы является Nigma (Нигма. РФ) - российская интеллектуальнаяметапоисковаясистема.

Программа ускоренного поиска – это программа с возможностями метапоисковой системы, устанавливаемая на локальном компьютере.

Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Зато они превосходно умеют использовать результаты работы других поисковых систем.

Механизмы поиска

Обобщенная технология поиска состоит из следующих этапов:

    Пользователь формулирует запрос

    Система проводит поиск документов (или их поисковых образов)

    Пользователь получает результат (сведения о документах)

    Пользователь совершенствует или реформирует запрос

    Организация нового поиска...

Как правило, поисковые машины поддерживают два режима: режим простого поиска и режим расширенного поиска. Рассмотрим обобщенные возможности.

Формирования запроса в режиме простого поиска. Можно просто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моделируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение определенных слов.

Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слишком велико.

Для улучшения качества поиска в режиме простого поиска допустимо использование логических операторов и операторов, позволяющих ограничить область поиска, а также выбор определенной категории документов из представленного списка.

Многие поисковые системы включают в свой язык составления запросов специальные операторы, позволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установкой соответствующих флажков или выбором параметров из списка.

Ниже в качестве примера приведены сведения из раздела помощь поисковой системы Yandex: окно расширенного поиска, язык запросов, искать в найденном.

Искать в найденном Если в результате запроса Яндекс нашел много документов, но по более широкой теме, чем вам хочется, вы можете сократить этот список, уточнив запрос. Еще один вариант - включить флажок в найденном в форме поиска, задать дополнительные ключевые слова, и следующий поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске.

Памятка по использованию языка запросов

Значение

"К нам на утренний рассол"

Слова идут подряд в точной форме

"Прибыл * посол"

Пропущено слово в цитате

полгорбушки & мосол

Слова в пределах одного предложения

снаряжайся && добудь

Слова в пределах одного документа

глухаря | куропатку | кого-нибудь

Поиск любого из слов

не смогешь << винить

Неранжирующее "и": выражение после оператора не влияет на позицию документа в выдаче

я должон /2 казнить

Расстояние в пределах двух слов в любую сторону (то есть между заданными словами может встречаться одно слово)

нешто я ~~ пойму

Исключение слова пойму из поиска

при моем /+2 уму

Расстояние в пределах двух слов в прямом порядке

чай ~ лаптем

Поиск предложения, где слово чай встречается без слова лаптем

щи /(-1 +2) хлебаю

Расстояние от одного слова в обратном порядке до двух слов в прямом

Соображаю!что!чему

Слова в точной форме с заданным регистром

получается && (+на | !мне)

Скобки формируют группы в сложных запросах

Политика

Словарная форма слова

title:(в стране)

Поиск по заголовкам документов

url:ptici.narod.ru/ptici/kuropatka.htm

Поиск по URL

беспременно inurl:vojne

Поиск с учетом фрагмента URL

Поиск по хосту

Поиск по хосту в обратной записи

site:http://www.lib.ru/PXESY/FILATOW

Поиск по всем поддоменам и страницам заданного сайта

Поиск по одному типу файлов

Поиск с ограничением по языку

Поиск с ограничением по домену

Поиск с ограничением по дате

государственное дело && /3 улавливаешь нить

Расстояние в 3 предложения в любую сторону

нешто я ~~ пойму

Исключение слова пойму из поиска

Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети страницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область поиска внутри указанного домена.

В качестве дополнительных специальных операторов можно выделить:

    Операторы поиска документов с определенным графическим файлом;

    Операторы ограничения по дате искомых страниц;

    Операторы близости между словами;

    Операторы учета словоформы;

    Операторы сортировки результатов (по релевантности, свежести, старости).

Следует заметить, что, к великому сожалению, на сегодняшний день не существует стандарта на количество и синтаксис поддерживаемых операторов для различных поисковых систем. Попытки разработать стандарт на синтаксис поддерживаемых операторов предпринимаются, поэтому есть надежда на то, что разработчики поисковых систем позаботятся об удобстве пользователей. На данном этапе развития средств поиска, пользователь, обращаясь к определенной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами составления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка Помощь (Help), по которой вы перейдете к справочной информации.

Различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поисковых системах.

Рассмотрим способы представления результатов поиска в поисковых машинах.

Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на странице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголовок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоязычных документов).

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые системы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов.

Если интеллектуальность системы высока, вам могут предложить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания.

Однако, автоматизация определение похожести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего времени можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Информационно-поисковые системы ориентированы на решение задач поиску информации, документа или факта в множестве источников информации (документов). Содержательная обработка информации в таких системах отсутствующая. Производят ввод, систематизацию, хранение, выдачу информации по запросу пользователя без сложных преобразований данных. Например, информационно-поисковая система в библиотеке билетов. В таких системах хранится информационный массив, из которого по требованиям пользователей выдается нужная информация. Поиск информации по требованию пользователя осуществляется либо автоматически, либо вручную.

Поисковый образ документа (ПОД) получается в результате процесса индексирования, который состоит из двух этапов: выявление смысла документа и описание смысла на специальном информационно-поисковом языке (ИПЯ). Запрос к ИПС описывается также на этом языке. Поиск документа состоит в сравнении множества хранящихся в системе ПОД и текущего поискового образа запроса (ПОЗ), в результате чего пользователю выдается требуемый документ или отказ.

Информационно-поисковые системы делятся на два типа.

  • Документальные (документографические)

Это системы, в которой объектом сохранения и обработки есть собственно документы.. В такой ИПС все хранимые документы индексируются некоторым специальным образом. Каждому документу (статье, отчету, протоколу и т.п.) присваивается индивидуальный код, составляющий поисковый образ документа. Поиск идет не по самим документам, а по их поисковым образам, которые содержат информацию (адрес) о местонахождении документа. Именно так ищут книги по заказам читателя в больших библиотеках (в маленьких библиотеках библиотекарь обычно ищет книги сам). По требованию читателя сначала находят карточку в каталоге, а потом по шифру, указанному на ней, отыскивается и сама книга. Различия документографических ИПС определяются тем, как устроен поисковый образ документа. В простейшем случае это просто его индивидуальное название (например, название, автор, год издания книги). В более сложных случаях нет однозначного соответствия между поисковым образом документа и самим документом. Вполне возможен случай, когда поисковый образ документа соответствует нескольким различным документам и, наоборот, один и тот же документ соответствует не одному, а нескольким поисковым образам.

  • Фактографическая информационная поисковая система - ИПС

Это система, где, объектом или сущностью есть то, что представляет для проблемной сферы многосторонний интерес (сотрудник, договор, изделие и т.п.). Ведомости об этих сущностях могут находиться во множестве разных входных и исходных сообщений.. В отличие от документографических ИПС в ИПС такого типа хранятся не документы, а факты, относящиеся к какой-либо предметной области . Хранимые факты могут быть извлечены из различных документов. В базе фактов они связываются между собой системой разнообразных отношений. Такая сеть в ИПС носит название тезауруса предметной области. Запросы, поступающие в фактографические ИПС, используют тезаурус для поиска ответов на запросы. Поиск осуществляется методом поиска по образцу, широко применяющемуся в базах знаний систем искусственного интеллекта. ИПС фактографического типа постепенно приближаются по своей организации и функционированию к развитым базам данных и знаний.

Поиск информации - задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку (например, посетителю библиотеки), были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ.

Автоматизированная поисковая система - система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций .

Опыт и практика создания систем в различных сферах деятельности позволяет дать более широкое и универсальное определение, которое полнее отражает все аспекты их сущности.

Информационно-поисковая система - это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска .

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска - релевантность.

Релевантность - это соответствие результатов поиска сформулированному запросу.

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WorldWideWeb). Основными показателями ИПС для WWW являются пространственный масштаб и специализация. По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное - по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

История развития ИПС

Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост- компьютерами Internet.

Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост- компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения .

Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы World Wide Web и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети .

Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.

Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher- и FTP-серверы. Таким образом, пользователь получает возможность “путешествовать” по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам.

Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка.

Основой всех поисковых систем составляют базы данных - совокупность данных организованных по предельным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными, независимо от прикладных программ.

Можно выделить следующие элементы функционирования информационных систем:

Сбор информации - организованный в специальном порядке процесс сбора и отображения информации:

Получение информации;

Оценка относимости информации;

Порядок отбора и фиксации информации.

Комплектование - процесс сложения информации из множества частей в единое целое и доведения её до пользователя.

Поиск и выдача информации - установление специального технологического порядка удовлетворения информационных потребностей абонентов информационной системы в управленческой деятельности и технологических процессах.

Поддержание целостности и сохранения информации - пересмотр, ревизия и отсеивание утратившей актуальность информации являются неотъемлемой функцией информационных подразделений. Сохранность информации осуществляется с помощью нормативно - инструктивных документов.

По характеру предоставления логической организации хранимой информации информационные системы разделяются на фактографические, документальные и геоинформационные.

Фактографические информационные системы накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому - либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.

В документальных информационных системах единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируется, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции - дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов - соподчиненность по смысловому содержанию.

В геоинформационных системах данные организованы в виде отдельных информационных объектов, привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент.

Другим критерием классификации поисковых систем являются функции или решаемые задачи. По данному признаку различаются справочные, поисковые и расчётные системы.

Справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов.

Поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать как некое информационное пространство, задаваемое в терминах информационно - логического описания предметной области.

Расчетные заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.

Технологические функции информационных систем заключаются в автоматизации всего технологического цикла или отдельных его компонентов, производственной или организационной структуры.

Таким образом, к основным функциям ИПС можно отнести:

Хранения больших объемов информации;

Быстрого поиска требуемой информации;

Добавления, удаления и изменения хранимой информации;

Вывода информации в удобном для человека виде.

Различают: - автоматизированные (coputerised);

Библиографические (reference);

Диалоговые (online);

Документальные и фактографические информационно-поисковые системы.

Информационно-поисковые системы в последнее время начали ускоренно развиваться, появляются новые системы, они широко рекламируются и продаются. Это обусловлено значительно возросшей потребностью общества в эффективной работе с правовой и нормативно-технической информацией и использованием при этом компьютерных информационно-поисковых систем. Широкое распространение поисковых систем явилось подлинным прорывом в области информатизации в России и дало возможность техническим специалистам предприятий получить свободный доступ к правовым и нормативно-техническим документам.

Качество принятых специалистом решений зависит от количества обработанной информации. В современных условиях обойтись без мощного и удобного инструмента, помогающего в поиске и обработке информации, невозможно. Эффективное использование поисковых систем зависит от того, насколько технический специалист знает специфику, возможности и область применения этих новых информационных систем.

Создание современных систем хранения информации осуществляется двумя основными способами: с использованием иерархической и гипертекстовой моделей. В иерархической модели используется многоуровневая рубрикация при классификации информации. Для поиска документа используется его краткое описание, составляемое при вводе информации в систему. Современная гипертекстовая модель позволяет в электронных документах использовать ссылки на другие документы.

Опыт эксплуатации различных систем обработки и поиска информации, основанных на таких моделях указывает на то, что они не лишены недостатков. Обе системы требуют значительных материальных затрат на разработку и формирование, а значит, ограничены в объемах хранимой информации. Формирование рубрикаторов и ссылок производится специалистами, а их представление об информации и представление пользователя могут различаться.

Санкт-Петербургский государственный университет

Филологический факультет

Кафедра математической лингвистики

В.П. Захаров

ИнформационнО-ПОИСКОВЫЕ
системы

Учебно-методическое пособие

Санкт-Петербург

Рецензенты:

докт. техн. наук В.Ш. Рубашкин (С.-Петерб. гос. ун-т)

канд. пед. наук О.А. Арбатская (С.-Петерб. гос. ун-т культ. и иск-в)

Печатается по постановлению
Редакционно-издательского совета
С.-Петербургского государственного университета

Захаров В.П.

З-38Информационно-поисковые системы: Учебно-метод. пособие. - СПб., 2005. - 48 с.

Предлагаемое пособие содержит описание основ документального информационного поиска, программу учебной дисциплины «Теория информационного поиска», которая изучается студентами 3-го курса отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета, и набор лабораторных (практических) работ по этой дисциплине. Отдельные лабораторные работы используются для обучения студентов других курсов и по другим дисциплинам. Пособие базируется на исследовательской и преподавательской деятельности автора.

Для студентов и аспирантов, специализирующихся в области прикладной лингвистики, информационных систем и автоматизированных систем обработки текста.

ã В.П. Захаров, 2005

ã Санкт-Петербургский
государственный
университет, 2005

1. Введение в теорию и практику
информационного поиска

1.1. Основные понятия информационного поиска

Информационно-поисковая система (ИПС) - это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации - текстов (документов) или данных (фактов). Информационно-поиско-выми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное - это целевая функция: хранение и поиск информации.

В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический - и, соответственно, два типа ИПС - документальные и фактографические. Последние также называют информационно-справочными ИПС.

Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.

Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.

Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно.

В то же время между документальными и фактографическими системами нет непреодолимой разницы. Нередко реальные ИПС представляют собой пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.

Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска.

Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответ-ствует смысловому содержанию информационного запроса, называется релевантным , а свойство смысловой близости между двумя и более текстами (в данном случае - между документом и информационным запросом) - релевантностью . Релевантность - это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержа-нию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, - формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность - релевантностью информации (имеется в виду «информации, содержащейся в документе»).

Составные части ИПС называют подсистемами. Разделение на подсистемы необходимо и полезно как в целях разработки, так и для описания технологии функционирования систем. Оно может иметь разную основу. Обычно рассматривают два типа разбиения ИПС на подсистемы: по функциональному принципу (функциональные подсистемы) и по типу средств (обеспечивающие подсистемы).

Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем , или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др.

Информационное обеспечение - это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации.

Лингвистическое обеспечение - это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств.

Программное обеспечение - это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера.

Техническое обеспечение - это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации.

Технологическое обеспечение - это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы.

Кадровое (или штатное) обеспечение - это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал).

ИПС также делят на составные части (подсистемы) по функциональному признаку, когда каждая подсистема выполняет определенную функцию в технологическом процессе: ввод документов, индексирование документов, ввод и корректировка запросов, индексирование запросов, поиск, ведение словарей, ведение статистики, обработка результатов поиска, выдача документов и др. Такие части получили название функциональных подсистем .

Важные понятия в информационном поиске - документ и запрос. Документ определяется как средство закрепления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека. Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме.

Запрос представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ) или поисковым предписанием (ПП). Под этим понимают выражение на языке запросов , который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы.

Третья часть информационного обеспечения - так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткие описания документов и собственно документы.

Важнейшей компонентой информационно-поисковых систем является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов - аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Хорошо известны такие «недостатки» языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Информационно-поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков.

При сопоставлении документов и запросов требуется определить релевантность документа по отношению к запросу и принять решение о выдаче или невыдаче документа на данный запрос. Правила, на основе которых формально определяется степень релевантности документа и запроса, т.е. соответствие ПОД и ПОЗ, называются критерием смыслового соответствия (КСС), или критерием выдачи .

Математические модели и формулы вычисления коэффициента релевантности могут быть самые разные. На практике повсеместное распространение получили ИПС с логическим критерием выдачи , когда ПП строятся с использованием логических (булевых) операторов конъюнкции (&), дизъюнкции (\/), отрицания (~). В этом случае логическое выражение запроса представляет собой набор поисковых элементов (обычно ключевых слов), объединенных логическими операторами и скобками, необходимыми для указания порядка выполнения операторов. Ключевые слова ПП играют роль булевых переменных, принимающих значение 1 («истина»), если данное слово содержится в документе, и 0 («ложь»), когда оно там отсутствует. Документ признается релевантным запросу, если логическая формула запроса в целом получает для данного документа значение «истина», и нерелевантным, если результат вычисления логической формулы дает «ложь».

Принятые в логике для обозначения конъюнкции, дизъюнкции и отрицания значки (&, \/, ~) в информационном поиске обычно заменяют на операторы AND, OR и NOT соответственно. В России чаще используются обозначения И, ИЛИ, НЕ. Однако в общем случае в каждой конкретной ИПС обозначения для булевых операторов выбираются свои, причем иногда для удобства пользователя вводится несколько значков для одного и того же оператора (например, в ИПС «Апорт» оператор конъюнкции может быть задан следующими знаками: &, пробел, AND, И, +).

Использование булевых операторов обеспечивает логику сравнения документов и запросов, понятную пользователю. Поиск (вычисление истинности для элементов ПП), как правило, проводится по специальным индексным (инвертированным) файлам, построенным на основе словника документального массива, и характеризуется высокой скоростью. Эти простота и понятность логического КСС и явились причиной его широкой распространенности.

Проблема оценки эффективности поиска является комплексной проблемой, включающей как теоретическую, так и практическую сторону. Главные из функциональных (технических) показателей ИПС, базирующихся на релевантности, - это полнота и точность, которые основываются на разделении документов на релевантные и нерелевантные, а также на выданные и невыданные.

Полнотой поиска (П) (англ. Recall - R) называется мера, вычисляемая как отношение количества выданных релевантных документов к общему числу релевантных документов, содержащихся в информационном массиве.

Точность поиска (Т) (англ. Precision - P) - это отношение количества выданных релевантных документов к общему числу документов в выдаче .

1.2. Информационный поиск в сети Интернет

Переход к информационному обществу XXI века породил беспрецедентный рост объемов и концентрации информации в глобальных компьютерных сетях. Это резко обострило проблему создания информационно-поисковых систем (ИПС) и их эффективного использования.

История автоматизированных информационно-поисковых систем исчисляется полувеком. Типичная ИПС первых лет - это человеко-машинная система, где анализ и описание содержания документов (индексирование) выполняется вручную, а поиски проводятся машиной. Первоначально основу ИПС составляли информационно-поисковые языки (ИПЯ), основным элементом которых являются дескрипторные словари и тезаурусы. Сегодня, однако, большинство работающих ИПС относится к классу вербальных систем бестезаурусного типа, когда индексационные термины выбираются непосредственно из текстов документов. Лавинообразный рост объемов электронной документальной информации, ее видовое, тематическое и языковое разнообразие являются как причиной кризиса современного информационного поиска, так и стимулом его совершенствования.

Проблема поиска ресурсов в сети Интернет была осознана достаточно скоро, и в ответ появились различные системы и програм-мные инструменты для поиска, среди которых следует назвать системы Gopher, Archie, Veronica, WAIS, WHOIS и др. В последнее время на смену этим инструментам пришли «клиенты» и «серверы» всемирной паутины WWW.

Если попытаться дать классификацию ИПС сети Интернет, то можно выделить следующие основные типы:

1. ИПС вербального типа (поисковые системы – search engines)

2. Классификационные ИПС (каталоги – directories)

3. Электронные справочники («желтые» страницы и т.п.)

4. Специализированные ИПС по отдельным видам ресурсов

5. Интеллектуальные агенты.

Глобальный учет всех ресурсов Интернета обеспечивается вербальными и отчасти классификационными системами.

Классификационные ИПС реализуют навигацию в веб-пространстве на основе специальных указателей, представляющих собой тематические «деревья», строящиеся на основе классификаций. Схемы классификации ресурсов в Интернете - это, как правило, древесные структуры, узлы которых названы словами естественного языка. Различные классификационные схемы отличаются друг от друга по объему и методологии их составления. Одним из недостатков универсальных иерархических классификаций является то, что они консервативны и отстают от развития науки, техники и жизни вообще. Главная проблема классификационных поисковых служб - это автоматизация классификации. До сих пор задача автоматической классификации удовлетворительного решения не нашла. Регистрация веб-сайтов и веб-страниц в каталогах, как правило, осуществляется людьми - индексаторами и модераторами данной системы. И поэтому объем базы данных систем классификационного типа сравнительно невелик по сравнению с информационной емкостью всего Интернета.

Для решения проблемы максимального охвата ресурсов Интернета создаются системы, называемые метапоисковыми (metasearch engines). Они не имеют собственных поисковых баз данных, не содержат никаких индексов и при поиске используют ресурсы других поисковых систем. За счет этого вероятность нахождения нужной информации возрастает. Для передачи запроса к поисковой системе используется специальный метапоисковый агент, который отвечает за процесс ретрансляции запроса в другие системы. После обработки полученного запроса каждая система возвращает метапоисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. При всей привлекательности метапоисковых систем следует помнить и об их минусах и недостатках. Прежде всего, отсутствие единого стандарта языка запросов не позволяет метасистемам добиваться от поисковых систем, выполняющих запросы метапоисковых систем, такого же результата, какого может добиться опытный пользователь при работе с каждой машиной в отдельности.

Основным средством поиска информации в сети сегодня следует считать глобальные ИПС вербального типа (search engines), индексирующие (по крайней мере, претендующие на это) все Интернет-пространство. К числу главных поисковых систем этого типа (в первую очередь, по объему базы данных) можно отнести Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Среди российских систем главными являются три: Яндекс (Yandex), Рамблер (Rambler) и Апорт! (Aport). Полнота поисковой базы и оперативность индексирования веб-сайтов является главной проблемой всех ИПС в Интернете. Как правило, системы с бóльшим объемом базы дают в результате поиска и большее количество документов. Большая, как лингвистическая, так и программная проблема - многоязычие информационного пространства Интернета и многообразие форматов представления данных. Тем не менее, основные глобальные системы с этими проблемами справляются.

Именно вербальным ИПС и уделено основное внимание в практической части пособия. Прежде всего, моделируется уровень пользователя, выражающийся в языках запросов и в запросно-ответных интерфейсах. Производится сравнительный анализ языков запросов различных ИПС сети Интернет.

Особенность современных систем - полнотекстовый поиск. Многие вербальные ИПС сети Интернет вычисляют релевантность документов запросам путем сопоставления элементов запроса с полными текстами документов, размещенных в сети. Что касается информационно-поискового языка, то, как правило, в качестве поисковых элементов выступают обычные слова естественных языков. Запросы формулируются через специальный интерфейс, реализуемый в виде экранных форм в программах-броузерах.

Полезно представлять, как эти системы устроены. В составе любой поисковой системы можно выделить три основные части.

Робот - подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети.

Поисковая база данных - так называемый индекс - специальным образом организованная база (англ. index database), включающая, прежде всего, инвертированный файл, который состоит из лексических единиц, взятых из проиндексированных веб-документов, и содержит разнообразную информацию о них (в частности, их позиции в документах), а также о самих документах и сайтах в целом.

Поисковая система - подсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. Поисковая система общается с пользователем через пользовательские интерфейсы - экранные формы программ-броузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска.

Индексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. В основе индекса всегда лежит инвертированный файл. Инвертированная (инверсная) схема организации поискового массива основана на принципе обеспечения доступа к документам через их идентификаторы содержания (поисковые признаки: дескрипторы, ключевые слова, термины, другие признаки). Такую схему получают путем обработки последовательного массива документов с целью создания специальных вспомогательных инвертированных файлов - точек доступа.

Каждая запись такого вспомогательного массива идентифицирована соответствующим идентификатором содержания (дескриптор, ключевое слово, просто термин, имя автора, название организации и т.п.) и содержит имена (адреса хранения) всех документов, в поисковых образах которых он содержится. Для каждого идентификатора содержания (поискового элемента данных) в инвертированном массиве вместе с адресом (номером, именем) документа может храниться (и обычно хранится) дополнительная информация, как-то: имя поля, номер предложения, в составе которых данный элемент встретился в данном документе, номер слова в предложении и т.д. Фиксация положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.

Нахождение необходимых документов через инвертированный файл осуществляется не сплошным просмотром всего массива, а просмотром лишь тех идентификаторов содержания в инвертированном файле, которые заданы в поисковом предписании, т.е. число операций сравнения слов при поиске пропорционально числу терминов поискового предписания. Такой способ работы систем снижает время на поиск и позволяет обслуживать потребителей информации в реальном масштабе времени.

Поиск в индексе - это операции над списками идентификаторов поисковых элементов в соответствии с моделью поиска и критерием соответствия. Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список кратких описаний документов, снабженных гипертекстовыми ссылками и другими характеристиками, возвращается пользователю в его клиентскую программу-броузер. Щелчок мышью по названию документа в его кратком описании (по гиперссылке) запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.

Важным компонентом современных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь общается с поисковой системой. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

    индексирование полных текстов возможно большего числа сайтов;

    «грамотная» работа со словоформами - способность ИПС отождествлять разные словоформы одной и той же лексемы, по-другому, порождать каноническую форму - лемму, и возможность выделять среди множества словоформ конкретную форму;

    Автореферат диссертации

    Примеры употребления и другие сведения Документальная информационно -поисковая система информационно -поисковая система , предназначенная для отыскания документов, содержащих...

  • Автоматизированные информационно-поисковые системы

    Учебное пособие

    Типа автоматизированных информационно -поисковых систем: документальные, фактографические и информационно -логические. Документальная автоматизированная информационно -поисковая система система , предназначенная для...

  • Дипломный проект тема « разработка информационного агента (робота) информационно-поисковой системы для сбора информации в сети интернет»

    Диплом

    ДИПЛОМНЫЙ ПРОЕКТ Тема: «Разработка информационного агента (робота) информационно -поисковой системы для сбора информации в...) В.К. Иванов, К.В. Иванов, Введение в информационно -поисковые системы . (/window_catalog/pdf2txt?p_id=28415) И. Некрестьянинов...