Технология поиска и публикации информации. Контрольные вопросы и задания

Лекция 3

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.).

Поиск информации в Интернете осуществляется с помощью специальных программ, обрабатывающих запросы - информационно-поисковых систем (ИПС) . Существует несколько моделей, на которых основана работа поисковых систем, но исторически две модели приобрели наибольшую популярность - это поисковые каталоги и поисковые указатели .

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Они обычно представляют собой иерархические гипертекстовые меню с пунктами и подпунктами, определяющими тематику сайтов, адреса которых содержатся в данном каталоге, с постепенным, от уровня к уровню, уточнением темы. Поисковые каталоги создаются вручную . Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают то, что по их мнению представляет общественный интерес, и заносят в каталог.

Основной проблемой поисковых каталогов является чрезвычайно низкий коэффициент охвата ресурсов WWW. Чтобы многократно увеличить коэффициент охвата ресурсов Web, из процесса наполнения базы данных поисковой системы необходимо исключить человеческий фактор - работа должна быть автоматизирована.

Автоматическую каталогизацию Web-ресурсов и удовлетворение запросов клиентов выполняют поисковые указатели . Работу поискового указателя можно условно разделить на три этапа:

· сбор первичной базы данных. Для сканирования информационного пространства WWW используются специальные агентские программы - черви, задача которых состоит в поиске неизвестных ресурсов и регистрация их в базе данных;

· индексация базы данных - первичная обработка с целью оптимизации поиска. На этапе индексации создаются специализированные документы - собственно поисковые указатели;

· рафинирование результирующего списка. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Рафинирование результирующего списка заключается в фильтрации и ранжировании результатов поиска.

Под фильтрацией понимается отсев ссылок, которые нецелесообразно выдавать пользователю (например, проверяется наличие дубликатов). Ранжирование заключается в создании специального порядка представления результирующего списка (по количеству ключевых слов, сопутствующих слов и др.).

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Технология поиска информации в Интернет. Виды поисковых инструментов

1. Введение

2. Технологии поиска

2.1 Поисковые инструменты

2.2 Поисковые машины (search engines)

2.3 Каталоги (directories)

2.4 Подборки ссылок

2.5 Базы данных адресов (addresses database)

2.6 Поиск в архивах Gopher (Gopher archives)

2.7 Система поиска FTP файлов (FTP Search)

2.8 Система поиска в конференциях Usenet News

2.9 Системы мета-поиска

2.10 Системы поиска людей

3. Заключение

Приложение . Краткие сведения о поисковых системах

1. Введение

С каждым годом объемы Интернета увеличиваются в разы, поэтому вероятность найти необходимую информацию резко возрастает.

Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей увеличивается на 15-80% ежегодно. И, тем не менее, все чаще при обращении к Интернетосновной проблемой оказывается не отсутствие искомой информации, а возможность ее найти . Как правило, обычный человек в силу разных обстоятельств не может или не хочет тратить на поиск нужного ему ответа больше 15-20 минут. Поэтому особенно актуально правильно и грамотно научиться, казалось бы, простой вещи – где и как искать, чтобы получать ЖЕЛАЕМЫЕ ответы.

Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.).

Далее раскрываются основные технологии поиска информации в Интернет, предоставляются общие черты поисковых инструментов, рассматриваются структуры поисковых запросов для наиболее популярных русскоязычных и англоязычных поисковых систем.

2. Технологии поиска

Web-технология World Wide Web (WWW) считается специальной технологией подготовки и размещения документов в сети Интернет. В состав WWW входят и web-страницы, и электронные библиотеки, каталоги, и даже виртуальные музеи! При таком обилии информации остро встает вопрос: «Как сориентироваться в столь огромном и масштабном информационном пространстве?» В решении данной проблемы на помощь приходятпоисковые инструменты .

2.1 Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определеннуюфункцию :

1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.

2. Поиск информации по запросу пользователя.

3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы.

Сначала рассмотрим следующие понятия :

1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.

2. Индекс поисковой системы – это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.

3. Запрос – это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные ("", ~ ) и математические символы (*, +, ?).

Схема поиска информации проста . Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному запросу. Этот список документовранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска – simple search (простой поиск) иadvanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology », тогда как поисковый инструментYahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or ,And ,Near ,Not , математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска. Формы запросов на англ. приведены в таблице 1.

Таблица 1

Простой запрос

Расширенный запрос

Расширенный

использованием математических

символов

internet merchant account and

Internet+ merchant+ account

merchant account

internet ~ merchant~ gov*

internet merchant account

internet merchant near gov*

internet ~ merchant~ governor

"merchant account"

internet merchant near education

Internet ~ merchant~ (governor

"internet merchant account"

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание (см. таблицу 1). Операторand позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный операторnear , указывающий, что слова должны располагаться в документе в достаточной близости. Использованиеnear значительно уменьшает количество найденных документов. Наличие символа "* " в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на "gov ", если в строке запроса запишем "gov*". Это могут быть слова government, governor и т.д.

Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый сервер Яndex .

В Яndex можно просто написать по-русски фразу, описывающую то, что Вы хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается найти все, что относится к заданной теме.

Вы можете, используя специальные операторы, составить строку, поясняющую поисковой системе, каким Вашим требованиям должна отвечать интересующая Вас информация. Некоторые из операторов языка запросов Яndex можно посмотреть здесь: http://help.yandex.ru/search/?id=481939

Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Давайте рассмотрим наиболее популярные технологии поиска информации в Интернет.

2.2 Поисковые машины (search engines)

Машины веб-поиска - это сервера с огромной базой данных URL-адресов, которые автоматически обращаются к страницам WWW по всем этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц в свою базу данных (индексирует страницы).

Более того, роботы поисковых систем переходят по встречаемым на страницах ссылкам и переиндексируют их. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Именно этот вид поисковых инструментов является наиболее известным и популярным среди всех пользователей сети Интернет. У каждого на слуху названия известных машин веб-поиска (поисковых систем) –Яndex ,

Rambler, Aport.

Чтобы воспользоваться данным видом поискового инструмента, необходимо зайти на него и набрать в строке поиска интересующее Вас ключевое слово.

Чтобы поиск был наиболее эффективен, заранее обратите внимание на следующие моменты :

определитесь с темой запроса . Что именно в конечном итоге Вы хотите найти?

обращайте внимание на язык, грамматику, использование различных небуквенных символов, морфологию. Важно также правильно сформулировать и вписать ключевые слова. Каждая поисковая система имеет свою форму составления запроса - принцип один, но могут различаться используемые символы или операторы. Требуемые формы запроса различаются также в зависимости от сложности программного обеспечения поисковых систем и предоставляемых ими услуг. Так или иначе, каждая поисковая система имеет раздел " Help " ("Помощь"), где все синтаксические правила, а также рекомендации и советы по поиску, доступно объясняются (скриншот страничек поисковиков).

используйте возможности разных поисковых систем. Если не нашли на Яndex, попробуйте на Google. Пользуйтесь услугами расширенного поиска.

чтобы исключить документы, содержащие определенные термины, используйте знак " - " перед каждым таким словом. Например, если Вам нужна информация о работах Шекспира, за исключением "Гамлета", то введите запрос в виде: "Шекспир-Гамлет". А для того, чтобы в результаты поиска обязательно включались определенные ссылки, используйте символ " + ": ссылки о продаже именно автомобилей - запрос "продажа+автомобиль".

каждая ссылка в списке результатов поиска содержит сниппет – несколько строчек из найденного документа, среди которых встречаются Ваши ключевые слова. Прежде чем переходить по ссылке, оцените соответствие сниппета теме запроса. Перейдя по ссылке на определенный сайт, внимательно окиньте взглядом главную страничку. Как правило, первой страницы достаточно, чтобы понять – по адресу Вы пришли или нет. Если да, то дальнейшие поиски нужной информации ведите на выбранном сайте (в разделах сайта), если нет – возвращайтесь к результатам поиска и пробуйте очередную ссылку.

помните, что поисковые системы не производят самостоятельную информацию (за исключением разъяснений о самих себе). Поисковая система

это лишь посредник между обладателем информации (сайтом) и Вами. Базы данных постоянно обновляются, в них вносятся новые адреса, но отставание от реально существующей в мире информации все равно остается. Это просто потому, что поисковые системы не работают со скоростью света.

К наиболее известным машинам веб-поиска относятсяGoogle ,Yahoo ,Alta Vista ,Excite ,Hot Bot ,Lycos . Среди русскоязычных можно выделитьЯndex ,Rambler ,Апорт .

Поисковые системы являются самыми масштабными и ценными, но далеко не единственными источниками информации в Сети.

Сегодня Интернет объединяет множество разных сетей, миллионы компьютеров, около 300 миллионов пользователей (данные от Robert Orenstein) всех континентов, и, по разным оценкам, число таких пользователей увеличивается на 15-80% ежегодно. Можно выделить два основных направления использования Интернета в бизнесе. Это оперативный доступ к поистине необозримым кладезям информации по любой тематике (на сотнях тысяч информационных серверов), поиск и интерактивное общение с партнерами, практически в любой специализации и географическом расположении. Как сориентироваться в столь масштабном информационном пространстве? Для этого существуют специализированные поисковые серверы. Их можно разделить на тематические каталоги, роботы индексов (поисковые машины), системы метапоиска. Также для поиска необходимой информации в Интернете весьма полезны системы поиска в конференциях Usenet и службы поиска людей.


Тематические каталоги

Наиболее популярным во всем мире признан тематический каталог Yahoo! (www.yahoo.com). Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики. Yahoo! предлагает вам воспользоваться иерархическим деревом при поиске информации. Т.е. вы выбираете сначала общую тематику, удовлетворяющую вашему запросу, и далее конкретизируете, следуя подсказкам каталога. В конечном итоге вы получаете список сайтов, содержащих информацию, соответствующую вашему запросу. На Yahoo! вы также можете пойти и по другому пути. Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках. Набираете эти слова через пробел в строке ввода на главной странице Yahoo! и нажимаете Enter. Система попытается сама подобрать интересующую вас информацию. Так как Yahoo! - система англоязычная, то достаточно удобно использовать Интернет-переводчик, такой, как "Сократ Интернет" (www.arsenal.ru).

Если же вы ищете информацию заведомо русскоязычную, то имеет смысл использовать российские и местные белорусские каталоги. Принцип работы с ними идентичен тому, который мы рассмотрели на примере с Yahoo!. Здесь стоит отметить первый российский каталог Russia on the Net (www.ru) - один из крупнейших русскоязычных каталогов List.RU (www.list.ru), российский вариант Yahoo! (www.yahoo.ru). Имеет место также каталог "Созвездие Интернет", содержащий только избранные (заявлено как самые интересные) ресурсы. Среди белорусских каталогов стоит отметить наш национальный Yahoo! (unclesam.hypermart.net), новый быстроразвивающийся сервис 09 (www.09.open.by), сервер Unibel (www.unibel.by) и небольшую базу данных без возможности поиска Data (www.data.minsk.by). Говоря о базах данных, нельзя не вспомнить замечательный российский проект "Желтые страницы Интернета" (www.piter-press.ru/yp), где, как и в одноименной книге, представлена детальная информация о самых разных ресурсах Интернета.

В бизнесе также понадобятся каталоги предприятий и каталоги товаров и услуг. Пожалуй, самый крупный каталог предприятий СНГ Партнер (trifle.net/cis). В Интернете представлен и популярный белорусский каталог ТелеМедиа - "Бизнес Беларусь 99" (www.telemedia.minsk.by). Есть и другие белорусские каталоги "Каталог белорусских товаров и услуг" (www.open.by/abase), "Информационно-поисковая система товаров и производителей РБ на сервере Могилевской области" (enterprises.res.mogilev.by/EnterLogin.asp?Lang=R) и другие.


Роботы индексов или поисковые машины

Поисковые машины устроены несколько иначе. По сути, это сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам WWW по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Более того, этот сервер обращается по всем встречаемым на страницах ссылкам, и переходя к новым страницам, проделывает с ними то же самое. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернете. Самая популярная поисковая машина AltaVista (www.altavista.com) содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц. Как пользоваться этим сервисом? Необходимо продумать строку запроса информации (не более чем 5 слов), как в случае с Yahoo!, и также набрать ее в поле ввода. Над кнопкой Search (Поиск) находится ниспадающее меню с выбором языка. Перед нажатием Enter или кнопки Search необходимо выбрать язык представления информации. Кроме того, в запрос информации можно включать специальный символ "*", расширяющий диапазон поиска. Скажем, чтобы AltaVista могла найти не только все вхождения слова "легкая", но слова "легкую", "легкой" и т.д., в запросе надо писать "легк**". Т.е. изменяющиеся буквы в окончании заменяем на символ "*".

Как и предыдущем случае, для поиска в русскоязычном Интернете AltaVista не очень подходит. Если на запрос "Light industry" AltaVista формирует список из 2917 URL-адресов, то по запросу "Легкая промышленность" появляется список ссылок всего на 9 сайтов. Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex (www.yandex.ru). В Яndex можно просто написать по-русски фразу, описывающую то, что вы хотите найти. Система самостоятельно проанализирует и обработает ваш запрос, а затем постарается найти все, что относится к заданной теме. Ну а в том случае, если нужных документов не обнаружится, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltaVista вряд ли дойдет, так как база Яndex содержит порядка 2 000 000 документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать ваш запрос для сокращения этого списка до разумных пределов. Вы можете на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя специальные операторы, составить строку, поясняющую Яndex, каким требованиям должна отвечать интересующая вас информация. На врезке приведены некоторые из операторов языка запросов Яndex.

Подробней о языке запросов Яndex можно прочесть в статье "Подробное описание языка запросов поисковой системы Яndex" (bforum.virtualave.net/yandex-request.htm).

Стоит вспомнить об еще одной популярной российской поисковой машине Rambler (www.rambler.ru). У этого сервера еще более полная база данных адресов URL, чем у Яndex. Отличительной чертой Rambler является то, что этот сервер ведет статистику посещаемости ссылок из собственной базы данных. Вы всегда можете зайти в раздел "Рейтинг" на главной странице Rambler и увидеть содержимое тематического каталога, отсортированного по убыванию числа посещений сайтов и, следовательно, их популярности. Тем самым отсекаются явные аутсайдеры, и вы не тратите на них свое время. Rambler так же, как и Yandex, позволяет, кроме простого запроса, запрос с языком запросов. Поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол "*" (аналогично расширяющему диапазон запроса символу "*" в AltaVista), коэффициентные символы "+" и "-" для увеличения или уменьшения значимости вводимых в запрос слов.

Стоит также отметить прочие русскоязычные поисковые машины Апорт (www.aport.ru) и АУ (www.au.ru).

Поисковые машины и тематические каталоги сегодня имеют много общего. У каталогов присутствует возможность поиска информации по строке запроса с использованием логических операторов, а поисковые машины содержат свои собственные тематические каталоги. И тем не менее, лучше всего эти поисковые сервисы проявляют себя в своей первоначальной категории.


Системы метапоиска

Читая обо всех перечисленных поисковых службах, поневоле задумаешься: "А если для поиска необходимой мне информации не достаточно одной поисковой службы? Неужели мне придется входить на все здесь перечисленные серверы и каждый раз повторять один и тот же запрос?!". Наиболее качественный результат как раз будет именно при таком подходе. Но можно, исходя из экономии времени и денег, воспользоваться системами метапоиска. Наиболее популярная в мире система такого класса Search.com (www.search.com), но если мы работаем преимущественно с русскоязычными документами, то можно использовать Savvy Search (guaraldi.cs.colostate.edu:2000/form?lang=russian). Это достаточно мощная система, отсылающая ваш запрос на 13 крупнейших поисковых машин (в том числе и российских) и возвращающая вам их отчеты. Другая российская система метапоиска - "Следопыт" (www.medialingua.ru/www/Wwwsearc.htm) - работает только с пятью англоязычными поисковыми машинами и одной русскоязычной, но интересна тем, что переводит ваш русскоязычный запрос на английский язык для англоязычных поисковых машин.

Также существуют так называемые мультипоисковые страницы:


Службы поиска людей

У вас появилась возможность работать с электронной почтой, но вы не знаете адресов электронной почты партнеров вашей организации. Благодаря так называемым службам поиска людей в Интернете вы можете указав ФИО вашего оппонента, теоретически вы можете получить его адрес электронной почты и URL-адрес. Почему теоретически? Дело в том, что системы поиска людей, в основном, берут информацию об электронных адресах из открытых источников, таких, как конференции Usenet. Где гарантия, что ваши партнеры участвуют в этих конференциях? И тем не менее, рассмотрим некоторые службы поиска людей. В первую очередь, традиционно, о самой популярной англоязычной системе Four 11 (www.four11.com). Это действительно большой сервер - его база данных содержит порядка 6 000 000 адресов. Среди русскоязычных служб можно выделить Э-Рос (www.dubna.ru/eros) и Интермап (www.botik.ru/intermap/welcome.win0-abs.html).


Итоги

Подводя итог, можно сказать, что единой оптимальной схемы поиска в Интернете не существует. В зависимости от специфики необходимой вам информации, для ее поиска вы должны использовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользоваться какой-нибудь одной поисковой системой, например, Rambler, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска. А в бизнесе качество информации играет далеко не последнюю роль.

Дмитрий ШЕЙКО,
Бобруйский Компьютерный Форум,
bforum.virtualave.net ,
[email protected] ,
[email protected] ,
ICQ: 35325827


Синтаксис запроса Яndex

пробел или & логическое И (краткое - в пределах одного абзаца)

Пример: легкая промышленность

Результат: все документы, где в пределах одного абзаца встречаются слова "легкая" и "промышленность".

&& логическое И (в пределах документа)

Пример: легкая&&промышленность

Результат: все документы, где встречаются слова "легкая" и "промышленность"

, или | логическое ИЛИ

Пример: легкая, промышленность

Результат: все документы, где встречается либо слово "легкая", либо слово "промышленность"

~ бинарный оператор И НЕ (в пределах одного абзаца)

Пример: производство~газета

Результат: все документы, где в пределах одного абзаца встречается слово "производство", но не в словосочетании "газета производство"

~~ бинарный оператор И НЕ (в пределах документа)

Пример: производство~~газета

Результат: все документы, где встречается слово "производство", но не в словосочетании "газета производство"

() группирование слов

Пример: (швейное&&производство)~газета

Результат: все документы, где встречаются слова "швейное" и "производство", но не в словосочетании со словом "газета"

/(число) расстояние в словах, где "число" - число слов между словами в запросе плюс единица.

Пример: швейное/1 производство

Результат: все документы, где встречается словосочетание "швейное производство"

У русскоязычных пользователей наибольшей популярностью пользуются поисковые системы Google , Яндекс и Рамблер .

Информационный поиск как процесс

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты , сведения, данные .

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;
  • определение совокупности возможных держателей информационных массивов (источников);
  • извлечение информации из выявленных информационных массивов;
  • ознакомление с полученной информацией и оценка результатов поиска.

Виды поиска

Методы поиска

Адресный поиск

Процесс поиска документов по чисто формальным признакам, указанным в запросе.
Для осуществления нужны следующие условия:

  1. Наличие у документа точного адреса
  2. Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи , и адреса хранения документов в хранилище.

Семантический поиск

Процесс поиска документов по их содержанию .

  • Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.
  • Составление поискового описания, в котором указывается дополнительное условие поиска.

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске - с точки зрения содержания.

При семантическом поиске находится множество документов без указания адресов.

В этом принципиальное отличие каталогов и картотек .

Поиск информации - процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска или запросу.

ИП рассматривает поиск информации в документах , поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы .

Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.

В настоящее время ИП - это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет . ИП посвящена обширная литература и множество конференций. Одной из наиболее известных является TREC , организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

Запрос и объект запроса

Говоря о системах ИП, употребляют термины запрос и объект запроса .

Запрос - это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов , синтаксис варьируется от системы к системе. Кроме специального языка запросов , современные поисковые системы позволяют вводить запрос на естественном языке .

Объект запроса - это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в ИПС называется индексацией . Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат .

Задачи информационного поиска

Центральная задача ИП - помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

Классическая задача ИП, с которой началось развитие этой области, - это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

  • Вопросы моделирования;
  • Фильтрация документов;
  • Проектирование архитектур поисковых систем и пользовательских интерфейсов ;
  • Извлечение информации, в частности аннотирования и реферирования документов;

Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков , что включает в себя морфологический анализ , разрешение лексической многозначности и так далее.

Оценки эффективности

Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности , является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.

Точность (precision)

На этом рисунке релевантные точки (rel) находятся слева от прямой, а точки, найденные поисковой системой (retr), находятся в овале. Области красного цвета представляют ошибки поисковой системы. Красная область слева - это релевантные точки, не найденные системой (пропуск события), красная область справа - найденные, но нерелевантные точки (ложная тревога). Точность - это пропорция левой зелёной области по отношению к овалу (горизонтальная стрелка). Полнота - это пропорция левой зелёной области к области слева от прямой (диагональная стрелка).

Определяется как отношение числа релевантных документов, найденных ИПС, к общему числу найденных документов:

,

где - это множество релевантных документов в базе, а - множество документов, найденных системой. По результатам исследований компании, оценивающей релевантность показателей основных русских и зарубежных поисковых систем.

Полнота (recall)

Отношение числа найденных релевантных документов, к общему числу релевантных документов в базе:

,

где - это множество релевантных документов в базе, а - множество документов, найденных системой.

Выпадение (fall-out)

Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:

,

где - это множество не релевантных документов в базе, а - множество документов, найденных системой.

F-мера (F-measure, мера Ван Ризбергена)

Иногда бывает полезно объединить точность и полноту в одной усреднённой величине. Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них.

Поэтому хорошей мерой для совместной оценки точности и полноты является F-мера , которая определяется как взвешенное гармоническое среднее точности P и полноты R :

Обычно F -меру записывают в виде

При либо F -мера придает одинаковый вес точности и полноте и называется сбалансированной или -мерой (в нижнем индексе принято указывать величину ), выражение для неё упрощается

Использование сбалансированной F -меры не является обязательным: при предпочтение отдаётся точности, а при больший вес приобретает полнота.

См. также

  • Российский семинар по оценке методов информационного поиска (РОМИП)

Примечания

Ссылки

Литература

  • Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. - Addison-Wesley, 1999. - ISBN 0-201-39829-X
  • Manning C., Raghavan P., Schütze H. Introduction to Information Retrieval . - Cambridge University Press, 2008. - ISBN 0-521-86571-9
  • Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. - Вильямс, 2011. - ISBN 978-5-8459-1623-5
  • Ландэ Д. В., Снарский А. А. , Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы . - M.: Либроком (Editorial URSS), 2009. - 264 с. - ISBN 978-5-397-00497-8

Wikimedia Foundation . 2010 .