Технологии поиска различной информации. Поисковые системы Internet

компьютерный internet анимация поисковый

Поисковые системы Internet

Поисковые системы Google, Yahoo, Яндекс, Mail… служат для обнаружения необходимого ресурса в сети Интернет по ключевым словам. Эти системы, или, как их иначе называют, поисковые машины, ежедневно перебирают миллионы WWW серверов, индексируют и каталогизируют найденные ресурсы. Возможность поиска ресурса в Интернет очень удобна, но нельзя забывать о том, что Сеть живет своей жизнью - каждый день появляются тысячи новых страниц, некоторые старые исчезают… Поэтому, поисковые системы не всегда выдают самую точную информацию.

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно просматривать прежде всего наиболее популярные страницы.

Google - крупнейшая сеть поисковых систем, принадлежащая корпорации Google Inc.

Первая по популярности система, обрабатывает 41 млрд 345 млн запросов в месяц, индексирует более 25 млрд веб-страниц, может находить информацию на 195 языках.

Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т.д.

Для результатов поиска Google ранее предоставлял возможность повторного поиска, что позволяло производить поиск более детально. Для более детального поиска пользователям необходимо было указывать дополнительные параметры, по которым происходил отбор результатов, что позволяло сразу отобразить не только запрос, но и контекст, где он применяется. Данная возможность упрощала процедуру поиска, исключив необходимость в открытии каждого результата. 22 сентября 2010 года компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.

Из-за популярности поисковой системы в английском языке появился неологизм to google или to Google, использующийся для обозначения поиска информации в Интернете с помощью Google. Именно с таким определением глагол занесён в наиболее авторитетные словари английского языка - Оксфордский словарь английского языка и Merriam-Webster, хотя в других источниках, приводятся примеры его использования для обозначения поиска вообще чего-либо в Интернете.

Яндекс - российская ИТ-компания, владеющая одноимённой системой поиска в Сети иинтернет-порталом. Поисковая система «Яндекс» является четвёртой среди поисковых систем мира по количеству обработанных поисковых запросов. По состоянию на 8 февраля 2013 года, согласно рейтингуAlexa.com, по популярности сайт yandex.ru занимает 20-е место в мире и 1-е место в России.

Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году. В мае 2011 года Яндекс провёл первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времён IPO поисковика Google в 2004 году.

ь Управление индексированием в поисковой системе Яндекс

Разрешения и запрещения на индексацию берутся из файла robots.txt. Яндекс поддерживает META тег robots, тег NOINDEX и нестандартное расширение robots.txt - директиву Host. Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из желания не индексировать одинаковые документы в разных кодировках. Чем меньше сервер, тем быстрее робот его обойдет. Поэтому желательно запретить в файле robots.txt все документы, которые не имеет смысла индексировать.

ь Добавление страниц в поисковой системе Яндекс

Яндекс ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Владельцы ресурсов могут самостоятельно добавить свой сайт, заполнив форму AddURL

Поисковая система Яндекс - полнотекстовая, то есть в ее индекс попадают (и становятся доступными для поиска) только те слова, которые написаны на страницах сайтов.

ь Индексация в поисковой системе Яндекс

Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы, содержание которых заносится в индекс. Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.

Yahoo! - американская компания, владеющая второй по популярности в мире поисковой системой и предоставляющая ряд сервисов, объединённых интернет-порталом Yahoo! Directory; портал включает в себя популярный сервис электронной почты Yahoo.

Согласно статистике Alexa Internet, в феврале-апреле 2012 г. Yahoo! - четвёртый по посещаемостивеб-сайт в сети Интернет, и примерно 28% посещений состоят из просмотра только одной страницы.

Mail - крупный коммуникационный портал российского Интернета, ежемесячная аудитория которого по данным на октябрь 2012 года превышает 31,9 млн человек.

Число работников составляет 2800 человек.

Ресурс принадлежит инвестиционной группе Mail. Ru Group .

Ключевой сервис портала - почтовая служба Почта@Mail. Ru, был создан в 1998 году в основанной русскими эмигрантами американской софтверной компании DataArt. Программисты петербургского офиса DataArt создали новое программное обеспечение для почтового веб-сервера, которое в дальнейшем предполагалось продавать западным компаниям. Чтобы протестировать сервис, его временно выложили в открытый доступ в ноябре 1998 года для российских пользователей, и сервис вдруг стал стремительно набирать популярность.

По словам вице-президента и технического директора Mail. Ru Владимира Габриеляна, у портала имеется восемь центров обработки данных, количество серверов составляет 9000 единиц. В техническом департаменте Mail. Ru работает более семисот специалистов.

Организация поиска

Поисковая форма это очень полезная и востребованная штука, особенно если речь идет о серьезных крупных (в плане количества страниц и представленного материала) и хорошо посещаемых сайтах. Найти нужную информацию на подобном сайте используя лишь меню навигации и внутренние ссылки порой может представлять трудную задачу. Гораздо проще вбить пару нужных слов в соответствующее поле, нажать кнопочку «найти» и получить в итоге ссылки на страницы, где возможно и будет интересующая пользователя информация.

Поиск как правило можно реализовать двумя способами:

1. поиск, реализованный средствами движка сайта (php или какой нибудь другой язык веб-программирования) - но это только для серьезных веб-программистов, для простых смертных предпочтителен способ номер 2;

2. поисковая форма обращающаяся к поисковику. Этот способ доступен каждому человеку, освоившему азы html, и подходит для любого сайта, даже состоящего из набора статических html-страниц. Однако такой поиск будет вестись только по тем страницам, которые есть в базе поисковика. Чтобы все страницы сайта нормально индексировались необходимо соблюдение двух правил: 1) на каждую страницу сайта должна вести прямая ссылка без редиректа; 2) сайт не должен нарушать поисковую лицензию используемого поисковика.

Релеватность

Релеватность в информационном поиске - семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» - «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.

Виды релевантности

Соответствие документа информационному запросу, определяемое неформальным путем

2. Формальная релевантность

Соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.

Информационные технологии поиска информации

Поиск информации: основные понятия, виды и формы организации

Поиск информации или информационный поиск представляет один из основных информационных процессов. Человечество издревле занималось им. Цели, возможности и характер поиска всегда зависели от наличия, информации, её важности и доступности, а также средств организации поиска.

Конец XX – начало XXI века, характеризуется огромными массивами постоянно растущей разнообразной информации, доступной и представляющей интерес для самых широких слоев социума. Более того, Интернет-технологии и программно-технические средства, также доступные большинству людей, позволяют осуществлять данный процесс в любое время, практически в любом месте по любым запросам.

Поиск – процесс, в ходе которого в той или иной последовательности производится соотнесение отыскиваемого с каждым объектом, хранящимся в массиве. Цель любого поиска заключается в потребности, необходимости или желании находить различные виды информации, способствующие получению лицом, осуществляющим поиск, нужных ему сведений, знаний и т.д. для повышения собственного профессионального, культурного и любого иного уровня; создания новой информации и формирования новых знаний; принятия управленческих решений и т.п.

По оценке специалистов в Интернете работают миллиарды пользователей. Из них сотни миллионы – в режиме онлайн (англ. "on-line" – интерактивный доступ в любой момент времени) и количество таких пользователей постоянно растет. Это затрудняет организацию оперативного поиска и нахождения нужной такому количеству пользователей информации. Возникают проблемы, обусловленные разнообразными возможностями (видами) поиска информации, различными способами их реализации в информационно-поисковых системах (ИПС), разным уровнем знаний пользователей о возможностях таких систем, особенно в области формирования запросов и обработки данных, полученных в результате выполнения этих запросов и т.д.

Предполагается, что в дальнейшем будут созданы ИПС, способные автоматически адаптироваться с учетом уровня знаний и запросов конкретных пользователей, воспринимать запросы на естественном языке и, используя искусственный интеллект, выдавать им релевантную и пертинентную информацию. Для создания таких ИПС потребуются интеллект и знания конкретных пользователей ИПС или их посредников. Пока же от широкого круга пользователей поисковых систем требуется достаточно хорошо владеть данной предметной областью.

Существуют различные толкования термина "поиск информации" или "информационный поиск".

Термин " информационный поиск " (англ. "information retrieval") ввёл американский математик К. Муэрс. Он заметил, что побудительной причиной такого поиска является информационная потребность , выраженная в форме информационного запроса. К объектам информационного поиска К. Муэрс отнес документы, сведения об их наличии и (или) местонахождении, фактографическую информацию.

Решать проблемы фактографического поиска первыми стали представители библиотек. Они разработали средства информационного поиска, получившие название " справочно-поисковый аппарат " (каталоги, библиографические указатели и др.). В профессиональной отечественной печати данный термин используется с 1970-х годов. Библиотекари определяют " информационный поиск " как нахождение в информационном массиве документов , соответствующих информационному запросу пользователей .

С точки зрения использования компьютерной техники " информационный поиск " – совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя.

" Релевантность " – устанавливаемое при информационном поиске соответствие содержания документа информационному запросу или поискового образа документа поисковому предписанию.

Существуют и другие определения. В любом случае, информационный поиск вызван потребностью удовлетворения информационных запросов пользователей, ожидающих с помощью поисковых систем оперативно получить необходимые им данные или сведения. Он является методом нацеленного поиска и извлечения релевантных документов и (или) фактов из различных источников информации, например, банков данных или запоминающих устройств. В качестве таковых выступают живые и неживые объекты, представляющие различные источники и носители информации.

Системы, обеспечивающие реализацию подобного поиска информации, называются поисковыми системами (ПС). В традиционных технологиях ПС представляют картотеки и каталоги, адресные и иные справочники, указатели, энциклопедии, справочный аппарат к изданиям и другие материалы.

В 1945 годы американский ученый и инженер В. Буш в статье "Возможный механизм нашего мышления" впервые широко поставил вопрос о необходимости механизации информационного поиска.

Начиная с 1960 годов, появляются автоматизированные поисковые системы, работающие с информацией. С этого периода ведутся интенсивные работы в области формирования и реализации принципов и методов информационного поиска.

" Поисковые системы " осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова.

Электронные ПС с помощью обычных или интеллектуальных терминалов (ПЭВМ) дают возможность пользователям производить поисковые запросы при помощи формальных и описывающих содержание элементов и с применением специальных логических операторов; осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова. Поисковые системы позволяют осуществлять только поисковые процедуры и связанные с ними процессы.

Информационно-поисковые системы

ПС с большим набором функций и возможностей обычно входят в состав СУБД и именуются информационно-поисковыми системами. Они также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете.

Терминологически " информационно-поисковая система " (англ. "information retrieval system", IRS) – представляет систему, предназначенную для поиска и хранения информации; пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных.

Информационно-поисковая система трактуется и как система, обеспечивающая поиск и отбор необходимых данных на основе информационно-поискового языка и соответствующих правил поиска, а база данных – как совокупность средств и методов описания, хранения и манипулирования данными, облегчающих сбор, накопление и обработку больших информационных массивов. Организация различных БД отличается видом объектов данных и отношений между ними.

Функционирование современных ИПС основано на двух предположениях:

    документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;

    пользователь способен указать этот признак.

Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск. Оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или так организовав процесс, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части. В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля. Когда они являются "информационно-ориентированными", то им свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создаёт по существу новый, "самостоятельный" проблемно-ориентированный, индивидуально обновляемый и пополняемый ИР, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.

Особенность работы пользователя в режиме "самообслуживания", в контексте задачи автоматизации совокупной деятельности, означает, что система должна представлять среду, обеспечивающую поддержку функций потребителя по обработке найденной информации, а также традиционно относящихся к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык, выбор ИР, автоматизированный поиск и ручной отбор материалов), но также и такие "обеспечивающие" функции, как: структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация и обработка результатов поиска, причём на уровне как отдельного документа, так и информационных ресурсов в целом. Технические возможности, которыми располагает пользователь, позволяют ему создавать информационный ресурс – формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования.

ИПС делятся на: традиционные (ручные, механические, электромеханические) и автоматизированные (электронные).

Автоматизированные ИПС (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:

    сравниваются не сами объекты, а описания – так называемые "поисковые образы";

    сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.

Данные в АИПС вводятся на основе специально разрабатываемых форматов ввода. Все сведения об одном объекте в ИПС представляются в виде систематизированных данных, образующих одну строку таблицы и называются записью . При этом, если ИПС представляет электронный каталог библиотеки, то любое библиографическое описание (БО) документа в нём – это одна запись, состоящая из полей, равных количеству элементов БО. Совокупность записей образует БД, которая, как правило, хранится в одном файле. Совокупность БД, объединенных одной СУБД, образует банк данных.

Поскольку АИПС инструмент, используемый человеком при поиске (а не интеллектуальным автомат для поиска информации – готовых решений задач основной деятельности), эффективность её использования зависит от того, насколько хорошо человек знает природу операционных объектов и свойства инструмента, посредством которого он работает с этими объектами.

Информационный поиск подразумевает использование определённых стратегий, методов, механизмов и средств. Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы – технологиями и средствами, предоставляемыми системой.

Стратегия поиска – общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями – архитектурой БД, методами и средствами поиска в конкретной АИПС.

Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.

Метод поиска – совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса (ПОЗ), отбора документов (сопоставление поисковых образов запросов и документов), расширения и реформулирования запроса, локализации и оценки выдачи.

Поисковый образ запроса – записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска.

Методы поиска, т.е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области.

Рассматривая поиск как итеративный процесс, методы сокращения пространства перебора (просматриваемого подмножества) образуют по существу методологическую основу стратегии поиска и могут быть разделены на следующие классы – методы поиска в:

    одном пространстве (обычно, тематическом);

    иерархически упорядоченном пространстве;

    альтернативных пространствах;

    динамическом (изменяющемся в процессе поиска) пространстве.

Реализуемый метод построения ПОЗа должен обеспечивать эффективные способы построения запроса для достижения целей различного типа.

Механизмы поиска – совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.

Средства поиска , с одной стороны, – взаимозависимый комплекс информационно-поисковых языков (ИПЯ) и языков определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска), а с другой, – объекты пользовательского интерфейса, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИПС.

Поисковые технологии – унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой для устойчивого получения конечного и промежуточных результатов.

Навигация как реализация процесса поиска по запросу в выбранной БД – целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата.

Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса , позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом "дружественность" интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов.

Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.

Процесс поиска можно представить в виде следующих основных компонент:

    формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ;

    проведение поиска в одной или нескольких поисковых системах;

    обзор полученных результатов (ссылок);

    предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных;

    при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.

Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.

По используемым поисковым технологиям ИС можно разбить на 4 категории:

    Тематические каталоги;

    Специализированные каталоги (онлайновые справочники);

    Поисковые машины (полнотекстовый поиск);

    Средства метапоиска.

В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС "AltaVista" более 56 млн. URL-адресов.

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и "персональные программы поиска", позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).

Базы информационных данных могут содержать практически любые виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ. Для формирования запросов используются специальные информационно-поисковые языки.

ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их " релевантности ", то есть близости к введенному пользователем запросу. Критериев такой близости много и выявление близких "по смыслу" к запросу документов не решает проблемы получения информации при отсутствии релевантного документа. Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных.

ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т.п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.

Организация поиска

Предлагается процедуру поиска необходимой информации разделить на девять основных этапов:

    Определение области знаний;

    Выбор типа и источников данных;

    Сбор материалов необходимых для наполнения информационной модели;

    Отбор наиболее полезной информации;

    Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.);

    Выбор алгоритма поиска закономерностей;

    Поиск закономерностей, формальных правил и структурных связей в собранной информации;

    Творческая интерпретация полученных результатов;

    Интеграция извлеченных "знаний".

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др. При формировании запроса практически все системы позволяют использовать логические элементы "И", "ИЛИ", "НЕТ".

Технологии поиска информации

Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию "профессионализма" – информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал) " профессионализма ".

Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или организовав процесс так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются поисковый образ документа (ПОД) и ПОЗ, соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне. Адекватность образа действительному содержанию документа определяется качеством процесса свертки информации и уровнем знания субъектом средств отражения – концептуальной схемы предметной области и возможностей ИПЯ.

Поисковый образ документа – описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу.

Большинство ПС изначально предлагают пользователям либо БО, либо ссылки на полные или частичные документы, их описание и другое, хранящиеся в различных АИПС. Современные ПС позволяют определиться и указать какой и в каком виде источник информации интересует пользователя.

Методы обработки результатов поиска

По характеру преобразований (в контексте дальнейшего использования результатов обработки) методы обработки результатов поиска можно условно разделить на две группы:

    Структурно-форматные преобразования;

    Структурно-семантические преобразования (информационно-аналитические, логико-семантические).

Реализация поиска

Что обычно ищут в Интернете: персональные данные об индивидуумах и организациях; различные адресные данные; конкретные материалы (статьи, книги, фотографии, справочные данные, программное обеспечение и др.) в том числе место их хранения; где и сколько стоят те или иные материалы, услуги, продукты и т.п.; информационные сайты и порталы и др.

Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова "библиотечный" можно ввести его фрагмент "библиоте*". При этом будут найдены документы, в которых содержится не только слово "библиотечный", но и "библиотека", "библиотекарь", "бибилотековедение" и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

Оформление результатов

С точки зрения ИПС результат поиска в ней есть совокупность (подмножество) найденных документов или ссылок на них. Обычно он представляется пользователю в виде списка. То есть простейшей выходной формой в данном случае будет список ссылок в виде полных или частичных БО, найденных ИР. Такой список может быть тут же распечатан или послан на какой-либо адрес электронной почты, если такая возможность предоставляется ИПС и пользователь подключен к Интернету.

Графические и полнотекстовые ЭИР могут предлагаться пользователю только для просмотра, для копирования в различных форматах и масштабах, причём полностью или частично. Графические ИР обычно существуют в общепринятых форматах типа: JPG, GIFF, TIFF, BMP и др., а для текстовых материалов обычно используют текстовые форматы TXT, DOC и др., HTML и PDF – фактически графический формат, в котором могут сохраняться как текстовые, так и графические данные.

Полученные в результате поиска документы сохраняют.

Критерии оценки поиска

Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС принято формировать список полученных в результате поиска документов по их релевантности. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом.

Как уметь читать, писать или публично выступать, сегодня в условиях информационного общества умение грамотно осуществлять профессиональный поиск - непреложный навык специалиста-интеллектуала.
Быстрый рост и динамическое развитие информационных ресурсов (прежде всего представленных в сети Интернет) обязывает каждого иметь разнообразные навыки сложного поиска. Уметь быстро и правильно искать в Интернете значит экономить время, владеть достоверной и актуальной информацией, а значит делать верные выводы и принимать правильные решения.
Информационная эвристика призвана помочь специалисту достаточно быстро провести избирательный и эффективный поиск при решении конкретных интеллектуальных задач.

Проблема поиска и использования информации - одна из самых актуальных в современной науке. Разумеется, для эффективного и качественно поиска информации Интернет незаменим. Однако сам факт хранения в Интернете огромного пласта знаний человечества не является свидетельством высокой эффективности поиска и использования информации. Пусть даже информация выдается и в удобной форме, но осваивать ее в конечном итоге приходится человеку. И от того, насколько он владеет методами и методикой поиска, будет зависеть эффективность и качество его труда.
Следовательно, в основе использования информации лежит проблема поиска и преобразования ее в такие содержание и форму, которые создают возможность более удобного и оперативного освоения информации и ее эффективного использования в общественной деятельности.
В связи с этим цель данной работы - исследование особенностей развития и распространения информации, рассмотрение основных целей и методов информационного поиска, анализ правил построения стратегии поиска и формулирования поискового запроса.

Эвристика в общем понимании - это искусство и наука открытия и творческого поиска в сложной предметной области.
При этом эвристика имеет множество значений.
Так, эвристика - это система обучения, способствующая развитию у обучаемых находчивости, умения самостоятельно добывать знания, познавательной активности, потребности в знаниях.
Также эвристика - наука о закономерностях и методах открытия и изучения нового в творческой и познавательной деятельности человека; психология творчества.
Под эвристикой понимается методология разрешения проблем, использующая метод проб и ошибок, а также результаты эксперимента для нахождения прямого пути к решению.
Эвристика - это специальные методы решения задач (эвристические методы), которые обычно противопоставляются формальным методам решения, опирающимся на точные математические модели. Использование эвристических методов (эвристик) сокращает время решения задачи по сравнению с методом полного ненаправленного перебора возможных альтернатив; получаемые решения не являются, как правило, наилучшими, а относятся лишь к множеству допустимых решений.
Эвристика - совокупность присущих человеку механизмов, с помощью которых порождаются процедуры, направленные на решение творческой задач (например, механизмы установления ситуативных отношений в проблемной ситуации, отсечения неперспективных ветвей в дереве вариантов, формирования опровержений с. помощью контрпримеров и т.п.). Эти механизмы, в совокупности определяющие метатеорию решения творческих задач, универсальны по своему характеру и не зависят от конкретной решаемой проблемы.
Эвристика - наука, изучающая эвристическую деятельность; специальный раздел науки о мышлении. Ее основной объект - творческая деятельность; важнейшие проблемы - задачи, связанные с моделями принятия решений (в условиях нестандартных проблемных ситуаций), поиска нового для субъекта или общества, структурирования описаний внешнего мира (на основе классификаций типа периодической системы или систематики К.Линнея). Эвристика как наука развивается на стыке психологии, теории искусственного интеллекта, структурной лингвистики, теории информации.
Таким образом, центральное слово эвристики - это поиск (информации).
Несомненно, что разработка методов получения и использования разнообразной социальной информации традиционно составляет центральную проблему научной организации труда специалиста.
Для принятия решения в каждой конкретной ситуации специалисту необходимо получить возможно более полную и актуальную информацию, относящуюся к данному случаю.
Выбор источников информации, стратегий ее поиска, способов проверки достоверности и соответствия уже имеющимся сведениям, методы оценки полезности найденной информации для разрешения проблем - все эти факторы являются характеристиками информационного поведения человека.
Критериями информационной культуры человека можно считать его умение адекватно формулировать свою потребность в информации во всей совокупности информационных ресурсов, перерабатывать информацию и создавать качественно новую, вести индивидуальные информационно-поисковые системы, адекватно отбирать и оценивать информацию.
Интернет открыл доступ ко многим информационным ресурсам, получить которые другим способом в настоящее время невозможно для читателей российских библиотек. Объединяя локальные, национальные и глобальные сети, он стал громадным информационным ресурсом, наиболее динамичным из всех существующих в настоящее время.
Весьма важной чертой Интернета является то, что пользователь не просто получает доступ к информации, но и сам производит ее. К тому же поиск информации в новых условиях и в новой информационной среде предоставляется самому специалисту.
В связи с этим можно выделить два положительных момента:
- увеличивается вероятность выявления полезной по существу, но не соответствующей строго формально запросу информации. В отличие от посредника специалист не вынужден жестко придерживаться формулировки запроса. Он сам ведет диалог с поисковой системой, меняя тактику поиска в зависимости от полученных результатов;
- формируются основы научного мышления, навыки научно-исследовательской работы. Специалист учится ориентироваться в сетевом пространстве, отбирать из большого количества документов то, что действительно необходимо и, наконец, варьировать свой запрос в зависимости от анализа уже выявленных документов.
Тем не менее, пользователи часто не ощущают удовлетворения от результатов поиска в новой информационной среде. Обычно это происходит по следующим причинам:
- как правило, пользователи в качестве инструмента поиска используют либо поисковые машины (AltaVista, HotBot), либо каталоги ресурсов (Yahoo). Несмотря на ряд достоинств, вышеупомянутые поисковые системы не обеспечивают научный контроль качества (то есть процесс включения информации в БД этих поисковых систем не находится под контролем специалистов-предметников), что может привести к получению в результате поиска недостоверной информации;
- отсутствие знаний и навыков по составлению запроса к поисковой системе приводит к получению большого количества информационного шума;
- пользователь часто не осознает тот факт, что, несмотря на то, что информация существует в интернете, она находится вне поля зрения поисковых машин. Отсутствие элементарных знаний по проведению поиска приводит к снижению полноты получаемой информации.
Таким образом, можно утверждать, что в Интернете есть больше возможностей, нежели используется в настоящий момент. И, следовательно, проблема заключается не в недостаточности качественной информации в Интернете, а в неумении специалиста ее найти.
В рамках библиографоведения накоплен, теоретически и методически обобщен большой исторический опыт поиска и использования информационных источников. Именно в библиографоведении сформировалась и ныне целенаправленно развивается специальная научная дисциплина - библиографическая эвристика.
Библиографическая эвристика - одна из важнейших и активно развивающихся частей общей науки о библиографии, библиографоведении. В современных условиях ускорения и усложнения информационных процессов в обществе ей уделяется особое внимание.
Под библиографической эвристикой понимается библиографоведческая дисциплина, разрабатывающая историю, теорию и методику информационного поиска.
Категория «информация» при этом включает в себя и понятие «библиографическая информация», которая является одной из важнейших ее составляющих. Это объясняется той функциональной ролью, то есть той социальной задачей, которую решает общество посредством библиографической информации в процессе производства, распространения и использования социальной информации, знания.
Объективный характер существования и использования такой информации и предопределяет самые различные задачи ее поиска. В целом же все реальное многообразие таких задач можно свести к трем основным целям информационного поиска:
- поиск необходимых сведений об источнике и установление его наличия в системе других источников. Ведется путем разыскания библиографической информации и библиографических пособий (информационных изданий), специально создаваемых для более эффективного поиска и использования информации (литературы, книги);
- поиск самих информационных источников (документов и изданий), в которых есть или может содержаться нужная информация;
- поиск фактических сведений, содержащихся в литературе, книге, например, об исторических фактах и событиях, о технических характеристиках машин и процессов, о свойствах веществ и материалов, о биографических данных из жизни и деятельности писателя, ученого и т.п.
Эти цели определяют и три основных вида информационного поиска: библиографический, документальный и фактографический, которые тесно взаимосвязаны между собой.
Например, чтобы найти информационный источник (документ или издание), надо знать определенную совокупность библиографической информации (фактов), характеризующей его, отличающей его от многих других: хотя бы от написанных тем же автором, на одну и ту же тему, выпущенных тем же издательством, в одном и том же году и т.д. Следовательно, нужно сначала проделать библиографический поиск. И, наоборот, чтобы провести фактографический поиск в какой-либо отрасли знаний или практики требуется сначала найти те литературные источники (документы, издания), в которых могут быть интересующие нас факты. Поэтому сначала надо провести библиографический и документальный поиск.
Осуществлять поиск и использовать мощные потоки информации становится все труднее.
И для этого библиографическая эвристика имеет ряд методов поиска информации: сплошной, выборочный, интуитивный, типологический («рецептурный»), индуктивный, дедуктивный, метод библиографических ссылок, метод восхождения от абстрактного к конкретному.
Рассмотрим их вкратце.
Итак, сплошной метод. Это обследование сплошь и без пропусков все наличие имеющихся пособий и источников. Очевидно, что в современных условиях этот прием трудно реализуем даже для узкой темы. Поэтому часто он рассматривается только в качестве чисто теоретического.
Выборочный метод - более рациональный и реальный путь поиска информации, который сводится к подбору и изучению определенной совокупности источников.
Интуитивный метод. Под ним понимается умение найти нужный материал посредством библиографического чутья, продолжительного опыта.
Типологический, или рецептурный метода, когда использование задач информационного поиска позволяет для каждого конкретного информационного поиска намечать определенный путь и документальные средства (пособия, источники) решения, то есть дать своего рода модель, рецепт решения этой поисковой задачи. Так, оптимальной типовой моделью для разработки различных «рецептов» информационного поиска является библиографическое описание.
Индуктивный метод информационного поиска. Процесс познания с использованием индукции совершается от единичных суждений и фактов к общим правилам и обобщениям, в которых выражается общая закономерность.
Дедуктивный метод информационного поиска. Обратная картина сложится, если мы будем осуществлять поиск дедуктивным методом. Такая направленность мысли может иметь место при исследовании определенной области явлений, создании развернутой научной теории и т.п.
Метод информационного поиска по библиографическим ссылкам. Возможность его использования заключается и в самом характере литературы, состоящей из определенной взаимосвязи фактов, произведений, документов и изданий. Каждое новое литературное произведение - это в известной степени анализ, оценка и обобщение социальной информации, уже имеющейся в литературе. Специфической формой отражения указанной взаимосвязи, преемственности литературного развития и является библиографическая ссылка (сноска).
Изложенные методы позволяют найти необходимую информацию в традиционной информационной среде.
Однако в наше время не менее, а где-то и гораздо более, важны методы и методика поиска информации в новой информационной среде - Интернете.
Поиск информации может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации.
Рассмотрим основные методы поиска информации в Интернете, используемые по отдельности или в комбинации друг с другом.
Прежде всего, это использование поисковых машин. В настоящее время этот метод - один из основных и фактически единственный при проведении предварительного поиска. В результате поиска появится список ресурсов Интернета, который требуется детально рассмотреть.
Применение поисковых машин основано на использовании ключевых слов, передающихся поисковым серверам в качестве аргументов поиска.
В качестве методов рассматривается и непосредственный поиск с использование гипертекстовых ссылок. Так как все сайты в пространстве Всемирной паутины фактически связаны между собой, то поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.
На первый взгляд, этот полностью ручной метод поиска выглядит полным анахронизмом, в то же время этот способ Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое исследование уступает место более глубокому анализу.
При этом, использование каталогов, классифицированных и тематических списков и всевозможных справочников также относится к этому виду поиска.
Поиск с применением специальных средств - это полностью автоматизированный метод, весьма эффективный для проведения первичного поиска.
Сущность этого метода заключается в применении специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию.
То есть, можно говорить об автоматизированном варианте просмотра с помощью гипертекстовых ссылок (поисковые машины используют похожие методы).
Этот метод является особо эффективным в том случае, если использование поисковых машин не дает необходимых результатов в силу нестандартности запроса, либо других причин.
Еще один метод - анализ новых ресурсов, поиск по которым может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации либо для анализа тенденций развития объекта исследования в динамике.
Еще одна причина такого поиска заключается в том, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и это упущение обычно тем больше, чем менее популярна интересующая тема. Такое соображение является весьма существенным при проведении поиска в узкоспециальной предметной области.
Очевидно, что поиск информации в Интернете более рассматривается как процесс решения поисковой задачи, стоящей перед пользователем, а не как просто нахождение релевантной запросу информации.
Основными этапами методики поиска являются:
- формулировка и уточнение информационного запроса. На этом этапе идет целенаправленное ограничение и конкретизация общей цели поиска;
- планирование поисковой процедуры. Основная цель данного процесса - определение путей и способов рационального решения поисковой задачи. Этот этап включает в себя разработку поисковых стратегий, предусматривающих выполнение выявленных наборов требований;
- реализация поиска. Окончательное решение поисковой задачи.
Методика поиска информации включает несколько этапов.
Первым этапом является формулировка и уточнение информационного запроса. Этот этап традиционно играет ведущую роль. От того, насколько верно сформулирован запрос, будет зависеть последующий выбор информационных ресурсов. «Уточнение запроса» в библиотечной практике представляет собой ряд критериев или вопросов, необходимых для уточнения потребности пользователя в информации. В ходе интервью выясняется тип источника, в котором будет проводиться поиск, содержание темы, глубина ретроспективного поиска. На данном этапе целесообразно осуществить:
- формулирование запроса на естественном языке;
- определение типа информационной потребности;
- определение цели поиска информации;
- определение необходимых ограничений поиска;
- окончательную формулировку информационного запроса.
Цель 1-го шага - формирование представления об искомой информации. Для того чтобы получить это представление, обладателю информационной потребности необходимо как можно более точно выразить ее на естественном языке.
Даже достаточно грубое представление о типе информационной потребности позволяет уточнить обуславливаемые ею требования, которые следует учитывать при поиске. Традиционно различают два типа информационных потребностей: 1) когда наилучшей метаинформацией (информацией об информации) признается та, которая наиболее полно и точно описывает конкретную информационную потребность данного потребителя и позволяет получить точный ответ; 2) когда границы определены нечетко, а также с течением времени могут изменяться.
Процессы информационного поиска, с помощью которых удовлетворяются информационные потребности разных типов, в целом отличаются друг от друга, в связи с чем можно говорить о разных видах информационного поиска. Об информационном поиске, удовлетворяющем информационные потребности первого типа, говорят как о фактографическом. Об информационном поиске, удовлетворяющем потребности второго типа, - как о документальном. Однако часто, чтобы найти некоторые факты в интернете, необходимо сначала провести поиск документов (Web-страниц), содержащих эти факты. В этом случае можно говорить о документально-фактографическом поиске.
Следующий шаг - определение цели поиска информации, которое позволяет выявить степень требуемой полноты информации, что также оказывает влияние на выбор поисковых систем. Противоположными друг другу целями поиска информации традиционно являются:
- предварительное знакомство с проблемой;
- тщательное изучение проблемы.
Как правило, обычная цель поиска информации лежит где-то между этими двумя крайностями, то есть пользователю требуется некоторое количество информации, но абсолютная полнота сведений ему не нужна.
К числу основных ограничений традиционно относят: ограничения по видам изданий, языкам публикаций, по географическим и хронологическим рамкам поиска. Поэтому необходимо четко выяснить:
- информация из каких источников интересует пользователя (статьи, монографии, материалы конференций, другое);
- на каком языке;
- каковы географические рамки поиска;
- каковы хронологические рамки поиска.
Для окончательной формулировки информационного запроса необходимо провести всесторонний лексический анализ информации, подлежащей поиску. Необходимо получить из какого-либо источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником может стать как узкоспециальный справочник, так и энциклопедия общего профиля. На основе изученного материала необходимо сформулировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости на нескольких языках.
Основная цель этапа планирования поисковой процедуры - определение путей и способов рационального решения поисковой задачи. Он включает в себя разработку общей программы поиска. Параллельно осуществляется выбор и оценка качества поисковых систем, проводится поиск недостающей информации.
На этом этапе речь идет о следующих шагах:
- выбор и оценка качества поисковых систем;
- разработка общей программы поиска.
Отбор и оценку качества поисковых систем необходимо проводить с точки зрения их соответствия реальной информационной потребности и специфике запроса. Каждый пользователь имеет специфические требования, оказывающие влияние на выбор поисковой системы, ее содержания и возможностей. При выборе поисковой системы необходимо обращать внимание на следующие параметры: объем индекса поисковой системы, контроль качества содержащейся в ней информации, возможности языков запросов.
Разработка общей программы поиска заключается в определении объектов, методов и возможных направлений (маршрутов) поиска на основе выявленных ограничений поиска (тематических, хронологических, языковых, географических), а также степени полноты поиска.
Тактика и средства поиска могут существенно различаться в зависимости не только от тематики, но и от других параметров запроса. Здесь следует руководствоваться рядом общих методических рекомендаций.
Так, например, характер поиска всецело определяется содержанием поставленной пользователем поисковой задачи. И в этом отношении важно различать, что сначала поиск как бы привязан к теме и к цели детальной, всесторонней разработки ее плана, когда особенно необходим широкий охват источников информации.
Следовательно, сначала в большей мере идет поиск информационных ресурсов (то есть совокупностей документов). И лишь затем информационный поиск конкретизируется, ограничивается непосредственным содержанием решаемой поисковой задачи. На этом этапе преобладает уже поиск самих документов.
Разумеется, на протяжении всего процесса поиска следует сочетать различные виды и методы поиска в двух основных направлениях: c одной стороны, от общих классификационных поисковых систем к предметно-ориентированным указателям ресурсов, далее к конкретным документам и содержащимся в них фактам; c другой - от уникальных слов и фраз запроса к предметно-ориентированным указателям ресурсов и/или к конкретным документам.
Цель последнего этапа - окончательное решение поисковой задачи. Он также включает в себя создание инструментов, необходимых для ее решения.
На этом этапе необходимо выполнить следующие шаги:
- отбор совокупности информационных ресурсов по теме поиска;
- проведение поиска в информационных ресурсах;
- оценка полноты информации;
- расширение круга информационных ресурсов.
На этапе отбора совокупности информационных ресурсов по теме поиска проводится поиск в отобранной на этапе планирования совокупности поисковых систем. Поиск можно проводить как от частного к общему, так и от общего к частному. В результате формируется список информационных ресурсов, в которых может содержаться информация по вопросу.
Список информационных ресурсов намечается таким образом, чтобы ресурсы, дополняя друг друга, максимально охватывали информацию по данной теме в соответствии с заранее намеченными ограничениями поиска. Если их круг слишком узок, результаты поиска могут оказаться неудовлетворительными, а если слишком широк - возрастает трудоемкость поиска.
На этом этапе необходимо четко определить, что известно об искомой информации и что неизвестно, но необходимо выяснить. Например, может быть известно название интересующего информационного центра, но неизвестен его URL. Таким образом, необходимо сформировать список запросов для поиска недостающей информации. Этот список формируется на основе выявленных ключевых слов и имеющейся информации о ресурсах.
Поиск недостающих звеньев описания ресурса (метаданных) рекомендуется проводить с помощью поисковых и метапоисковых машин. Однако, если ничего не известно об искомых ресурсах, целесообразно обращаться к классификационным поисковым системам или же к специализированным словарным поисковым системам. В случае, если пользователь не является специалистом в данной области, ему следует обращаться к классификационным поисковым системам с научным контролем качества (информационным шлюзам).
При проведении поиска рекомендуется использовать следующие методы: метод догадки, метод поиска от общего к частному, метод поиска от частного к общему. Метод догадки заключается в том, что после можно попытаться написать название искомой организации или ее аббревиатуру. Метод поиска от общего к частному обычно используется при проведении поиска в классификационных поисковых системах. Поскольку поиск в них проводится только по предметным категориям и описаниям ресурсов, то целесообразно изначально максимально расширить запрос. Метод поиска от частного к общему обычно используется при проведении поиска в словарных поисковых системах.
В результате формируется список информационных ресурсов. Данный шаг позволяет создать персональную информационную систему, направленную на решение конкретной задачи поиска.
При проведении поиска документов необходимо иметь возможность как сузить, так и расширить запрос. Как правило, поиск действительно нужной пользователю информации представляет собой состоящую из ряда шагов деятельность, в процессе которой пользователь формулирует некоторые запросы, анализирует полученную выборку (результат выполнения запроса), на основании анализа уточняет свое понимание структуры базы данных и возможностей поискового аппарата информационной системы, свои информационные потребности и формулирует новый запрос (уточняет старый). И снова чередует шаги выборки и анализа, постепенно уточняя запрос и продвигаясь к цели.
Традиционно различают две базовые стратегии поиска: отраслевой поиск и предметный. Они отражают две противоположные тенденции во взаимоотношении между науками и отраслями знания: дифференциацию наук и их интеграцию. Стратегия отраслевого поиска осуществляется от общего к частному путем просмотра иерархических классификаторов, а предметного - от частного к общему путем выборки данных по значениям дескрипторов, ключевых слов (то есть данные рассматриваются с точки зрения их «предметных» свойств).
Выбор той или иной поисковой стратегии зависит от конкретной задачи поиска. Например, при прочих равных условиях поиск по ключевым словам тем предпочтительнее поиску по классификатору, чем более конкретный характер имеет запрос. Как и при поиске информационных ресурсов, при поиске документов необходимо учитывать возможности языков запросов, предлагаемые различными СУБД.
Выявив часть документов путем проведения поиска в первичном круге информационных ресурсов, целесообразно провести просмотр и оценку полноты полученной информации.
Далеко не всегда пользователю нужна вся информация по заявленной теме. Часто ему достаточно лишь нескольких авторитетных источников.
На этом этапе формируется список документов и проводится проверка на дублетность. Однако в том случае, если полнота полученной информации недостаточна, следует провести дополнительный поиск информационных ресурсов.
При проведении поиска информации в интернете, в котором полнота играет важную роль, необходимо помнить, что ни одна поисковая система не индексирует всего, что есть в интернете.
Расширить список информационных ресурсов можно следующими путями:
- провести поиск в зарубежных метапоисковых системах с целью выявления баз данных, посвященных конкретно тематике поиска;
- провести поиск по гипертекстовым ссылкам, двигаясь от уже найденных документов;
- провести поиск баз данных, опираясь на структуру URL уже найденных документов.
Использование исследованных методов позволяет пользователю самостоятельно проводить поиск информации в новой информационной среде. Она дает возможность не только улучшить качество получаемой в результате поиска информации, но и повысить ее полноту.
И в завершение работы хотелось еще бы обратить внимание на некоторые советы участников Кубка России по поиску в Интернете:
1. Постарайтесь понять смысл вопроса. Возможно, ответ вам уже известен. Чтобы найти правильный адрес страницы, ищите одновременно ключевые слова из вопроса и известный вам ответ.
2. Число документов, полученных в результате поиска, может быть огромно. Поэтому решающее значение для оптимального поиска информации имеет правильный набор ключевых слов.
3. Проверяйте орфографию в написании слова. Используйте синонимы, если список найденных страниц слишком мал.
4. Ищите больше, чем по одному слову. Максимально сужайте предмет поиска.
5. Используйте настройки поиска в поисковых системах, чтобы задать удобные параметры описания документов и структуру страницы с результатами поиска.

easyschool.ru/sosh/Sovremennye_metody_poiska_informacii.doc

Федеральное агентство по образованию

Смоленский государственный университет

Технологии поиска информации в сети Интернет.

Смоленск


Введение…………………………………………………………………………..

1.Классификация поисковых систем …………………………………………...

2.Приемы поиска………………………………………………………………....

2.1.Простой поиск………………………………………………………………..

2.2.Расширенный поиск………………………………………………………….

3.Тематический каталог Yahoo.…………………………………………………

4.Автоматический индекс Alta Vista……………………………………………

5.Поиск информации в конференциях (Usenet)………………………………..

6.Отечественные поисковые службы …………………………………………..

6.1.Rambler……………………………………………………………………….

7.Поиск файлов …………………………………………………………………..

8.Источники специализированной информации ………………………………

9.Поиск отдельных людей в сети Internet ……………………………………...

10.Метапоиск……………………………………………………………………..

11.Эффективный поиск информации…………………………………………...

Заключение……………………………………………………………………….

Литература………………………………………………………………………..

Введение

Любой, кто пытался когда-нибудь найти нужную информацию в Интернете, наверняка согласится с тем, что этот процесс похож на поиск иголки в стоге сена. Глобальная сеть Internet содержит огромный объем информации, который стремительно увеличивается с каждым днем. В силу этого часто оказывается, что задача нахождения необходимой информации в этом информационном океане является чрезвычайно сложной и нужно уметь эффективно использовать различные поисковые системы (программы поиска информации в сети). Необходимо учесть, что "поиск - это искусство".

1. Классификация поисковых систем

Существует много разных поисковых систем принадлежащих разным компаниям. Прежде всего, выделяют так называемые тематические каталоги (например, Yahoo) и автоматические индексы (например, AltaVista), хотя необходимо иметь ввиду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя "полюсами", то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Web-документах, а именно в этой базе данных.

Тематические каталоги и автоматические индексы различаются, прежде всего, по тому, как формируются и пополняются их базы данных: принимают ли в этом процессе участие люди, или все происходит совершенно автоматически.

Базы данных тематических каталогов составляются и систематически пополняются экспертами в соответствующих областях на основании новых Web-документов, обнаруженных в Internet специальными поисковыми программами. Тематический каталог представляет пользователю Internet некоторую древовидную структуру категорий (разделов и подразделов), на верхнем уровне которой собраны самые общие понятия, такие как Наука, Искусство, Бизнес и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и серверы вместе с кратким описанием их содержимого. По этому иерархическому каталогу можно путешествовать, начиная с более общих категорий (понятий) к более узким, специализированным.

Например, для нахождения информации о состоянии научных исследований по теории суперструн можно спуститься вниз по следующей "лестнице" понятий:

Science (Наука)

Physics (Физика)

Theoretical Physics (Теоретическая физика)

Theories (Теории)

String Theories (Теорииструн)


В результате будет получен список сайтов, среди которых наибольший интерес представляет сайт Superstrings. Щелкнув мышью на гиперссылке Superstrings, мы попадаем на home page сайта, с соответствующим заголовком, на котором можно найти on-line учебник по теории суперструн, различные ссылки для дальнейшего чтения, глоссарий по суперструнам и т.д.

Главным достоинством тематических каталогов является большая ценность получаемой пользователем информации, что обеспечивается присутствием "человеческого фактора" в процессе анализа и сортировки новых Web-страниц. С другой стороны, тематические каталоги имеют существенный недостаток, связанный опять же с человеческим фактором, ибо из-за ограниченных возможностей человека их базы данных охватывают лишь небольшую часть всего информационного Web-пространства (менее 1 %). Таким образом, несмотря на всю полезность тематических каталогов, использование лишь поисковых систем этого вида часто оказывается явно недостаточным.

Сводная таблица избранных предметных каталогов

List.Ru Апорт Яндекс Rambler Yahoo! About
Общая характеристика 19 разделов верхнего уровня 14 разделов верхнего уровня 10 основных разделов, 7 комбинированных, дополнительная классификация 56 разделов 14 основных разделов 36 разделов
Сортировка ресурсов внутри раздела Алфавит, оценка гидов, популярность (посещаемость), дата Алфавит, посещаемость, лига, оценка числа ссылок на данный ресурс, мнение пользователей Алфавит, дата добавления, индекс цитируемости по посещаемости по алфавиту по оплаченности ссылок
Булевские операторы Используется язык поисковой машины Апорт Используется язык поисковой машины Яndex Используется язык поисковой машины Rambler Нет Нет
Поиск по фразе " " " "
Префиксы +, - +, -
Итеративный поиск (в результатах) Есть поиск внутри категории После входа щелкните More…
замена части слова * * (не всегда корректно)

В отличие от тематических каталогов, базы данных для автоматических индексов создаются и пополняются полностью автоматически некоторыми специальными, внутренними поисковыми программами-роботами, которые в круглосуточном режиме просматривают Internet-узлы (сайты) в поисках вновь появившихся Web-документов. Из каждого такого документа робот извлекает все содержащиеся в нем новые ссылки и добавляет их в свою базу адресов, в результате чего у программы-робота возникает возможность просмотра еще некоторого количества новых для него Web-документов. В каждом новом Web-документе робот анализирует все входящие в него слова и в разделе базы данных, соответствующем каждому данному слову, запоминается адрес (URL) документа, где это слово встретилось. Таким образом, база данных, создаваемая автоматическим индексом, фактически хранит сведения о том, в каких Web-документах содержаться те или иные слова. В отличие от тематических каталогов, автоматические индексы охватывают до 25 % общего Web-пространства.

Автоматический индекс имеет отдельную поисковую систему для обеспечения интерфейса с пользователем. Эта система может, просматривая базу данных, по заданному набору ключевых слов находить и выдавать на экран пользовательского компьютера адреса и краткую информацию обо всех Web-страницах, которые содержат данный набор ключевых слов. Таким образом, автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе данных. Именно с последней составляющей и работает пользователь. В силу такой организации, автоматический индекс не делает какой-либо классификации или оценивания информации.

Интерфейс автоматических индексов позволяет пользователю задать некоторый набор ключевых слов, которые с его точки зрения, являются характерными для искомых им документов, и позволяют, таким образом, найти достаточно ограниченное число потенциально относящихся к делу Web-страниц. В качестве таковых слов могут быть использованы некоторые специфические термины и их комбинации, достаточно редкие фамилии и т. д.

Успех поиска нужной информации в значительной степени определяется именно удачным выбором ключевых слов, ибо в противном случае поисковая система может выдать многие тысячи и миллионы ссылок на не относящиеся к делу Web-документы.

Следует иметь ввиду, что начинающего пользователя подстерегает много разных неожиданностей, иногда доходящих до анекдотических ситуаций.

Если для автоматических индексов поиск по ключевым словам является единственным средством нахождения необходимой информации, то в тематических каталогах (например, в Yahoo!) это средство является альтернативным способом поиска наряду с путешествием по системе (дереву) вложенных друг в друга категорий.

Некоторой разновидностью поисковых служб являются рейтинговые службы. Они предоставляют клиенту готовый список некоторых ссылок, к которым обращались наиболее часто другие пользователи сети Internet. Когда речь идет о темах, имеющих общественный интерес, таких как новости, музыка и т. д., такие рекомендации, полученные статистическим методом, являются весьма удобными и полезными. Такие услуги, в частности, обеспечивает отечественная служба Rambler.

2. Приемы поиска

2.1. Простой поиск

Каждая поисковая система (ПС) предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинаций ключевых слов. Однако есть общие элементы одинаково справедливые для большинства поисковых систем. Обычно все ПС допускают поиск Web-документов по ключевым словам, которые являются характерными для искомого документа. Выбор таких слов часто является нетривиальной задачей.

Как правило, указание одного ключевого слова является недостаточным, и тогда возникает вопрос о том, как задавать их соответствующие комбинации. Пусть, например, мы хотим получить информацию о российском лауреате нобелевской премии 2000 г. Жоресе Алферове. Указание в поле поиска только фамилии

приведет к обнаружению огромного количества документов, большинство из которых никакого отношения к интересующему нас физику не имеет. Задавая же в поле поиска два ключевых слова

разделенных символом пробела, мы должны иметь ввиду, что разные поисковые системы реагируют на этот символ по-разному. Большинство ПС рассматривают пробел как знак логической операции "или" (OR) (к ним относятся Yahoo, AltaVista и т. д.). Поэтому поиск по комбинации слов Zhorez Alferov не сократит, а, наоборот, увеличит количество документов, найденных поисковой системой: будут найдены все документы, где встречается или слово Zhorez, или слово Alferov, или оба эти слова вместе.

В таких случаях для более адекватного поиска можно использовать заключение ключевых слов в кавычки, которые определяют точную комбинацию заключенных в них символов:

"Zhorez Alferov".

Однако, при этом не будут найдены документы, в которые входит комбинация этих слов в другом порядке (Alferov Zhorez), ибо всё заключенное в кавычки является единым словосочетанием, и поисковая система ищет в документах абсолютно точное совпадение всех символов этого словосочетания.

Для того, чтобы найти только те Web-страницы, на которых одновременно присутствуют все наши ключевые слова, перед каждым из них нужно поставить знак плюс. Например,

Zhorez +Alferov

приведет к нахождению Web-документов, где обязательно присутствует и слово Zhorez, и слово Alferov, причем не только в любом порядке, но и на любом расстоянии друг от друга (в последнем случае в найденном документе между этими словами может не быть никакой логической связи).

Знак минус перед словом исключает все документы, которые его содержат, что в ряде случаев может быть очень полезно. Например, если нам нужно найти разные работы по геометрической, но не волновой оптике, то можно задать такую комбинацию ключевых слов

Свет+оптика-волна

Необходимо иметь ввиду, что многие слова могут иметь одинаковую основу, но разные окончания (например, указание множественного числа в английском языке, падежного окончания в русском и т. д.). В связи с этим многие поисковые системы, получив запрос в виде последовательности ключевых слов, производят его нормализацию: отбрасывают из этого запроса все слова, состоящие менее чем из четырех символов (например, английский предлог of), а также отбрасывают различные окончания и суффиксы.

Например, чтобы не пропустить документ, в который входит фраза "В геометрической оптике световой луч...", поисковая система может приведенный выше запрос свести (нормализовать) к виду

Свет+оптик*-волн* (1)

Здесь символом звездочка (*) обозначены любые комбинации символов после корня соответствующих слов.

Поскольку не все ПС проводят такую первоначальную обработку запроса клиента, целесообразно самим задавать запрос в форме (1), то есть использовать символ "звездочка" для указания возможных вариаций окончаний ключевых слов.

Необходимо иметь в виду некоторое различие при использовании больших (прописных) и малых (строчных) букв в ключевых словах. Обычно поиск по маленьким буквам учитывает совпадения и когда в тексте стоит большая буква, и когда маленькая. Написание же ключевых слов большими буквами означает поиск документов, содержащих слово именно в таком виде.

Очень полезным может быть поиск ключевых слов только в заголовках Web-страниц, поскольку важность заголовка документа обычно больше важности его текста. В разных ПС поиск ключевых слов лишь в заголовках Web-страниц, задается с помощью разных служебных слов: в AltaVista это слово title:, в Yahoo! - t: в Rambler - $ title:, и т. д.

2.2. Расширенный поиск

Приемы простого поиска не всегда позволяют с достаточной эффективностью найти требуемые нам Web-документы, в связи с чем поисковые системы предоставляют клиенту возможность использовать средства так называемого расширенного (advanced) поиска. Запросы для расширенного поиска строятся из ключевых слов, связанных знаками логических операций, и имеют вид аналогичный булевским выражениям, используемым в языках программирования.

При этом кроме стандартных логических операций OR ("или"), AND ("и") и NOT (отрицание) используется, (и является очень эффективной!) операция NEAR, определяющая степень близости друг к другу ключевых слов в Web-документе.

При выполнении сложных запросов важно понимать, в каком порядке выполняются приведенные выше операции, то есть каков их приоритет. В последовательности OR, AND, NOT, NEAR приоритет операций возрастает слева направо. Порядок выполнения отдельных элементов сложного запроса можно изменить с помощью круглых скобок, как это принято при записи булевских выражений в программировании.

В отличие от средств простого поиска, средства расширенного поиска го-раздо более стандартизованы для разных поисковых систем. Большим преимуществом расширенного поиска является также гибкость предлагаемых клиенту возможностей построения запроса, а существенным недостатком - значительно более медленная его работа по сравнению с простым поиском.

OR (операция "или") выполняет ту же самую функцию, что и знак пробела в запросах простого поиска в большинстве ПС. Например, запрос

приводит к поиску документов, в которых есть или слово bush, или слово modes, или оба эти слова одновременно.

AND (операция "и")приводит к нахождению документов, в которых обязательно встречаются оба связанных этой операцией слова, но при этом они могут находиться на любом расстоянии друг от друга. В результате может оказаться, что в документе нет какой-либо логической связи между двумя заданными ключевыми словами. Например, в ответ на запрос

поисковая система AltaVista выдает ссылки не только на соответствующие научные работы по нелинейной динамике, но и на отдельные главы известного фантастического романа Г. Уэльса "Борьба миров", которые, разумеется, не имеют никакого отношения к предмету поиска.

NOT - операция отрицания, позволяющая исключить те Web-документы, которые содержат ненужное словосочетание (таким образом, эта операция в сложном поиске играет ту же самую роль, что и знак "минус" в простом поиске).

NEAR (логическая операция, указывающая степень близости друг к другу ключевых слов) является одной из самых удобных команд расширенного поиска. В разных поисковых системах понятие близости слов разное. Например, AltaVista считает близкими слова, которые разделены не более чем десятью другими словами. Некоторые другие ПС допускают при записи операции NEAR указание степени близости в явном виде, то есть позволяют определить максимально допустимое число посторонних слов, которые могут стоять между двумя ключевыми словами, связанными этой операцией.

Запрос вида


приведет к поиску документов, в которых два указанных ключевых слова стоят достаточно близко друг к другу, и стало быть, скорее всего связаны по смыслу. Например, в тексте Web-страницы может быть фраза: "Bushes of normal modes..".

Жорес NEAR Алферов

приведет к поиску документов, в которых есть словосочетания Жорес Иванович Алферов, Алферов Жорес Иванович и т. д. Заметим, что при использовании операции NEAR порядок следования ключевых слов в документе указать невозможно, что, впрочем, является скорее не недостатком, а преимуществом, и это хорошо видно из только что приведенного запроса.

Как уже было сказано, с помощью вышеописанных логических операций можно задавать запрос на поиск в виде сложного логического выражения.

Несмотря на существование некоторых общих принципов организации поиска Web-документов, различные ПС могут весьма сильно отличаться друг от друга по предоставляемым клиенту возможностям, по внешнему виду своих заглавных страниц и т. д., в силу чего знакомиться с ними желательно при непосредственной работе в сети Internet.

В качестве примера ниже приведено очень краткое, схематическое описание двух наиболее популярных в настоящее время ПС Yahoo (тематический каталог) и AltaVista (автоматический индекс).

3. Тематический каталог Yahoo

Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Вызов поисковой системы Yahoo можно осуществить с помощью адреса http://www.yahoo.com.

Заметим, что броузеры обычно допускают возможность не полного набора адреса. Например, в для вызова Yahoo можно набрать в поле адреса только слово Yahoo, а остальная часть адреса дописывается броузером автоматически.

Заглавная страница Yahoo предоставляет клиенту возможность обращаться к двум основным методам работы с этой поисковой системой - к поиску Web-документов по ключевым словам, поле набора которых находится слева от кнопки "Search" ("Поиск"), и к поиску с помощью иерархического дерева различных разделов (категорий), расположенного ниже.

Заметим, что и в том, и в другом случае поиск ссылки на нужный Web-документ происходит в одной и той же базе данных, но разными способами.

Открыв интересующий раздел тематического каталога щелчком мыши по его названию, увидим новую страницу Yahoo, которая имеет точно такую же структуру, как и заглавная страница: она содержит поле поиска по ключевым словам и список подразделов выбранного нами раздела, и т. д.

На заглавной странице Yahoo можно увидеть также рекламные объявления, различные дополнительные категории, например, новости, которые содержат, в частности, информацию о погоде и т. д.

Если общее число найденных Yahoo ссылок достаточно велико, то список этих ссылок разбивается на порции. По умолчанию такая порция содержит 20 ссылок, но это число можно изменить, если обратиться к странице опций поиска, кнопка запуска которой находится рядом с кнопкой поиска "Search". Там же можно переопределить роль пробела между ключевыми словами (считать ли его логической операцией OR или логической операцией AND), и т. д.

На странице выбора опций есть также переключатель, который позволяет включить или выключить режим поиска целых слов. В режиме Substrings Yahoo найдет все ссылки, в которых указанное нами слово стоит не только само по себе, но и является частью других слов, например, поиск слова "art" (искусство) сработает и на слове "department" (отдел, кафедра и т. д.). По умолчанию установлен режим Substrings, для того чтобы пользователь не был вынужден вводить каждое существительное в единственном и во множественном числе (т. е., с окончанием "-s"), и т. д. Напротив, в режиме Complete Words находятся заказанные нами ключевые слова только в том случае, если они ограничены с обеих сторон пробелами или знаками препинания.

Поисковая система Yahoo ищет ссылки на документы, соответствующие запросу, в нескольких различных базах данных, прежде всего это названия категорий и заголовки Web-сайтов. Если необходимые ссылки таким образом не были найдены, Yahoo автоматически организует поиск в базе данных индивидуальных Web-страниц. Клиент может заказать поиск в одной из этих баз данных щелчком мыши на кнопках, которые расположены ниже поля ввода ключевых слов. Результаты поиска ПС Yahoo упорядочивает в соответствии с несколькими критериями, которые определяют рейтинг данной ссылки. Более высокий рейтинг присваивается документам, в которых ключевые слова встречаются большее число раз, в которых они входят в заголовок или если ссылка соответствует более старшему разделу в иерархическом дереве категорий.

В конце страницы с результатами поиска Yahoo предлагает воспользоваться услугами нескольких других поисковых систем, если клиент не удовлетворен результатами этого поиска. Такие ссылки удобны тем, что система Yahoo, при обращении к ним, сама впишет наши ключевые слова в бланк запроса вызванной таким образом другой поисковой системы. Заметим в заключение, что Yahoo предоставляет около млн. ссылок на Web-страницы и это чуть более 0,1 % всего Web-пространства.

4. Автоматический индекс Alta Vista

Вызов этой поисковой системы можно осуществить по адресу: http://altavista.digital.com (для многих броузеров достаточно при этом набрать только слово altavista).

Alta Vista имеет одну из самых больших баз данных в классе автоматических индексов, и самые мощные и гибкие правила построения запросов. При этом Alta Vista имеет как систему простого поиска (simple search), так и систему расширенного поиска (advanced search), кнопка которой находится ниже поля ввода ключевых слов.

Предусмотрена возможность поиска информации и с помощью каталога категорий, устроенном аналогично каталогу системы Yahoo, причем, поиск по ключевым словам можно осуществить лишь в рамках определенной категории.

Поиск Web-документов по ключевым словам можно осуществлять в базе данных для WWW-страниц или в базе данных телеконференций (Usenet). Для выбора одной из этих баз данных - содержимого WWW или Usenet - служит выпадающий список, который можно вызвать с помощью кнопки, находящейся под панелью заголовка этой системы, на ее заглавной странице.

При использовании простого поиска системы Alta Vista необходимо учитывать его отличия от соответствующего средства ПС Yahoo. Действительно, по умолчанию Alta Vista, в отличие от Yahoo, ищет вхождения целых слов: заказанный термин должен стоять в Web-документе обособленно, а не быть частью других цепочек символов. Если же необходимо найти все вхождения данного ключевого слова, даже когда оно является частью других слов, необходимо использовать символ * (этот символ может стоять только в конце ключевого слова и заменять не более пяти букв). Например, запрос вида Ада* приведет к нахождению документов, в которых есть слова “Ада”, ”Адам”, ”Адажио” и т. д.

Поисковая система Alta Vista, как и большинство других поисковых систем, предлагает клиенту и ряд дополнительных возможностей, в частности, позволяет находить лишь те Web-документы, в которых заданные ключевые слова встречаются только в гипертекстовых ссылках, заголовках документов, в их URL-адресах (что дает возможность находить все Web-страницы, расположенные на сервере с данным адресом) и т. д. Для этого в Alta Vista используются специальные команды: Anchor, title и т. д. Такие возможности можно использовать как порознь, так и вместе друг с другом.

Бланк для расширенного поиска (advanced search) отличается от бланка простого запроса наличием двух полей. Второе из них - Results Ranking Criteria - полностью аналогично полю ввода бланка простого поиска, и в нем можно использовать те же специальные выражения, кавычки и знаки +, -, *. Однако здесь это поле играет лишь вспомогательную роль, определяя порядок сортировки полученных результатов: документы, содержащие ключевые слова из поля Ranking будут стоять в списке первыми.

Ключевые же слова для собственно поиска должны вводиться в первом из полей - Selection Criteria. Запросы в этом поле строятся по описанным нами ранее правилам с использованием операций NEAR, NOT, AND, OR. Кроме того, внизу бланка поиска находится поле для ввода дат, позволяющих задать промежуток времени, в который были созданы или изменены интересующие нас документы.

Об особенностях поиска в Alta Vista документов на русском языке заметим, что искать документы по русским ключевым словам в каталоге Yahoo смысла не имеет, поскольку сотрудники этой службы на русском языке не говорят.

5. Поиск информации в конференциях (Usenet)

WWW-страницы являются самым масштабным и ценным, но не единствен-ным источником информации в Internet. Большой интерес представляет система телеконференций Usenet, в которой каждый день публикуется более 100 тысяч сообщений со всего мира.

Если клиент интересуется какой-либо определенной темой, он может просто подписаться на соответствующую группу телеконференций. Однако если он хочет не обсуждать свою проблему с живыми людьми, а просто выяснить, что известно по тому или иному вопросу, можно воспользоваться системами автоматического поиска в содержимом Usenet. Alta Vista ведет отдельный индекс по более чем 10 тысячам телеконференций, для поиска в котором нужно лишь перебросить переключатель поиска из значения "the Web" в значение "Usenet" (все правила составления запроса и установки опций в обоих этих случаях одинаковы). Результаты поиска представляют собой отсортированный список заголовков статей, полный текст любой из которых можно получить щелчком мыши по ее заголовку.

Во всем мире считается самым лучшим сервисом для поиска информации в конференциях Usenet сервер DejaNews (http://www.dejanews.com). Среди русскоязычных выделяется сервер RusNews (http://news.corvis.ru), являющийся также новостным сервером, содержащим более 2000 новостных групп. Также имеет место аналогичный российский сервер ТЕЛА-поиск (http://tela.dux.ru/news.html).

Совершенно уникальным источником информации являются документы с ответами на часто задаваемые вопросы (Frequently Asked Questions, FAQs). Такой жанр вопросов и ответов прекрасным образом вводит совершенно неподготовленного читателя в самую суть дела. Если первоначально списки ответов на вопросы существовали только для групп телеконференций, то сейчас документы с заголовком "FAQ" используются для клиентов самых разнообразных серверов и служб. В этом жанре пишутся статьи и обзоры, а фирмы и организации пропагандируют свои цели и устремления. Если клиенту нужно в сжатые сроки ознакомиться с новой областью науки, техники, культуры или политики, советуется начать с чтения раздела "FAQ" соответствующей телеконференции Usenet. И хотя таким образом нельзя приобрести слишком фундаментальные знания, зато можно быстро освоиться с терминологией, узнать о самых животрепещущих проблемах и нередко получить почти исчерпывающий список литературы.

6. Отечественные поисковые службы

Российский сектор Internet в настоящее время бурно развивается, и хотя отечественные поисковые системы еще отстают от соответствующих зарубежных систем по объему своих каталогов и индексов, по некоторым показателям (прежде всего, по применению новых технологий при обработке результатов поиска) они не уступают своим заграничным аналогам, а в ряде случаев и превосходят их.

Укажем, прежде всего, на автоматический индекс Aport 2000 и тематический каталог @Rus (Атрус), расположенных по адресам: http://www.aport.ru/ и http://www.atrus.ru/, соответственно. Эти две системы находятся в партнерских отношениях. Действительно, когда в результате проведенного поиска Aport 2000 выводит адрес некоторой Web-страницы, она может сопровождаться кратким описанием соответствующего Web-узла, взятым из каталога @Rus. С другой стороны, при наполнении каталога Атрус активно используются средства поисковой системы Aport. С точки зрения клиента, однако, эти поисковые системы являются все-таки независимыми средствами получения информации. Отметим некоторые их достоинства. Aport 2000 использует наиболее эффективную в настоящее время систему рейтингования по количеству ссылок, ведущих к данному ресурсу(по индексу цитирования). Поисковая система Атрус предоставляет клиенту удобный каталог-портал "Мой @Rus", который пользователь может настроить на быстрое получение наиболее нужной ему информации. Средства настройки этого каталога позволяют также отключить все лишнее на основной странице поисковой систе-мы, что делает работу с ним особенно быстрой и удобной.

6.1. Rambler ( http://www.rambler.ru )

Поисковая система Rambler обладает одним из крупнейших индексов в Рос-сии, но основную популярность она приобрела в первую очередь как рейтинговая система. Она позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему, и оценить их популярность по количеству посещений разными клиентами Internet за последние сутки. Хотя число посещений данного Web-узла далеко не всегда свидетельствует об истинной ценности имеющейся на нем информации, в случае тем, представляющих общественный интерес, такому рейтингу популярности можно доверять.

По умолчанию находятся только те документы, в которых встретились все заданные нами ключевые слова, то есть пробел между словами воспринимается как логическая операция AND. Однако это значение пробела можно переопределить таким образом, чтобы он соответствовал логической операции OR (как это имеет место по умолчанию в Yahoo или Alta Vista). Для этого в бланке расширенного поиска нужно выбрать опцию “Слова запроса: любое”.

Чтобы исключить документы, содержащие те или иные слова, последние нужно указать на соответствующем поле бланка расширенного поиска.

6.2. Яндекс ( http :// www . yandex . ru )

Поисковая система Яndex выделяется своими мощными средствами расши-ренного поиска, а также целым рядом технологических достижений, например, наличием интеллектуального механизма морфологического разбора слов, что особенно важно для русского языка. Независимо от того, в какой форме написали ключевое слово в запросе, Яndex будет учитывать все его формы. Например, если ключевым является слово идти, находятся ссылки на Web-документы, содержащие слова идти, идет, и даже шёл. Однако существует возможность поиска и по точной словоформе, для чего перед этой словоформой надо поставить восклицательный знак “!”.

Несколько набранных в запросе слов, разделенных пробелами, означает, что все они должны входить в одно предложение искомого документа (то есть пробел работает как знак логической операции AND).

Следует иметь ввиду, что в ПС Яndex операцию AND можно указать и в явной форме с помощью символа “&” (но не с помощью слова AND !). Удвоение же этого знака, т. е. использование символа “&&”, приводит к распространению действия операции AND на весь документ (т. е. связанные с помощью && слова должны обязательно присутствовать в пределах всего документа). Символом же операции OR в рассматриваемой поисковой системе служит знак “|” (но не само слово OR).

В ПС Яndex можно регулировать расстояние, на котором находятся друг от друга заданные ключевые слова в Web-документе. Например, запрос

физическое/(-2 4) образование

означает, что слово физическое может находиться как слева от слова образование (на расстоянии максимум двух слов от него), так и справа (на расстоянии максимум четырех слов от него).

Создавшая ПС Яndex компания CompTek бесплатно предоставляет для корпоративных клиентов (организаций) облегченную версию программы Яndex.Site, которая выполняет индексацию содержимого Web-узла. Это удобно владельцам тех Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах своего собственного узла.

Поисковая система Яndex имеет очень хорошее описание в разделе “Помощь”, который настоятельно рекомендуется посмотреть перед использованием этой системы.

7. Поиск файлов

Среди специальных систем поиска файлов в Интернете существуют аналоги уже рассмотренных ранее тематических каталогов (типа Yahoo) и автоматических индексов (типа Alta Vista). Разумеется, эти поисковые системы предоставляют клиенту не сами файлы, а лишь списки ссылок на них.

Одной из самых популярных поисковых служб типа тематических каталогов для поиска файлов является shareware.com по адресу http://www.shareware.com. Эта система классифицирует файлы только по одному признаку: для какой операционной системы они предназначены, но она хранит описания всех файлов, составленные людьми. Заглавная страница shareware.com устроена аналогично страницам уже рассмотренных нами поисковых систем. Она предлагает клиенту различные виды поиска, причем, ключевые слова могут содержать символ *, соответствующий последовательности любых символов. Поиск производится как в именах, так и в описаниях файлов. Можно указать нижний временной порог поиска, чтобы получить ссылки на файлы, созданные не раньше заданной даты, и выбрать способ сортировки результатов-по дате или по алфавитному порядку имен файлов. Щелкнув на имени файла в списке результатов, получим ряд ссылок на узлы Internet, на которых хранятся копии этого файла с указанием надежности работы этих серверов и времени, необходимого для скачивания файла в зависимости от пропускной способности нашего канала.

В отличие от каталога shareware.com, поисковая система Archie является автоматическим индексом аналогичным Alta Vista. Список анонимных узлов для Archie приходится вести людям (его можно найти по адресу http://hoohoo.ncsa.uiuc.edu/ftp/). Поиск в базе данных сервера Archie производится с помощью ключевых слов, которые в данном случае представляют собой просто имена файлов или фрагменты имен.

Время ожидания связи с популярными FTP-узлами (такими, например, как богатое собрание программ для Windows (ftp://ftp.winsite.com)) может оказаться весьма большим, в силу чего в Интернете обычно имеются их точные копии или "зеркальные отражения" (mirrors), а поисковые системы выдают адреса всех этих зеркал.

Каталог, содержащий общедоступные файлы, почти всегда называется pub. В большинстве архивов в каждом каталоге имеется специальный файл с краткими-обычно не длиннее одной строки-описанием каждого файла этого каталога. Такой файл может называться 0index, 00index и т. п. (нолики приписываются к имени файла, чтобы он всегда попадал на первое место в отсортированном по алфавиту списке файлов).

8. Источники специализированной информации

Существуют информационные компании, обеспечивающие ин­формационное электронное обслуживание. Например, Knight-Ridder (KR) - это крупнейшая в мире информационная компания, предоставляющая доступ к своим службам в интерактивном режиме. Здесь объединились такие всемирно известные службы, как DialogInformationService из США и DataStar из Европы. Используя Ин­тернет в качестве среды для распространения своих услуг, KR суме­ла автоматизировать ключевые моменты своей деятельности, улуч­шить обслуживание клиентов и, самое главное, расширить рынок своих услуг. Все это в конечном счете привело к тому, что KR стала мировым лидером в области доставки электронных документов и информационного сервиса.

Имеет собственную систему информационного поиска в Интер­нете фирма IBM - InfoMarket. В ней сочетаются средства получения информации и управления платежами с правами доступа.

Однако на начальной стадии освоения пространства Интернета не обойтись без самостоятельного поиска информации. Здесь весь­ма полезными могут оказаться адреса Web-узлов, хорошо зареко­мендовавшие себя источники деловой информации:

www.kentis.com- это сервер компании KentInformationSystem, сотрудники которой помогают профессионалам в области бухгалте­рии и финансов использовать компьютерные технологии, особенно Интернет;

http://www.promotion.aha.ru- on-line журнал по маркетингу в сети Интернет;

http://www.inter.net.ru- журнал «Интернет», регулярно публи­кующий материал по маркетингу и рекламе в сети Интернет;

http://clickz.com- журнал, полностью посвященный вопросам Интернет-маркетинга.

9. Поиск отдельных людей в сети Internet

Наиболее просто найти информацию о человеке, если у него имеется в сети Internet своя личная страница (personal home pages), на которой обычно имеется его фотография, e-mail и почтовый адрес, телефон и т. д. Нередко такая страница содержит краткую биографию автора, его хобби и т. д. Одна из крупнейших систем для поиска личных страниц называется Who’sWho и расположена по адресу http://web.city.ac.uk/citylive/pages.html.

Существуют также обширные каталоги электронных адресов различных людей, которые пользуются электронной почтой (e-mail). Лидерство здесь, по-видимому, принадлежит каталогу Four11 по адресу http://www.four11.com.

Отметим также каталог WhoWhere (http://www.whowhere.com), который производит поиск даже по схожести звучания или написания фамилий (например, “Kirsanov”, “Kirsanoff” и т. д.).

Отечественный каталог электронных адресов располагается по адресу http://www.botik.ru/~intermap/form.html.

Совершенно уникальным является всеамериканский адресный справочник по адресу http://www.databaseamerica.com, который выдает координаты любого из 90 млн. жителей США и любой из 10 млн. американских компаний.

10. Метапоиск

Базы данных разных поисковых систем в значительной мере не пересекаются. Поэтому для поиска достаточно редкой информации целесообразно обращаться не к одной, а к нескольким ПС. Однако правила оформления запросов для разных ПС, вообще говоря, отличаются друг от друга. Для того, чтобы не обращаться поочередно к разным поисковым системам и не думать о специфических правилах оформления запроса для каждой из них, были созданы так называемые метапоисковые системы.

Приняв заказ клиента, заданный с помощью ключевых слов в соответствие со своими собственными правилами его оформления, метапоисковая система сама пропишет его в бланках разных поисковых систем, разошлет эти бланки и будет ждать ответа. Когда все поисковые системы пришлют результаты поиска, метапоисковая программа сведет их в один документ и отправит пользователю. К таким метапоисковым системам относится MetaCrawler расположенный по адресу (http://metacrawler.cs.washington.edu:8080), который рассылает запрос на 9 различ-ных поисковых систем (в их число входит: Yahoo, Alta Vista, Lycos, Excite и т. д.). На случай разной интерпретации одних и тех же по смыслу опций в разных поисковых системах MetaCrawler предусматривает даже возможность проверки результатов поиска: прежде чем дать ссылку пользователю, он самостоятельно посмотрит на документ и проверит, соответствует ли он условиям запроса - так как их понимает MetaCrawler. Разумеется, этот режим проверки сильно задерживает получение результатов, но зато позволяет защититься как от неработоспособных ссылок, так и от бессмысленных результатов. Заметим, что на бланке запроса MetaCrawler можно задать время ожидания: в список будут включены только те результаты, которые успеют прийти с различных поисковых систем к этому моменту.

11. Эффективный поиск информации

После подробного изучения основных возможностей инструментов обратимся к проблеме эффективности поиска. Основными параметрами эффективности поиска являются:

Полнота поиска как отношение числа найденных документов к общему числу релевантных документов;

Точность поиска – отношение числа релевантных документов к общему числу полученных документов;

Актуальность ссылок на документы - существование найденных документов в сети в настоящий момент;

Скорость поиска.

В Internet существуют различные инструменты поиска, обладающие разными функциональными возможностями. Качество поиска, таким образом, зависит в первую очередь от параметров конкретной поисковой системы, например, от размеров индекса, от способа поиска (уточнение тем или поиск по запросу) и т.д. Далее, работая с конкретной поисковой системой, нужно иметь представление о методах составления запросов, знать необходимые операторы.

Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

Свойства и возможности поисковой системы;

Качество формулировки запроса пользователем.

Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, необходимо провести всесторонний лексический анализ информации, которую необходимо найти. Затем желательно составить набор ключевых слов (при необходимости, на нескольких языках) в виде отдельных терминов и словосочетаний, специфичных для вашей предметной области.

Действия:

Выбор поискового инструмента;

Точная формулировка запросов с использованием операторов, поддерживаемых данным поисковым инструментом;

Отправка тестовых запросов;

Анализ результатов поиска (по количеству и релевантности ссылок);

При необходимости, корректировка запроса;

Повторный поиск;

Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

Поиск информации общего характера в поисковых системах-каталогах. - Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска явно недостаточно использовать только системы-каталоги с ограниченным числом описанных ресурсов. Кроме того, узкоспециальная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск подобной информации в поисковых машинах, обладающих индексами большого объема.

Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной поисковой машины. Эффективным и простым способом решения проблемы составления качественного запроса является использование режима расширенного поиска.

Использование функции поиска среди найденных ресурсов. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов.

Использование метапоисковых систем. Данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько самых релевантных ссылок.

Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей.

Подписка на специализированные списки рассылки и т.д.

Заключение

В заключение, можно сказать, что единой оптимальной технологии поиска в Интернет не существует. В зависимости от специфики необходимой информации, для ее поиска должны использоваться соответствующие поисковые службы. Необходимо помнить, что чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.

Литература

1. Информатика и информационные технологии / Под ред. Романовой Ю.Д. М.: Эксмо, 2008

2. Степанов А.Н. Информатика. СПб.: Питер, 2002

3. Майечак Б. Поиск информации в сети // Интернет для детей от 8 до 88. М.: Интерэксперт, 2002

4. Чечин Г. М., Положенцев Е. В., Нижникова С. В. Поиск информации в сети Internet. Ростов-на-Дону: РГУ, 2001 г.

5. Диканский Е.Ю. Осваиваем Internet: Практический курс по информационным и коммуникационным технологиям для начинающих пользователей. М.: Илекса, 2001

6. http://www.dist-cons.ru/modules/searchinf/index.html

7. http://www.seonews.ru/masterclasses/detail/29812.php

8. http://www.gdenet.ru/bibl/technology/transmission/5.1.html

Сеть Интернет растет гигантскими темпами и найти информацию, необходимую конкретному пользователю, не очень просто. Но возможно, поскольку в сети есть ресурсы, которые помогут не утонуть в океане информации и новичку, и профессионалу.

Появление всемирной паутины World Wide Web стало количественным и качественным скачком в области информационных технологий. Число новых ресурсов и объем информации, которую они содержат, растет лавинообразно, увеличивается количество иголочек в информационном "стоге сена" и, соответственно, размер его самого. Для поиска информации в сети имеются следующие виды ресурсов:

  • - информационные порталы;
  • - каталоги интернет-ресурсов;
  • - поисковые системы.

Сама сеть Интернет постепенно превратилась в Средство Массовой Информации с огромной аудиторией пользователей во всем мире и невероятным объемом информации. Она стала глобальным средством информации, опутавшим каналами связи весь земной шар, но не поглотила привычные нам СМИ, они органически влились в сеть на правах самостоятельных информационных ресурсов. Практически каждая газета, радиостанция или телеканал в любой стране мира имеет свое представительство в сети Интернет.

Электронная версия газеты может и, как правило, сильно отличается от бумажной, значительно превышая ее по объему - формат данных, публикуемых на интернет-сайтах более гибок, он не ограничен выделенными под материал страницами, газетными и журнальными колонками. Появляется элемент интерактивности - читатели могут оставить свои комментарии и отзывы о прочитанной статье, новости, аналитическом обзоре.

Некоторые периодические издания, например, TIMES, даже выполнили оцифровку архивов газеты за все время ее существования, включая годы, когда еще не было ни компьютеров, ни компьютерных сетей, правда, поиск по таким архивам платный и стоит довольно дорого.

Наиболее авторитетным и профессиональным источником оперативной информации для пользователей сети Интернет и для средств массовой информации служат Веб-ресурсы информационных агентств. Обладая широкой корреспондентской сетью, ежедневно и ежечасно, в сети Интернет и по каналам электронной связи они распространяют общественно-политическую, экономическую, научную, финансовую информацию.

Поисковые инструменты

Поисковые инструменты - это особое программное обеспечение, основная цель которого - обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета. Поисковые инструменты размещаются на специальных веб-серверах, каждый из которых выполняет определенную функцию:

  • 1. Анализ веб-страниц и занесение результатов анализа на тот или иной уровень базы данных поискового сервера.
  • 2. Поиск информации по запросу пользователя.
  • 3. Обеспечение удобного интерфейса для поиска информации и просмотра результата поиска пользователем.

Приемы работы, используемые при работе с теми или другими поисковыми инструментами, практически одинаковы. Перед тем как перейти к их обсуждению, рассмотрим следующие понятия:

  • 1. Интерфейс поискового инструмента представлен в виде страницы с гиперссылками, строкой подачи запроса (строкой поиска) и инструментами активизации запроса.
  • 2. Индекс поисковой системы - это информационная база, содержащая результат анализа веб-страниц, составленная по определенным правилам.
  • 3. Запрос - это ключевое слово или фраза, которую вводит пользователь в строку поиска. Для формирования различных запросов используются специальные символы ("", |, ~), математические символы (*, +, ?).

Схема поиска информации проста. Пользователь набирает ключевую фразу и активизирует поиск, тем самым получает подборку документов по сформулированному (заданному) запросу. Этот список документов ранжируется по определенным критериям так, чтобы вверху списка оказались те документы, которые наиболее соответствуют запросу пользователя. Каждый из поисковых инструментов использует различные критерии ранжирования документов, как при анализе результатов поиска, так и при формировании индекса (наполнении индексной базы данных web-страниц).

Таким образом, если указать в строке поиска для каждого поискового инструмента одинаковой конструкции запрос, можно получить различные результаты поиска. Для пользователя имеет большое значение, какие документы окажутся в первых двух-трех десятках документов по результатам поиска и на сколько эти документы соответствуют ожиданиям пользователя.

Большинство поисковых инструментов предлагают два способа поиска - simple search (простой поиск) и advanced search (расширенный поиск) с использованием специальной формы запроса и без нее. Рассмотрим оба вида поиска на примере англоязычной поисковой машины.

Например, AltaVista удобно использовать для произвольных запросов, «Something about online degrees in information technology», тогда как поисковый инструмент Yahoo позволяет получать мировые новости, информацию о курсе валют или прогнозе погоды.

Освоение критериев уточнения запроса и приемов расширенного поиска, позволяет увеличивать эффективность поиска и достаточно быстро найти необходимую информацию. Прежде всего, увеличить эффективность поиска Вы можете за счет использования в запросах логических операторов (операций) Or, And, Near, Not, математических и специальных символов. С помощью операторов и/или символов пользователь связывает ключевые слова в нужной последовательности, чтобы получить наиболее адекватный запросу результат поиска.

Простой запрос дает некоторое количество ссылок на документы, т.к. в список попадают документы, содержащие одно из слов, введенных при запросе, или простое словосочетание (см. таблицу 1). Оператор and позволяет указать на то, что в содержании документа должны быть включены все ключевые слова. Тем не менее, количество документов может быть все еще велико, и их просмотр займет достаточно времени. Поэтому в ряде случаев гораздо удобнее применить контекстный оператор near, указывающий, что слова должны располагаться в документе в достаточной близости. Использование near значительно уменьшает количество найденных документов. Наличие символа "*" в строке запроса означает, что будет осуществляться поиск слова по его маске. Например, получим список документов, содержащих слова, начинающиеся на "gov", если в строке запроса запишем "gov*". Это могут быть слова government, governor и т.д.

Наиболее развитый сервис поиска русскоязычной информации предоставляет поисковый сервер Яndex. В Яndex можно просто написать по-русски фразу, описывающую то, что Вы хотите найти, и система проанализирует и обработает Ваш запрос, а затем постарается найти все, что относится к заданной теме. Вы можете, используя специальные операторы, составить строку, поясняющую поисковой системе, каким Вашим требованиям должна отвечать интересующая Вас информация.

Не менее популярная поисковая система Rambler ведет статистику посещаемости ссылок из собственной базы данных, поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Наиболее популярные технологии поиска информации в Интернет .