Тема

Поиск информации в Internet


Содержание

Общие сведения

“Всемирная паутина” в Internet – это миллионы документов с неструктурированной текстовой информацией (а также с графикой, аудио, видео). Чтобы найти нужную информацию, клиенту Сети зачастую приходится перебирать сотни страниц Web (иногда без особого успеха), тратить много сил и нервов (а также денежных средств).

С начала 90-х годов интенсивно развиваются справочные службы Internet, помогающие пользователям найти нужную информацию, и эти службы можно разделить на две категории: универсальные и специализированные.

В универсальных службах используется обычный принцип поиска в неструктурированных документах – по ключевым словам, в специализированных – по контексту.

Ключевым словом документа называется отдельное слово или словосочетание, которое каким-то образом отражает содержание данного документа, выделяет область его поиска. Ключевые слова записываются с помощью специального языка управления запросами, например: “Бразилия + футбол + чемпионат”.

Универсальная служба поиска (поисковая система) – это комплекс программ и мощных компьютеров, выполняющий следующие функции:

  1. Специальная программа (поисковый робот, паук, spider, crawler, bot) непрерывно просматривает страницы WWW, выбирает ключевые слова и составляет базу данных индексов. В эту базу включаются ключевые слова и адреса документов, в которых эти слова обнаружены (напомним, что индекс – это упорядоченный по ключевым словам набор указателей). Паук возвращается к узлу на регулярной основе, примерно каждый месяц или чаще, чтобы поискать изменения.
  2. Web-сервер принимает от пользователя запрос на поиск, преобразует его и передает специальной программе – поисковой машине.
  3. Поисковая машина просматривает базу данных индексов, составляет список страниц, удовлетворяющих условиям запроса (точнее, список ссылок на эти страницы) и возвращает его Web-серверу.
  4. Web-сервер оформляет результаты выполнения запроса в удобном для пользователя виде и передает их на машину клиента.

Среди наиболее известных и мощных поисковых систем: Alta Vista (www.altavista.com), Infoseek (www.infoseek.com), Lycos (www.lycos.com), российская система Рамблер (www.rambler.ru) и другие.

Специализированные справочные службы (классификаторы) – это тематические каталоги (subject catalogs), в которых собраны более или менее структурированные сведения об адресах серверов по той или иной тематике. В отличие от универсальных баз индексов, тематические каталоги составляются специалистами и обеспечивают клиента более строгой, достоверной и систематизированной информацией о Сети. В классификаторах используется иерархическая (древовидная) организация информации. Это дает пользователю возможность вести просмотр, перемещаясь по иерархии тематических рубрик, и, постепенно сужая поле поиска до необходимых размеров.

Кроме того, многие сайты Internet располагают собственными механизмами поиска (в пределах данного сайта). В первую очередь это механизм контекстного поиска, а также специализированный поиск по фамилиям (например, персоны компьютерного бизнеса), товарам (на рекламных сайтах), фирмам и т.д. Некоторые полезные адреса конкретных информационных ресурсов приведены в следующей талице.

Методы сбора и классификации информации

С точки зрения методологии стратегия работы современных поисковых серверов базируется на трех основных подходах:

  • создание Web-индексов (Web indexes), – алгоритм работы таких систем мы только что рассмотрели,
  • создание каталогов (Web directories),
  • “гибридный” метод, сочетающий в той или иной степени два первых подхода.

Кроме того, существует ряд дополнительных подходов к классификации информации: онлайновые справочники, системы на CD-ROM, различные желтые и белые страницы Internet и т.д. В Internet можно найти множество документов по вопросу классификации систем поиска, см. например, достаточно подробную статью на www.josts.net/lusd/sewk.htm.

Web-индексы

Web-индексы стали первым средством систематизации содержимого документов, доступных через Internet. Создание Web-индексов предполагает создание и непрерывное пополнение огромной базы данных по индексируемым документам, выполняемое исключительно компьютерами (и в этом принципиальное отличие таких систем!). Повторяясь, напомним, что сбор информации в индексы выполняется автоматически программами-роботами или “пауками”, которые просматривают серверы Internet, копируют документы, анализируют встречающиеся в них слова и выполняют индексирование. Яркими представителями этой ветви серверов являются

Alta Vista (www.altavista.com),
Яndex (www.yandex.ru),
InfoSeek (infoseek.go.com).

Поисковые системы этого типа обладают очень большими базами данных и высокой скоростью обработки запросов, но степень обработки материала оставляет желать лучшего. Как правило, в ответ на ввод ключевых слов для поиска они выдают ссылки на сотни и тысячи документов, в которых действительно встречаются указанные пользователем ключевые слова, но по смыслу подавляющее большинство этих документов имеет очень отдаленное отношение к теме, интересующей пользователя. Эффективный поиск с помощью web-индексов предполагает использование специальных языков управления запросами. Описание правил составления запросов имеется на каждой информационно-поисковой системе в разделе Помощь (Help).

Web-каталоги

Второй подход предполагает организацию поисковой машины как предметно-ориентированной системы, где информация по отдельным темам собрана в постоянно обновляющихся иерархически организованных каталогах. Типичными представителями этой ветви являются:

Yahoo! (www.yahoo.com),
Look Smart (www.looksmart.com),
Созвездие Internet (www.stars.ru)

и виртуальные библиотеки. Примером виртуальной библиотеки является библиотека, поддерживаемая Консорциумом W3.

Web-каталоги создаются людьми, которые сами просматривают узлы Web, читают электронную почту и телеконференции. Здесь требуется огромная доля труда квалифицированных специалистов, занимающихся классификацией и анализом поступающих данных. Дополнительным преимуществом каталогов можно назвать специальные обзоры, аннотации и пр., которые готовятся аналитиками этих узлов по различным темам и доступны пользователям. При использовании web-каталогов может осуществляться контекстный поиск по описаниям рубрик.

Естественно, что по качеству сортировки документов Web-каталоги намного превосходят Web-индексы (заметно проигрывая им по количеству просмотренных документов). Следует отметить, что, как правило, Web-каталоги имеют внутренний поисковый механизм, который направляет вас в нужный раздел, если вы не очень хорошо представляете, где конкретно искать документы по интересующей вас теме.

Гибридные системы поиска

Кроме классических индексов и каталогов в Internet существуют и гибридные поисковые системы, в которых можно воспользоваться и индексной базой данных и структурированными тематическими каталогами. Примерами таких “гибридных” серверов являются Lycos (www.lycos.com), Excite (www.excite.com), Rambler (www.rambler.ru).

Онлайновые справочники и другие системы поиска

Онлайновые справочники также составляются людьми, но в отличие от Web-каталогов в них чаще всего отсутствует внутренний поисковый механизм. Пользователям приходится самостоятельно искать на сервере нужную информацию. В качестве примера онлайнового справочника можно привести Web Server Directory.

Внесетевые справочники обычно записаны на CD-ROM и представляют собой локальные базы данных сетевых ресурсов. Они призваны сократить время соединения с провайдером и уровень загрузки поисковых систем Internet за счет того, что с их помощью пользователь производит предварительный поиск адресов нужных ресурсов и лишь затем выходит в Internet. Отличный пример такого справочника – каталог Сигалова А. “Желтые страницы Internet. Русские ресурсы”.

Кроме перечисленных типов поисковых средств в Сети можно встретить многочисленные справочники и классификаторы, сгруппированные в различные “желтые”, “белые” и иные страницы, находящиеся в отличие от внесетевых справочников, прямо на узлах Web. В них информация структурирована по крупным темам. Например, “Российская Федерация”. Внутри этого раздела она разбита на географические регионы, в которых имеются разделы “Новости и политика”, “Законодательство”. Далее выделяются такие темы как “Экономика и финансы”, “Производство и торговля”, “Наука и техника”, “Образование”, “Компьютерные технологии”, “Сети и телекоммуникации”, “Культура и искусство”, “Медицина и здоровье”, “Пресса”, “Отдых и развлечения” и т.д.

В качестве примера можно назвать тематический справочник BigBook фирмы Organic Online (www.bigbook.com), алфавитный классификатор Hoovers (www.hoovers.com).

Метапоисковые системы

Наверняка, когда вам показалось, что возможности выбранного вами сервера больше не позволяют найти какие-либо дополнительные документы, вы решите попробовать продолжить поиск с помощью другого поискового сервера. Когда и его возможности будут исчерпаны, а нужный документ не найден, настанет пора перейти к следующей поисковой машине и т.д. Естественно, что подобный алгоритм ведёт к значительным затратам времени. Стремление облегчить решение рассматриваемой задачи дало толчок развитию систем параллельного поиска, когда можно одновременно обратиться к целому ряду поисковых машин, вводя запрос на одной странице вашего обозревателя. Подобный сервис получил название Meta-Search Engines (метапоисковые системы).

В простейшем варианте метапоисковые системы являются обычными интерфейсными программами, предоставляющими на одной странице одновременный доступ к нескольким поисковым серверам.

На следующей странице сведены как метапоисковые системы, так и сводные страницы. Здесь отслеживается рейтинг систем по степени их использования и эффективности, приводятся инструкции (на англ. языке).

В обозревателе MS Internet Explorer 3.x-6.x предусмотрен легкий доступ к метапоисковой странице, расположенной на сервере Microsoft. Через панель поиска вы получаете доступ сразу к нескольким поисковым машинам. В зависимости от версии и языка обозревателя список предлагаемых поисковых серверов меняется. MS Internet Explorer не занимается поиском: он принимает от пользователя запрос, обрабатывает его и передает соответствующей поисковой системе. Пользователю MS Internet Explorer достаточно загрузить данную страницу, нажав на кнопку Поиск (Search) на панели инструментов, выбрать на панели поиска нужный поисковый сервер и, введя ключевое слово, нажать на кнопку Поиск для начала или возобновления поиска.

Технология поиска информации в Internet

Единой оптимальной схемы поиска в Internet не существует. В зависимости от специфики необходимой вам информации, для ее поиска вы должны использовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользовать какой-нибудь одной поисковой системой, например Rambler, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.

Поиск с помощью поисковых систем (web-индексов)

Правильное использование информационно-поисковой системы заключается в знании языка запросов. Только применяя на практике этот язык, вам не придется разгребать кучу ссылок, никак не относящихся к тому, что вы искали, и поиск будет быстрым и эффективным. Технология поиска с помощью поисковой системы такова:

1.  Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках.
Необходимо получить из любого источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником вполне может стать как узко специальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости – и на нескольких языках. Заранее стоит побеспокоиться о потенциальной возможности уточнения поискового запроса – редких словах, возможно, названий и фамилий, тесно связанных с проблемой.
2.  Продумайте строку запроса информации (не более чем 5 слов), учитывая, что на каждом поисковом сервере может применяться свой собственный синтаксис запросов. В зависимости от того, построили ли вы запрос в соответствии с правилами или нет, вы можете получить то, что искали, или лавину нерелевантных ссылок.

У большинства поисковых машин есть три основных вида поиска:
•  по любому (одному) из слов,
•  по всем словам и
•  точно по фразе.

В зависимости от выбранного режима результаты поиска могут сильно различаться:

  • Поиск по любому слову. В результате поиска составляется список всех индексированных страниц, содержащих любое из ваших ключевых слов. Нередко число совпадений при таком поиске огромно. Однако если поисковая система хорошо сортирует результаты по тематике, то нужную страницу можно найти в верхней части списка ссылок, который вам выдала поисковая машина. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в ключевых словах. Если вы не знаете, как правильно называется прибор для измерения кровяного давления – "sphygmomanometer" или "sphygnomanometer", – то ищите по любому из слов, указав оба термина.
  • Поиск по всем словам. В этом режиме поиска формируется список всех индексированных страниц, содержащих сразу все ключевые слова, в любом порядке. При этом сохраняется вероятность получения результатов, не соответствующих теме. Например, поиск по словам Martin Luter King birthday может указать на страницу, на которой собраны статистические данные о резервисте НБА Леоне Смите, в том числе его дата рождения и тот факт, что он учился в школе имени Мартина Лютера Кинга.
  • Поиск точно по фразе. В этом режиме поиска составляется список всех индексированных страниц, содержащих фразу, точно совпадающую с ключевой; знаки препинания игнорируются. В список не попадают узлы, посвященные одной теме, описываемой с использованием разных фраз. Даже в этом режиме поиска возможны ложные результаты. В ходе поиска по фразе Martin Luter King birthday была обнаружена страница, посвященная увлечению частного лица: "Most Admired Person: Dr. Martin Luter King; Birthday: January 16." (Кумир: доктор Мартин Лютер Кинг; дата рождения: 16 января.)

Для составления запроса также можно использовать специальные логические операторы AND ("И"), OR ("ИЛИ") и AND NOT ("И НЕ") или их сокращенную запись, при необходимости группируя ключевые слова с помощью круглых скобок. Как правило, эти операторы обозначаются одним из следующих способов (см. Табл.1).

Таблица 1
Оператор
Обозначение
Сокращенная запись
Обозначение при простомпоиске
(кроме ИПС Rambler)
И
AND
&
+
ИЛИ
OR
|
пробел
И НЕ
AND NOT
&!
~
скобки
( )
( )
( )


Оператор "И" используется тогда, когда вам нужно найти документы, содержащие все ключевые слова из запроса. Например, по запросу рефераты AND сочинения вы найдете все документы, в которых упоминаются сразу оба слова.

Оператор "ИЛИ" обычно используется для того, чтобы найти документы, содержащие, по крайней мере, одно из содержащихся в запросе слов. Его удобно использовать при поиске синонимов. Например, по запросу рефераты OR сочинения вы найдете все документы, в которых упоминается либо слово "рефераты", либо слово "сочинения", либо сразу оба слова.

Оператор "И НЕ" используется тогда, когда требуется найти документы с предложением, в котором содержится первое слово из запроса, но отсутствует второе слово, указанное в запросе. Например, по запросу рефераты AND NOT сочинения вы найдете все документы, в которых упоминается слово "рефераты", а слово "сочинения" отсутствует.

Следует также отметить, что существуют некие приоритеты операторов. Так оператор AND NOT имеет более высокий приоритет (т.е. выполняется первым), чем AND и OR, а оператор AND имеет более высокий приоритет, чем оператор OR. Поэтому запрос из нескольких слов сначала группируется по операторам AND NOT и AND и только потом по операторам OR. Изменить порядок группировки можно с помощью скобок. Так, до сих пор наш запрос состоял только из двух слов. Теперь же попытаемся найти документы, в которых встречаются либо сразу оба слова "рефераты" и "сочинения" либо слово "курсовые". Для этого используем запрос рефераты AND сочинения OR курсовые. Чтобы найти документы, содержащие слово "рефераты" и одно из слов "сочинения" или "курсовые", воспользуемся запросом рефераты AND (сочинения OR курсовые).

Приведем примеры использования логических операторов при составлении запросов к поисковой системе Яndex (см. Табл.2).

Таблица 2
Оператор
Запрос
Результат
И

легкая&промышленность
легкая+промышленность

все документы, содержащие оба слова сразу (и слово "легкая", и слово "промышленность")
ИЛИ

легкая | промышленность
легкая промышленность

все документы, содержащие либо слово "легкая", либо слово "промышленность", либо оба слова сразу
И НЕ
промышленность~легкая
все документы, содержащие слово "промышленность", но не содержащие слова "легкая"
( )
(производство выпуск)~столов
все документы, содержащие одно из слов "производство" или "выпуск", но не содержащие слова "столов"
3.  Наберите ваш запрос в строке ввода на главной странице выбранной информационно-поисковой системы и нажмите <Enter> (или щелкните по соответствующей кнопке, например, с названием Найти или Поиск (Search) и т.п.).
4.  Поисковая система в результате вашего запроса сгенерирует список адресов URL с короткими описаниями. Найденные поисковыми машинами документы сортируются по величине релевантности, то есть сначала выдаются документы, в которых чаще всего встречаются искомые слова, и документы, содержащие слова наиболее близкие к искомым, а затем – все остальные.
Если в результате поиска было обнаружено слишком много ссылок, то выполните одно из следующих действий:
•  переключитесь из режима поиска "по одному из слов" в режим поиска "по всем словам",
•  добавьте к запросу еще одно ключевое слово и повторите поиск; на некоторых узлах есть более быстрая функция "поиск среди найденного",
•  переключитесь в режим расширенного поиска, обладающего дополнительными типами запросов и возможностями сортировки.

Если в результате было обнаружено слишком мало ссылок, переключитесь из режима поиска "точно по фразе" в режим поиска "по всем словам", из него – в режим поиска "по одному из слов" или используйте меньше ключевых слов.

5.  Найдите на странице наиболее подходящую вам по смыслу ссылку, щелкните на ней правой кнопкой мыши и выберите пункт контекстного меню Открыть в новом окне (или перенесите ссылки мышью во второе окно обозревателя). Если информация по выбранному адресу оказалась ценной, не дайте ей потеряться. Сохраните ссылку на найденную страницу в папке Избранное, а еще лучше скопируйте саму информацию на жесткий диск вашего компьютера. Если же вы не обнаружили на странице ничего ценного, просто закройте текущее окно обозревателя и переходите к просмотру следующей ссылки.
6.  Если результаты поиска с помощью данной поисковой системы вас не удовлетворили, отправляйтесь на другой поисковый сервер (см. список).

Поиск с помощью тематических каталогов

Один из способов работы с тематическим каталогом – воспользоваться иерархическим деревом при поиске информации. Т.е. вы выбираете сначала общую тематику, удовлетворяющую вашему запросу информации, и далее конкретизируете, следуя подсказкам каталога. В конечном результате вы получаете список сайтов, содержащих информацию, соответствующую вашему запросу.

При работе с тематическим каталогом вы обычно также можете пойти и по другому пути. Проанализируйте предполагаемое содержание запрашиваемой информации и выберите ключевые слова, которые обязательно встретятся в интересующих вас материалах или их заголовках. Наберите эти слова через пробел в строке ввода на главной странице и нажмите клавишу <Enter>. Система попытается сама подобрать интересующую вас информацию.

Если вы ищите информацию заведомо русскоязычную, то имеет смысл использовать российские web-каталоги. Здесь стоит отметить первый российский каталог Russia on the Net (www.ru), один из крупнейших русскоязычных каталогов List.Ru (www.list.ru), российский вариант Yahoo! (www.yahoo.ru) и др. (см. список). Говоря о базах данных, нельзя не вспомнить замечательный российский проект "Желтые страницы Интернет" (yp.piter.com), где как и в одноименной книге представлена детальная информация о самых разных ресурсах Internet.

Принцип работы с зарубежными тематическими каталогами идентичен тому, который мы рассмотрели выше. Наиболее популярным во всем мире признан тематический каталог Yahoo! (www.yahoo.com). Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики.

Поиск с помощью метапоисковых систем

Читая обо всех перечисленных поисковых службах, по неволи задумаешься: "а если для поиска необходимой мне информации не достаточно одной поисковой службы, то неужели мне придется входить на все здесь перечисленные серверы и каждый раз повторять один и тот же запрос?!". Наиболее качественный результат как раз будет именно при таком подходе. Но можно, исходя из экономии времени и денег, воспользоваться системами мета поиска.

Наиболее популярная в мире система такого класса – Search.com (www.search.com), но если вы работаете преимущественно с русскоязычными документами, то можно воспользоваться метапоисковой системой MetaSeek. Это достаточно мощная система, отсылающая ваш запрос на 30 крупнейших поисковых машин и специализированных серверов и возвращающая вам их отчеты.

Другая российская система мета поиска – 360.Ru (www.360.ru) обрабатывается 26 поисковых систем по всему миру. Существует возможность определения региона поиска и ограничения времени поиска.

Метапоисковая система AdClick.Ru (www.adclick.ru) работает c 15 российскими и зарубежными поисковыми машинами и каталогами.

Также существуют так называемые мультипоисковые страницы: Search, БКФ Поиск, www.cmk.kirov.ru/search.htm и др. (см. список). Эти серверы не умеют посылать запросы и получать отчеты от поисковых служб как системы мета поиска. Мультипоисковые страницы загружают во множестве окон поисковые службы и передают им ваш запрос.

Hosted by uCoz