Как работают поисковые машины интернета. Поисковые машины и каталоги

Что это

DuckDuckGo - это довольно известная поисковая система с открытым исходным кодом. Серверы находятся в США. Кроме собственного робота, поисковик использует результаты других источников: Yahoo, Bing, «Википедии».

Чем лучше

DuckDuckGo позиционирует себя как поиск, обеспечивающий максимальную приватность и конфиденциальность. Система не собирает никаких данных о пользователе, не хранит логи (нет истории поиска), использование файлов cookie максимально ограничено.

DuckDuckGo не собирает личную информацию пользователей и не делится ею. Это наша политика конфиденциальности.

Гэбриел Вайнберг (Gabriel Weinberg), основатель DuckDuckGo

Зачем это вам

Все крупные поисковые системы стараются персонализировать на основе данных о человеке перед монитором. Этот феномен получил название «пузырь фильтров»: пользователь видит только те результаты, которые согласуются с его предпочтениями или которые система сочтёт таковыми.

DuckDuckGo формирует объективную картину, не зависящую от вашего прошлого поведения в Сети, и избавляет от тематической рекламы Google и «Яндекса», основанной на ваших запросах. При помощи DuckDuckGo легко искать информацию на иностранных языках: Google и «Яндекс» по умолчанию отдают предпочтение русскоязычным сайтам, даже если запрос введён на другом языке.


Что это

not Evil - система, осуществляющая поиск по анонимной сети Tor. Для использования нужно зайти в эту сеть, например запустив специализированный с одноимённым названием.

not Evil не единственный поисковик в своём роде. Есть LOOK (поиск по умолчанию в Tor-браузере, доступен из обычного интернета) или TORCH (один из самых старых поисковиков в Tor-сети) и другие. Мы остановились на not Evil из-за недвусмысленного намёка на Google (достаточно посмотреть на стартовую страницу).

Чем лучше

Ищет там, куда Google, «Яндексу» и другим поисковикам вход закрыт в принципе.

Зачем это вам

В сети Tor много ресурсов, которые невозможно встретить в законопослушном интернете. И их число будет расти по мере того, как ужесточается контроль властей над содержанием Сети. Tor - это своеобразная сеть внутри Сети со своими социалками, торрент-трекерами, СМИ, торговыми площадками, блогами, библиотеками и так далее.

3. YaCy

Что это

YaCy - децентрализованная поисковая система, работающая по принципу сетей P2P. Каждый компьютер, на котором установлен основной программный модуль, сканирует интернет самостоятельно, то есть является аналогом поискового робота. Полученные результаты собираются в общую базу, которую используют все участники YaCy.

Чем лучше

Здесь сложно говорить, лучше это или хуже, так как YaCy - это совершенно иной подход к организации поиска. Отсутствие единого сервера и компании-владельца делает результаты полностью независимыми от чьих-то предпочтений. Автономность каждого узла исключает цензуру. YaCy способен вести поиск в глубоком вебе и неиндексируемых сетях общего пользования.

Зачем это вам

Если вы сторонник открытого ПО и свободного интернета, не подверженного влиянию государственных органов и крупных корпораций, то YaCy - это ваш выбор. Также с его помощью можно организовать поиск внутри корпоративной или другой автономной сети. И пусть пока в быту YaCy не слишком полезен, он является достойной альтернативой Google с точки зрения процесса поиска.

4. Pipl

Что это

Pipl - система, предназначенная для поиска информации о конкретном человеке.

Чем лучше

Авторы Pipl утверждают, что их специализированные алгоритмы ищут эффективнее, чем «обычные» поисковики. В частности, приоритетными источниками информации являются профили социальных сетей, комментарии, списки участников и различные базы данных, где публикуются сведения о людях, например базы судебных решений. Лидерство Pipl в этой области подтверждено оценками Lifehacker.com, TechCrunch и других изданий.

Зачем это вам

Если вам нужно найти информацию о человеке, проживающем в США, то Pipl будет намного эффективнее Google. Базы данных российских судов, видимо, недоступны для поисковика. Поэтому с гражданами России он справляется не так хорошо.

Что это

FindSounds - ещё один специализированный поисковик. Ищет различные звуки (дом, природа, машины, люди и так далее) в открытых источниках. Сервис не поддерживает запросы на русском языке, но есть внушительный список русскоязычных тегов, по которым можно выполнить поиск.

Чем лучше

В выдаче только звуки и ничего лишнего. В настройках поиска можно выставить желаемый формат и качество звучания. Все найденные звуки доступны для скачивания. Имеется поиск звуков по образцу.

Зачем это вам

Если вам нужно быстро найти звук мушкетного выстрела, удары дятла-сосуна или крик Гомера Симпсона, то этот сервис для вас. И это мы выбрали только из доступных русскоязычных запросов. На английском языке спектр ещё шире.

А если серьёзно, специализированный сервис предполагает специализированную аудиторию. Но вдруг и вам пригодится?

Что это

Wolfram|Alpha - вычислительно-поисковая система. Вместо ссылок на статьи, которые содержат ключевые слова, она выдаёт готовый ответ на запрос пользователя. Например, если ввести в форму поиска «сравнить население Нью-Йорка и Сан-Франциско» на английском, то Wolfram|Alpha сразу выведет на экран таблицы и графики со сравнением.

Чем лучше

Этот сервис лучше других подходит для поиска фактов и вычисления данных. Wolfram|Alpha накапливает и систематизирует доступные в Сети знания из различных областей, включая науку, культуру и развлечения. Если в этой базе находится готовый ответ на поисковый запрос, система показывает его, если нет - вычисляет и выводит результат. При этом пользователь видит только нужную информацию и ничего лишнего.

Зачем это вам

Если вы, например, студент, аналитик, журналист или научный сотрудник, то можете использовать Wolfram|Alpha для поиска и вычисления данных, связанных с вашей деятельностью. Сервис понимает не все запросы, но постоянно развивается и становится умнее.

Что это

Метапоисковик Dogpile выводит комбинированный список результатов из поисковых выдач Google, Yahoo и других популярных систем.

Чем лучше

Во-первых, Dogpile отображает меньше рекламы. Во-вторых, сервис использует особый алгоритм, чтобы находить и показывать лучшие результаты из разных поисковиков. Как утверждают разработчики Dogpile, их системы формирует самую полную выдачу во всём интернете.

Зачем это вам

Если вы не можете найти информацию в Google или другом стандартном поисковике, поищите её сразу в нескольких поисковиках с помощью Dogpile.

Что это

BoardReader - система для текстового поиска по форумам, сервисам вопросов и ответов и другим сообществам.

Чем лучше

Сервис позволяет сузить поле поиска до социальных площадок. Благодаря специальным фильтрам вы можете быстро находить посты и комментарии пользователей, которые соответствуют вашим критериям: языку, дате публикации и названию сайта.

Зачем это вам

BoardReader может пригодиться пиарщикам и другим специалистам в области медиа, которых интересует мнение массовой аудитории по тем или иным вопросам.

В заключение

Жизнь альтернативных поисковиков часто бывает скоротечной. О долгосрочных перспективах подобных проектов Лайфхакер спросил бывшего генерального директора украинского филиала компании «Яндекс» Сергея Петренко .


Сергей Петренко

Бывший генеральный директор «Яндекс.Украины».

Что касается судьбы альтернативных поисковиков, то она проста: быть очень нишевыми проектами с небольшой аудиторией, следовательно без ясных коммерческих перспектив или, наоборот, с полной ясностью их отсутствия.

Если посмотреть на примеры в статье, то видно, что такие поисковики либо специализируются в узкой, но востребованной нише, которая, возможно только пока, не выросла настолько, чтобы оказаться заметной на радарах Google или «Яндекса», либо тестируют оригинальную гипотезу в ранжировании, которая пока не применима в обычном поиске.

Например, если поиск по Tor вдруг окажется востребованным, то есть результаты оттуда понадобятся хотя бы проценту аудитории Google, то, конечно, обычные поисковики начнут решать проблему, как их найти и показать пользователю. Если поведение аудитории покажет, что заметной доле пользователей в заметном количестве запросов более релевантными кажутся результаты, данные без учёта факторов, зависящих от пользователя, то «Яндекс» или Google начнут давать такие результаты.

«Быть лучше» в контексте этой статьи не означает «быть лучше во всём». Да, во многих аспектах нашим героям далеко до Google и «Яндекса» (даже до Bing далековато). Но зато каждый из этих сервисов даёт пользователю нечто такое, чего не могут предложить гиганты поисковой индустрии. Наверняка вы тоже знаете подобные проекты. Поделитесь с нами - обсудим.

Поиск информации в Интернете -- одна из наиболее востребованных операций в Интернете. Посетителям Интернета часто приходится искать документы по какой-либо тематике. Если у вас есть точный адрес документа в Интернете, то в этом случае проблем с поиском не возникает: в браузере в адресной строке можно набрать известный адрес ресурса, и при удачном соединении браузер выведет на экран нужную страницу.

Если точного адреса документа нет, то можно воспользоваться услугами поисковой машины. Поисковая машина? это «специализированный сервер в Интернете, который предлагает разнообразные средства поиска документов» . Пример поискового сервера -- сервер Рамблер (Rambler.ru), расположенный по адресу http://rambler.ru. Вид головной страницы сервера приведен на рисунке.

Рис. 1.

Поисковые серверы обычно составляют собственные каталоги ресурсов Интернета. Каталоги поисковых серверов регулярно пополняются информацией о создаваемых в сети ресурсах, которая поступает от поисковых роботов. Поисковые роботы или пауки -- это специальные сетевые программы, которые обращаются к доступным на текущий момент серверам Интернета, проводят анализ документов и пополняют таблицы своей поисковой машины. Работа по поиску и систематизации ресурсов поисковые роботы выполняют в фоновом режиме круглосуточно.

Еще один источник поступления на поисковые серверы информации о существующих сайтах -- явная регистрация ресурсов владельцами web-страниц. На сервере имеются формы, которые заполняют владельцы ресурсов. В форме задается адрес ресурса, краткая характеристика, ключевые слова, целевая аудитория и пр. Эта информация анализируется и добавляется в каталоги сервера автоматически специальными программами или «вручную» экспертами -- специалистами, следящими за формированием каталогов ресурсов.

Понимание механизмов поиска информации в Интернете позволяет разработчикам web-страниц готовить свои документы так, чтобы они могли быть в дальнейшем найдены поисковыми машинами и размещены в соответствующих разделах каталога ресурсов.

Поиск по ключевым словам в Интернет

Один из популярных способов поиска документов в сети WWW -- поиск по ключевым словам. При задании ключевых слов в поисковой форме поисковая машина будет искать документы, содержащие заданные ключевые слова. Разумеется, для выполнения запроса поисковая машина не станет исследовать содержание тысяч работающих в Интернете компьютеров -- результат такого поиска вам пришлось бы ждать не один день. Поиск ведется среди тех ресурсов (каталогов, таблиц) поисковой машины, которые были ранее собраны и систематизированы с помощью роботов и экспертов.

Поскольку объем ресурсов сети становится поистине безграничным, то по запросу на поиск документа по ключевому слову поисковая машина может найти несколько тысяч документов, содержащих указанное ключевое слово. Понятно, что в таком количестве документов трудно найти тот, который лучше всего соответствует заданной теме. Однако поисковые машины обычно дают возможность сформулировать более детальный запрос.

Запрос может иметь сложную форму и составляться с помощью ключевых слов и логических функций И (AND), ИЛИ (OR), отрицания (NOT) . Или же запрос на поиск может формироваться с помощью специальных символов, позволяющих задать (или отменить) словоформы ключевых слов. Такие механизмы помогают более точно сформулировать требования для отбора документов. Каждая поисковая машина имеет справочную систему, которая поможет посетителю составить поисковый запрос.

Классификация

По области поиска (условно)

Локальные

Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети .

Глобальные

Предназначены для поиска информации по всей сети Интернет либо по значительной её части. Представителями таких поисковых машин являются поисковые системы Google , Яндекс и т. п. Поисковые машины осуществляют поиск информации различного типа, например текстов, видео, изображений, географических объектов, персональных данных и др. При этом файлы, с которыми может работать поисковая машина, могут быть как текстового формата (например.html, .htm, .txt, .doc, .rtf…), так и графического (.gif, .png, .svg…) или мультимедийного (видео и звук). Пока наиболее распространённым является именно поиск по текстовым документам.

Поисковый запрос

Исходной информацией для поиска является поисковый запрос .

Функции

Поисковые машины выполняют несколько функций:

Поиск ссылок

Поиск ссылок на страницы и другие документы сайтов.

Автоматический

Ручной режим

Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов

Индексация документов сайтов

Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины

Поиск по базе данных проиндексированных документов

Может состоять из нескольких этапов

Нахождение документов, соответствующих поисковому запросу

Ранжирование документов в соответствии с их релевантностью поисковым запросам

Кластеризация документов

Примечания

См. также


Wikimedia Foundation . 2010 .

Смотреть что такое "Поисковая машина" в других словарях:

    Поисковая машина - (searching engine): веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex)... Источник: ИНТЕРНЕТ РЕСУРСЫ. ТРЕБОВАНИЯ ДОСТУПНОСТИ ДЛЯ ИНВАЛИДОВ ПО ЗРЕНИЮ. ГОСТ Р 52872 2007 (утв. Приказом Ростехрегулирования от… … Официальная терминология

    поисковая машина - Веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex). [ГОСТ Р 52872 2007] Тематики информационные технологии в целом EN searching engine … Справочник технического переводчика

    В Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь

    В Internet поисковая машина, которая: отсылает запрос на поиск в несколько поисковых систем; и генерирует из полученных ответов сводку (на одной странице). По английски: Meta search engine Синонимы: Мета гусеница Синонимы английские: Metacrawler… … Финансовый словарь

    Эта статья должна быть полностью переписана. На странице обсуждения могут быть пояснения. Поисковая система программно аппаратный комплекс с веб интерфейсом, предоставляющий возможност … Википедия

    Поисковая система - – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ - Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия

Книги

  • К вопросу об эффективности поиска конкретики в Интернете , И. А. Семёнов. Согласно исследованиям Berkley, объём информации в Интернете по состоянию на 2003 год оценивался в 258, 85 терабайта, и это только общедоступные данные. По данным Internet World Stats, рост… электронная книга

Поисковые машины (Search engine)

Поисковые машины позволяют найти WWW-документы, относящиеся к заданным тематикам или снабженные ключевыми словами или их комбинациями. На поисковых серверах отрабатываются два способа поиска:

· По иерархии понятий;

· По ключевым словам.

Заполнение поисковых серверов происходит автоматически или вручную. Поисковый сервер обычно имеет ссылки на остальные поисковые сервера, и передает им запрос на поиск по желанию пользователя.

Существует два типа поисковых машин.

1."Полнотекстовые" поисковые машины, которые индексируют каждое слово на веб-странице, исключая стоп-слова.

2."Абстрактные" поисковые машины, которые создают реферат каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако абстрактные машины могут индексировать страницы лучше полнотекстовых. Это зависит от алгоритма извлечения информации, например по частоте употребления одинаковых слов.

Основные характеристики поисковых машин.

1.Размер поисковой машины определяется количеством проиндексированных страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть различной давности. Причины, по которым это происходит:

· некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы.

· другие чаще индексируют наиболее популярные страницы сети.

2.Дата индексации. Некоторые поисковые машины показывают дату, когда был проиндексирован документ. Это помогает пользователю определить, когда документ появился в сети.

3.Глубина индексирования показывает сколько страниц после указанной будет индексировать поисковая система. Большинство машин не имеют ограничений по глубине индексирования. Причины, по которым могут быть проиндексированы не все страницы:

· не правильное использование фреймовых структур.

· использование карты сайта без дублирования обычными ссылками

4.Работа с фреймами. Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

5.Частота ссылок. Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит индексировать документ.

6.Частота обновления сервера. Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать.

7.Контроль индексации. Показывает, какими средствами можно управлять поисковой машиной.

8.Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает как это будет связано с найденными документами.

9.Стоп-слова. Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или часто использующиеся слова.

10.Spam-штрафы. Возможность блокирования спама.

11.Удаление старых данных. Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес.

Примеры поисковых машин.

1. Altavista. Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo. AltaVista - это наилучший вариант для настраиваемого поис­ка. Однако сортировка результатов по категори­ ям не выполняется и приходится вручную просматривать предоставленную информацию. В AltaVista не предусмотрены средства для получения списков активных узлов, новостей или других возможностей поиска по содержанию.

2.Excite Search. Запущена в конце 1995 года. В сентябре 1996 - приобретена WebCrawler. Данный узел имеет мощный поисковый меха­ низм, возможность автоматической индивидуальной настройки предоставляемой информации, а также составленные квалифици­ рованным персоналом описания множества узлов. Excite отличается от других поисковых узлов тем, что позволяет вести поиск в службах новостей и публикует обзоры Web -страниц. В поисковом механизме используются средства стандартного поиска по ключевым словам и эвристические методы поиска по содержанию. Благодаря такому сочетанию, можно найти подходящие по смыслу страницы Web , если они не содержат указанных пользователем ключе­ вых слов. Недостатком Excite является несколько хаотичный интерфейс.

3.HotBot. Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi. HotBot - это база данных, содержащая документы, индексированные по полному тексту, и один из наиболее полных поисковых механизмов в Web . Его средства поиска по логическим ус­ловиям и средства ограничения поиска любой областью или узлом Web по­могают пользователю найти необходимую информацию, отсеи­вая ненужную. HotBot предоставляет возможность выбрать необходимые параметры поиска из раскрываю­щихся списков.

4.InfoSeek. Запущена раньше 1995 года, легко доступна. В настоящее время содержит порядка 50 миллионов URL. У Infoseek хорошо продуманный интерфейс, а так­же отличные поисковые средства. Большинство ответов на запросы сопровождается ссылками «связанные темы», а после каждого ответа приводятся ссылки «аналогич­ные страницы». База данных поискового механизма страниц, индексированных по полному тексту. Ответы упорядочи­ваются по двум показателям: частоте встреч слово или фраз на страни­цах, а также метоположению слов или фраз на страницах. Существует каталог Web Directory , подразделяющийся на 12 категорий с сот­нями подкатегорий, для которых может быть выполнен поиск. Каждая страница каталога содержит перечень ре­комендуемых узлов.

5. Lycos. Работает с мая 1994 года. Широко известна и используема. В состав входит каталог с огромным числом URL . и поисковая машина Point с технологией статистического анализа содержимого страниц, в отличии от индексирования по полно­му тексту. Lycos содержит новости, обзоры узлов, ссылки на популярные узлы, карты городов, а так­же средства для поиска адресов, изо­бражений и звуковых и видео клипов. Lycos упорядочивает ответы по степени соот­ ветствия запросу по нескольким критериям, например, по чис­ лу поисковых терминов, встретившихся в аннотации к доку­ менту, интервалу меж­ ду словами в конкретной фразе документа, местоположению терминов в документе.

6. WebCrawler. Открыта 20 апреля 1994 года как проект Вашингтонского Университета. WebCrawler предоставляет возможности синтаксиса для конкретизации запросов, а также большой выбор аннотаций узлов при несложном интерфейсе.


Следом за каждым ответом WebCrawler помеша­ет небольшую пиктограмму с приблизительной оценкой соответ­ствия запросу. Коме того выводит на экран стра­ницу с кратким резюме для каждого ответа, его полным URL , точной оценкой соответствия, а также использует этот ответ в запросе по образцу в качестве его ключевых слов. Графического интерфейса для настройки запросов в Web Crawler нет. Н е допускается ис­ пользование универсальных символов, а также невозможно назначить весовые коэффициенты ключевым словам. Не существует возможности ограничения поля поиска определенной областью.

7. Yahoo. Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен каталог Yahooligans для детей. Появляются региональные и top-каталоги Yahoo. Yahoo основан на подписке пользователей. Он может служить от­правной точкой для любых поисков в Web , поскольку с помощью его системы классификации пользователь найдет узел с хорошо организованной информацией. Содержимое Web подразделяется на 14 общих категорий, пере­численных на домашней странице Yahoo !. В зависимости от специ­фики запроса пользователя существует возможность или работать с этими категориями, чтобы ознакомиться с подкатегориями и спи­сками узлов, или искать конкретные слова и термины по всей базе данных. Пользователь может также ограничить поиск в пределах любого раздела или подраздела Yahoo !. Благодаря тому, что классификация узлов выполняется людьми, а не компьютером, качество ссылок обычно очень высокое. Однако, уточнение поиска в случае неудачи – сложная задача. В состав Yahoo ! входит поисковый механизм AltaVista , поэтому в слу­ чае неудачи при поиске на Yahoo ! автоматически происходит его повторение с использованием поискового механизма AltaVista . Затем полученные результаты передаются в Yahoo !. Yahoo ! обеспечивает возможность отправлять запросы для поиска в Usenet и в Fourl 1, чтобы узнать адреса электронной почты.

К российским поисковым машинам относятся:

1. Rambler.Это русскоязычная поисковая система. Разделы, перечисленные на домашней странице Rambler , освещают русскоязычные Web -ресурсы. Существует классификатор информации. Удобной возможностью работы являет­ся предоставление списка наиболее посещаемых узлов по каждой предложенной тематике.

2. Апорт Поиск. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer . Одним из преимуществ Апорта является англо-русский и русско-английский перевод в режиме online запросов и поисков результата, благодаря чему можно вести поиск в русских ресурсах Internet , даже не зная русского языка. Более того можно искать информа­цию, используя выражения, даже для предложений. Среди основных свойств поисковой системы Апорт можно вы­ делить следующие:

Перевод запроса и результатов поиска с русского на англий­ ский язык и наоборот;

Автоматическую проверку орфографических ошибок за­проса;

Информативный вывод результатов поиска для найден­ных сайтов;

Возможность поиска в любой грамматической форме;


язык расширенных запросов для профессио­нальных пользователей.

К другим свойствам поиска можно отнести под­ держку пяти основных кодовых страниц (разных операционных систем) для русского языка, технологию поиска с использовани ем ограничений по URL и дате документов, реализацию поиска по заголовкам, комментариям и подпи­ сям к картинкам и т. д., сохранение параметров поиска и опреде ленного числа предыдущих запросов пользователя, объединение копий документа, находящихся на разных серверах.

3. List . ru (http://www.list.ru ) По своей реализации этот сервер имеет много общего с англоязычной системой Yahoo !. На главной странице сервера располо­жены ссылки на наиболее популярные поисковые категории.


Список ссылок на основные категории ката­лога занимает центральную часть. Поиск в каталоге реализован таким образом, что в резуль­тате запроса могут быть найдены как отдельные сайты, так и рубрики. В случае успешного поиска выводится URL , назва­ние, описание, ключевые слова. Допускается использование языка запросов Яндекс. С сылка "Структура каталога" открывает в отдельном окне полный рубрикатор ката­ лога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок. Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях струк­ туры, представлены и в рубриках. Показываемый список ресурсов упорядочен в алфавит­ном порядке, но можно выбирать сортировку: по вре­ мени добавления, по переходам, по порядку добавления в каталог, по популярности среди посетителей каталога.

4. Яndex. Программные продукты серии Яndex представляют набор средств полнотекстовой индексации и поиска текстовых данных с учетом морфологии русского языка. Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, паук.

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами в локальной и в глобальной сети, а также может быть подключен как модуль к другим системам.

Поисковые машины (Search engine)

Поисковые машины позволяют найти WWW-документы, относящиеся к заданным тематикам или снабженные ключевыми словами или их комбинациями. На поисковых серверах отрабатываются два способа поиска:

· По иерархии понятий;

· По ключевым словам.

Заполнение поисковых серверов происходит автоматически или вручную. Поисковый сервер обычно имеет ссылки на остальные поисковые сервера, и передает им запрос на поиск по желанию пользователя.

Существует два типа поисковых машин.

1."Полнотекстовые" поисковые машины, которые индексируют каждое слово на веб-странице, исключая стоп-слова.

2."Абстрактные" поисковые машины, которые создают реферат каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако абстрактные машины могут индексировать страницы лучше полнотекстовых. Это зависит от алгоритма извлечения информации, например по частоте употребления одинаковых слов.

Основные характеристики поисковых машин.

1.Размер поисковой машины определяется количеством проиндексированных страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть различной давности. Причины, по которым это происходит:

· некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы.

· другие чаще индексируют наиболее популярные страницы сети.

2.Дата индексации. Некоторые поисковые машины показывают дату, когда был проиндексирован документ. Это помогает пользователю определить, когда документ появился в сети.

3.Глубина индексирования показывает сколько страниц после указанной будет индексировать поисковая система. Большинство машин не имеют ограничений по глубине индексирования. Причины, по которым могут быть проиндексированы не все страницы:

· не правильное использование фреймовых структур.

· использование карты сайта без дублирования обычными ссылками

4.Работа с фреймами. Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

5.Частота ссылок. Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит индексировать документ.

6.Частота обновления сервера. Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать.

7.Контроль индексации. Показывает, какими средствами можно управлять поисковой машиной.

8.Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает как это будет связано с найденными документами.

9.Стоп-слова. Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или часто использующиеся слова.

10.Spam-штрафы. Возможность блокирования спама.

11.Удаление старых данных. Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес.

Примеры поисковых машин.

1. Altavista. Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo. AltaVista - это наилучший вариант для настраиваемого поис­ка. Однако сортировка результатов по категори­ ям не выполняется и приходится вручную просматривать предоставленную информацию. В AltaVista не предусмотрены средства для получения списков активных узлов, новостей или других возможностей поиска по содержанию.

2.Excite Search. Запущена в конце 1995 года. В сентябре 1996 - приобретена WebCrawler. Данный узел имеет мощный поисковый меха­ низм, возможность автоматической индивидуальной настройки предоставляемой информации, а также составленные квалифици­ рованным персоналом описания множества узлов. Excite отличается от других поисковых узлов тем, что позволяет вести поиск в службах новостей и публикует обзоры Web -страниц. В поисковом механизме используются средства стандартного поиска по ключевым словам и эвристические методы поиска по содержанию. Благодаря такому сочетанию, можно найти подходящие по смыслу страницы Web , если они не содержат указанных пользователем ключе­ вых слов. Недостатком Excite является несколько хаотичный интерфейс.

3.HotBot. Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi. HotBot - это база данных, содержащая документы, индексированные по полному тексту, и один из наиболее полных поисковых механизмов в Web . Его средства поиска по логическим ус­ловиям и средства ограничения поиска любой областью или узлом Web по­могают пользователю найти необходимую информацию, отсеи­вая ненужную. HotBot предоставляет возможность выбрать необходимые параметры поиска из раскрываю­щихся списков.

4.InfoSeek. Запущена раньше 1995 года, легко доступна. В настоящее время содержит порядка 50 миллионов URL. У Infoseek хорошо продуманный интерфейс, а так­же отличные поисковые средства. Большинство ответов на запросы сопровождается ссылками «связанные темы», а после каждого ответа приводятся ссылки «аналогич­ные страницы». База данных поискового механизма страниц, индексированных по полному тексту. Ответы упорядочи­ваются по двум показателям: частоте встреч слово или фраз на страни­цах, а также метоположению слов или фраз на страницах. Существует каталог Web Directory , подразделяющийся на 12 категорий с сот­нями подкатегорий, для которых может быть выполнен поиск. Каждая страница каталога содержит перечень ре­комендуемых узлов.

5. Lycos. Работает с мая 1994 года. Широко известна и используема. В состав входит каталог с огромным числом URL . и поисковая машина Point с технологией статистического анализа содержимого страниц, в отличии от индексирования по полно­му тексту. Lycos содержит новости, обзоры узлов, ссылки на популярные узлы, карты городов, а так­же средства для поиска адресов, изо­бражений и звуковых и видео клипов. Lycos упорядочивает ответы по степени соот­ ветствия запросу по нескольким критериям, например, по чис­ лу поисковых терминов, встретившихся в аннотации к доку­ менту, интервалу меж­ ду словами в конкретной фразе документа, местоположению терминов в документе.

6. WebCrawler. Открыта 20 апреля 1994 года как проект Вашингтонского Университета. WebCrawler предоставляет возможности синтаксиса для конкретизации запросов, а также большой выбор аннотаций узлов при несложном интерфейсе.


Следом за каждым ответом WebCrawler помеша­ет небольшую пиктограмму с приблизительной оценкой соответ­ствия запросу. Коме того выводит на экран стра­ницу с кратким резюме для каждого ответа, его полным URL , точной оценкой соответствия, а также использует этот ответ в запросе по образцу в качестве его ключевых слов. Графического интерфейса для настройки запросов в Web Crawler нет. Н е допускается ис­ пользование универсальных символов, а также невозможно назначить весовые коэффициенты ключевым словам. Не существует возможности ограничения поля поиска определенной областью.

7. Yahoo. Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен каталог Yahooligans для детей. Появляются региональные и top-каталоги Yahoo. Yahoo основан на подписке пользователей. Он может служить от­правной точкой для любых поисков в Web , поскольку с помощью его системы классификации пользователь найдет узел с хорошо организованной информацией. Содержимое Web подразделяется на 14 общих категорий, пере­численных на домашней странице Yahoo !. В зависимости от специ­фики запроса пользователя существует возможность или работать с этими категориями, чтобы ознакомиться с подкатегориями и спи­сками узлов, или искать конкретные слова и термины по всей базе данных. Пользователь может также ограничить поиск в пределах любого раздела или подраздела Yahoo !. Благодаря тому, что классификация узлов выполняется людьми, а не компьютером, качество ссылок обычно очень высокое. Однако, уточнение поиска в случае неудачи – сложная задача. В состав Yahoo ! входит поисковый механизм AltaVista , поэтому в слу­ чае неудачи при поиске на Yahoo ! автоматически происходит его повторение с использованием поискового механизма AltaVista . Затем полученные результаты передаются в Yahoo !. Yahoo ! обеспечивает возможность отправлять запросы для поиска в Usenet и в Fourl 1, чтобы узнать адреса электронной почты.

К российским поисковым машинам относятся:

1. Rambler.Это русскоязычная поисковая система. Разделы, перечисленные на домашней странице Rambler , освещают русскоязычные Web -ресурсы. Существует классификатор информации. Удобной возможностью работы являет­ся предоставление списка наиболее посещаемых узлов по каждой предложенной тематике.

2. Апорт Поиск. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer . Одним из преимуществ Апорта является англо-русский и русско-английский перевод в режиме online запросов и поисков результата, благодаря чему можно вести поиск в русских ресурсах Internet , даже не зная русского языка. Более того можно искать информа­цию, используя выражения, даже для предложений. Среди основных свойств поисковой системы Апорт можно вы­ делить следующие:

Перевод запроса и результатов поиска с русского на англий­ ский язык и наоборот;

Автоматическую проверку орфографических ошибок за­проса;

Информативный вывод результатов поиска для найден­ных сайтов;

Возможность поиска в любой грамматической форме;


язык расширенных запросов для профессио­нальных пользователей.

К другим свойствам поиска можно отнести под­ держку пяти основных кодовых страниц (разных операционных систем) для русского языка, технологию поиска с использовани ем ограничений по URL и дате документов, реализацию поиска по заголовкам, комментариям и подпи­ сям к картинкам и т. д., сохранение параметров поиска и опреде ленного числа предыдущих запросов пользователя, объединение копий документа, находящихся на разных серверах.

3. List . ru (http://www.list.ru ) По своей реализации этот сервер имеет много общего с англоязычной системой Yahoo !. На главной странице сервера располо­жены ссылки на наиболее популярные поисковые категории.


Список ссылок на основные категории ката­лога занимает центральную часть. Поиск в каталоге реализован таким образом, что в резуль­тате запроса могут быть найдены как отдельные сайты, так и рубрики. В случае успешного поиска выводится URL , назва­ние, описание, ключевые слова. Допускается использование языка запросов Яндекс. С сылка "Структура каталога" открывает в отдельном окне полный рубрикатор ката­ лога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок. Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях струк­ туры, представлены и в рубриках. Показываемый список ресурсов упорядочен в алфавит­ном порядке, но можно выбирать сортировку: по вре­ мени добавления, по переходам, по порядку добавления в каталог, по популярности среди посетителей каталога.

4. Яndex. Программные продукты серии Яndex представляют набор средств полнотекстовой индексации и поиска текстовых данных с учетом морфологии русского языка. Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, паук.

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами в локальной и в глобальной сети, а также может быть подключен как модуль к другим системам.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: