Поисковая система Rambler
Поисковая машина Rambler (http://www.rambler.ru/) – первая в России профессиональная поисковая система. Ее владелец – компания «Рамблер Интернет Холдинг». Роботы Rambler игнорируют зарубежные сайты, сканируя находящиеся в доменах: Российская Федерация (.ru, su), Украина (.ua), Белоруссия (.by), Казахстан (.kz), Киргизия (.kg), Узбекистан (.uz), Грузия (.ge). Определение принадлежности сайта производится по формальному признаку – домену первого уровня в URL.
Rambler объединяет в себе поисковую систему, рейтинг-классификатор, а также ряд бесплатных сервисов и информационных проектов. Все программы реализованы на базе собственных технологических разработок.
Поисковый механизм Rambler, запущенный в эксплуатацию в 1996 году, стал первой из российских поисковых систем, включенной в стандартные возможности обозревателя Internet Explorer компании Microsoft. Весной 1997 года начала работать рейтинговая система Rambler\'s Top100. Спустя три года, 7 марта 2000 года, был зафиксирован миллиардный посетитель страниц, зарегистрированных в рейтинге.
В июле 2000 года открыт ресурс Словари (http://www.rambler.ru/dict/). Новый интерактивный сервис реализован при поддержке российского издательства «Русский язык».
Страница поиска Rambler, показанная на рис. 3.8, позволяет задать поисковую фразу, перейти на страницу расширенного поиска (рис. 3.9) с помощью ссылки Расширенный поиск, а также воспользоваться другими сервисами (Магазины, Недвижимость, Телеканал, Поиск файлов, Словари, Карты и пр.).
Рис. 3.8. Страница поиска Rambler
Рис. 3.9. Страница расширенного поиска Rambler
На странице расширенного поиска можно выбрать, где следует искать информацию – во всем документе или только в той его части, которая может быть конкретизирована, для чего следует настроить переключатель Поиск по тексту на одно из следующих положений:
• всего документа;
• названия (
• гиперссылок.
Кроме того, с помощью переключателя Искать слова запроса можно уточнить логику: все («и»), хотя бы одно («или») либо точную фразу.
Переключатель Язык документа дает возможность сообщить поисковой системе, на каком языке должен быть написан искомый документ: на любом, русском, английском или украинском.
Сузить область поиска можно, воспользовавшись переключателем Расстояние между словами запроса, указав интервал дат, формат документа (любой, HTML, Microsoft Word), конкретный сайт, а также задав слова, по которым определенные документы исключаются из поиска.
В разделе Вывод результатов размещены три опции, позволяющие отрегулировать отображение результатов поиска: отсортировать по релевантности (либо сайтов, либо страниц) или по дате (в прямом или обратном порядке), настроить число выдаваемых на странице записей (15, 30 или 50) и, наконец, выбрать форму представления результатов связанных запросов: показывать отдельной колонкой или внизу страницы.
На странице результатов поиска, изображенной на рис. 3.10, Rambler показывает число найденных сайтов и уникальных документов.
Уточнить результаты поиска можно, сделав дополнительный запрос при включенных опциях в новостях или в найденном.
Роботы Rambler при сканировании игнорируют поля
Текст, невидимый на странице (то есть набранный шрифтом, цвет которого соответствует цвету, заданному тэгом BACKGROUND), роботы Rambler не индексируют, равно как и комментарии в документе. Каждый комментарий увеличивает размер документа, а значит, снижается вероятность того, что он будет просмотрен до конца.
Значимость HTML-тэгов, к которым следует отнести базовые понятия и ключевые слова, следующая (в порядке убывания):
•
•
•
;• , .
Чем чаще слово встречается в комбинации этих полей, тем вероятнее, что поисковая система Rambler поместит документ ближе к началу списка, в котором отражены результаты поиска. Кроме того, значимость поискового слова тем выше, чем ближе оно к началу документа.
Использование фреймов в документе не способствует успешному поиску. Это не означает, что роботы не умеют сканировать фреймы. Просто отдельный отсканированный фрейм не позволяет получить представление о целом документе. Данное замечание не относится к случаю, когда фреймы в документе используются исключительно для улучшения навигации. Роботы Rambler прекрасно справляются с конструкциями фреймов, однако в текст таких документов рекомендуется включать тэг
Поисковый сервер Rambler автоматически исключает из индекса слова, встретившиеся более чем в 800 000 документов. Такие слова не являются информативными при поиске, и в 99,9 % случаев можно обойтись без них.
Предельная внимательность необходима при указании перекрестных ссылок в документе. Надлежит проверить работоспособность каждой из них, иначе роботы не смогут добраться вглубь дерева документов. Следует также иметь в виду, что с точки зрения протокола HTTP две следующие записи различны:Обычно при запросе по первой ссылке робот получит переадресацию на вторую, а значит, извлечет сам документ только на следующем проходе при обращении к серверу. В итоге замедлится индексация сайта.
Максимальный размер документа для роботов Rambler составляет 200 Кб. Документы большего размера урезаются до указанной величины.
Роботы Rambler обрабатывают ссылки типа , однако наряду со ссылкой такого вида рекомендуется поместить в текст документа конструкцию
Часто изменяющиеся (динамические) документы рекомендуется исключить из списка индексируемых, так как они быстро теряют актуальность. Выполняется эта процедура с помощью стандартного для HTTP механизма – посредством файла robots.txt в головной директории вашего сайта.
Части документа, не требующие, по вашему мнению, индексации, можно отделять в документе с помощью тэгов
При написании документов не оставляйте без внимания раскладку клавиатуры. Часто вместо русской буквы р используют латинскую p. Некоторые подобные ошибки индексатор исправляет, но не все. Слова с такими опечатками теряют информативность. Старайтесь не использовать символов переноса (-), поскольку иногда трудно определить, что они означают – перенос слова или его написание через дефис. Помните, что браузер осуществляет представление документа согласно текущим установкам каждого конкретного пользователя.
Отнеситесь серьезно к планированию и размещению вашего сайта, чтобы вам не приходилось направлять письма администраторам с просьбами переиндексировать ваш сайт в связи с изменением его адреса или структуры. Поисковые машины нескоро учитывают коррективы такого рода.
Поисковая система Апорт
Поисковая машина Апорт (http://www.aport.ru/, владелец – компания «Голден Телеком», http://www.goldentelecom.ru/) имеет богатые возможности формирования запроса, в частности способна отслеживать сочетания терминов, если они находятся недалеко друг от друга (на расстоянии нескольких слов или предложений).
Апорт – двуязычная поисковая машина. Будучи наделенной теми же основными характеристиками, что и AltaVista, она содержит намного больше ресурсов современного российского Internet. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer.
Основные свойства Апорт таковы:
• автоматическая проверка орфографических ошибок запроса;
• информативный вывод результатов поиска по найденным сайтам;
• возможность поиска любых грамматических форм, что особенно важно для русского языка;
• мощный язык расширенных запросов для профессиональных пользователей.
Дополнительные свойства:
• технология поиска с использованием ограничений по URL (адресу) и дате документов;
• осуществление поиска не только по тексту, но и по заголовкам, комментариям, подписям к картинкам и т. д.;
• сохранение параметров поиска и определенного числа предыдущих запросов пользователя;
• объединение копий документа, находящихся на разных серверах.
Апорт является совершенной полнотекстовой поисковой машиной с интегрированным каталогом Internet-ресурсов. Подобная интеграция позволяет систематизировать результаты поиска по рубрикам, представленным в каталоге, и осуществлять поиск отдельно по тематикам, что делает навигацию по ресурсам очень удобной.
Поисковый робот Апорт обходит весь российский Internet в среднем за две недели. Он сам настраивается на скорость обновления сайтов и отдельных страниц и проверяет наиболее часто обновляемые ресурсы.
Документы индексируются следующим образом. При просмотре содержимого сервера для индексирования Апорт обязательно проверяет файл robots.txt. Таким образом, вы можете использовать его, чтобы ограничить «деятельность» системы на своем сервере. При желании установить селективные ограничения только для Апорт следует использовать в качестве имени робота слово Aport.
Будучи полнотекстовой поисковой машиной, Апорт индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текстов ваших документов может служить критерием последующего поиска. Для документов HTML, кроме обычного текста, индексируется также и содержимое ряда полей. К ним относятся заголовок документа (TITLE), ключевые слова (META NAME="keywords"), описания страниц (META NAME="description"), подписи к картинкам (ALT), ссылки (A HREF). Реализована возможность избирательного поиска по этим полям. Кроме того, Апорт индексирует как принадлежащие документу тексты гиперссылок на него с других страниц, находящихся как внутри сайта, так и за его пределами, а также составленные или проверенные редакторами описания сайтов из своего каталога.
Кроме того, Апорт индексирует текстовые файлы (с расширением. txt), на которые найдет ссылки.
Страница, показанная на рис. 3.11, позволяет задать поисковую фразу, выбрать тематический раздел и дополнительно сузить область поиска при помощи переключателя сайты – рефераты – знакомства – mp3 – новости – энциклопедия – работа – товары. Кроме того, возможно применение в строке запросов операторов логики и расстояния между словами, а также поиск по адресам и полям, что значительно расширяет область поиска.
Вы можете искать документы не только по всему русскоязычному сектору Internet, но и по его части. Самый простой случай – поиск по определенному серверу. Например:
url=www.inotec.ru программа
По данному запросу будут найдены все документы на сервере www.inotec.ru, содержащие слово «программа».
Для получения списка всех документов, расположенных на указанном вами сервере, следует набрать в строке запроса следующую фразу:
url=www.inotec.ru
На странице, изображенной на рис. 3.12, Апорт показывает количество найденных сайтов и документов в поле Лучшие … сайтов (… документов). В дальнейшем результаты выводятся по сайтам, однако возможность поиска отдельных документов сохраняется постоянно.
Каждый основной информационный блок начинается с символа «домик»
который обозначает сайт (в противоположность символу «страничка»
обозначающему отдельный документ). Обычно поисковые системы подразумевают под понятием «сайт» адрес сервера типа www.server.com (его доменное имя). В этом случае адрес сайта определяется по адресу страницы простым отбрасыванием правой части: так, из http://www.server.com/users/~vasya выводится www.server.com. Для больших серверов, где размещены сайты множества фирм или частных лиц, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения группы страниц, являющихся логическим целым (сайтом), Апорт использует информацию из базы данных своего каталога, что обеспечивает большую точность, нежели любой автоматический алгоритм (специальные алгоритмы используются для незарегистрированных в каталоге сайтов).
В блоке каждого сайта Апорт приводит информацию об одной – самой подходящей – из найденных на сайте страниц. При этом, кроме обычных для поисковых машин данных (адрес, заголовок, размер и дата файла и т. п.), система выдает цитаты из документа. Они выбираются из полного текста и содержат искомые слова. По цитатам зачастую легко понять, интересует вас документ или нет.
Здесь же вы найдете ссылку на реконструкцию полного текста документа. Она нужна, если документ недоступен на самом сайте.
Чтобы получить информацию обо всех остальных страницах, которые Апорт нашел на сайте, следует воспользоваться ссылкой, замыкающей блок результатов. Нажав указанную ссылку, вы откроете дополнительное окно с результатами поиска по данному сайту. Они разбиты на постраничные блоки данных.
Очевидно, что поиск может считаться успешным, если удается найти нужную информацию на одной из первых страниц с результатами поиска. В этом отношении очень важна сортировка полученных данных. Перечень основных критериев, которые Апорт учитывает при сортировке документов (сайтов), следующий:
• процентное соотношение искомых слов со всеми словами в тексте документа и расстояние между поисковыми словами;
• место в тексте, где встречаются поисковые слова (заголовок, описание, метатэг и т. п.);
• внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);
• количество внешних ссылок из Internet на данный документ. Разработчики Апорта называют это количество Site Rank (Ранг сайта) или Page Rank (Ранг страницы);
• использование искомого слова в тексте ссылок из Internet на данный документ.
Окончательный процент соответствия документа запросу вычисляется как некая интегральная функция от всех этих показателей.
Последний из указанных критериев имеет самостоятельное значение. Если на какой-то сайт есть ссылка, состоящая, например, из слов «современная музыка», то естественно будет предположить, что эти слова (которые выбрал человек, писавший ссылку) могут достаточно точно описывать содержимое сайта.
Поэтому при поиске по слову «музыка» данный сайт должен получить довольно высокое место, поскольку по этому слову существуют ссылки на него с других ресурсов. Подобный подход значительно улучшает качество сортировки найденных документов. Кроме того, он приносит еще один очень интересный результат.
Представьте себе, что робот, добавляя в базу некий документ с сайта X, нашел ссылку на документ с другого сайта Y, который пока отсутствует в базе Апорта. Благодаря возможности находить документы и сайты по словам из ссылки Апорт сможет теперь найти сайт Y, хотя он еще не индексировался, а может быть, и не будет индексироваться (например, зарубежный ресурс). Эта замечательная возможность позволяет находить гораздо больше сайтов меньшими усилиями, используя запросы с русскими словами даже в зарубежных ресурсах, которые Апорт не индексирует.
Таким образом, индексирование ссылок, которое требует небольшого дополнительного времени, позволяет системе значительно расширить поисковое пространство. В итоге Апорт не только быстро добирается до различных «закоулков» русскоязычной части Internet, но и делает весьма широко доступной зарубежную Сеть, поскольку на многие интересные иностранные ресурсы есть ссылки и с российских сайтов.
В список ресурсов, индексируемых Апортом, может входить как целый сервер (например, www.rol.ru), так и его часть (например, www.company.ru/~vasya/). Последняя, однако, просуществует только до тех пор, пока родительский сервер не будет проиндексирован (www.company.ru в предыдущем примере). Родительский сервер поглотит дочерний ресурс, и тот станет его частью, потеряв самостоятельный статус.
В каждом самостоятельном ресурсе (обычно это сервер) периодически проверяется появление новых документов, изменение или удаление старых. Новые документы добавляются в базу данных, измененные удаляются из нее и добавляются уже в новом виде. Документы, которые не нашлись на сервере, из базы данных Апорта удаляются не сразу. Удаление происходит в том случае, если документ не доступен на сервере при нескольких обновлениях подряд. Таким образом, в целом база данных Апорта всегда содержит некоторое количество удаленных документов. Такой «исторический шлейф» не вреден, а иногда даже и полезен. Сохраняя его, Апорт позволяет иногда получить реконструкцию документа, который в оригинале уже отсутствует в Internet.
Для организации на своем сайте дополнительного сервиса – поиска в Internet – можно установить одну из поисковых форм Апорта (http://aport.ru/forms/forms.htm). Предлагаются два вида поисковых форм: простые и раскрывающиеся, которые устанавливаются на сайте в виде картинки и раскрываются в полноценную поисковую форму при наведении на них курсора (рис. 3.13).
Рис. 3.13. Одна из поисковых форм, раскрывающаяся при наведении на нее курсора
Чтобы добавить адрес своего сайта в базу поисковой системы Апорт, воспользуйтесь ссылкой Добавить сайт (http://www.aport.ru/addurl.php).
Поиск@Mail.ru
Поисковая машина Поuск@Mail.ru (http://www.mail.ru/) была запущена в эксплуатацию в июле 2003 года. Ее владелец – компания Mail.ru. Компании принадлежат крупнейшая электронная почтовая служба России @Mail.ru, одноименный портал, объединяющий более 20 различных сервисов и информационных проектов, популярный Internet-аукцион Molotok.ru, торговая площадка Torg.ru. В состав портала вошел также старейший каталог сайтов List.ru, некоторые службы рассылок и знакомств и др. Портал Mail.ru предоставляет пользователям практически весь спектр сервисов, существующих на сегодня в сети: почту, поиск, рейтинг и счетчик, бесплатный хостинг, почтовые рассылки, чаты, форумы, открытки, знакомства и многое другое. Особенно полно представлены сервисы, направленные на коммуникацию между пользователями. Поиск@Mail.Ru ищет на сайтах всего мира с учетом русской морфологии, исправляет опечатки и хранит персональную историю запросов и ответов. Несмотря на свою молодость, поисковая система стремительно набирает популярность, во многом благодаря доверию людей, давно пользующихся услугами почтовой службы Mail.ru.
Страница поиска (рис. 3.14) позволяет задать поисковую фразу, выбрать тематический раздел каталога и дополнительно сузить область поиска при помощи переключателя Интернет – Картинки – Каталог – Товары и лоты – Софт – Словари. Кроме того, можно перейти на страницу расширенного поиска (кнопка
), а также воспользоваться сервисом ввода данных с помощью мыши и виртуальной клавиатуры (кнопка
) – см. рис. 3.15.
Рис. 3.15. Виртуальная клавиатура Клавиатура@Mail.ru
В зависимости от заданных условий с помощью расширенного поиска вы найдете результаты:
• по всем словам запроса;
• по точной фразе;
• по любым из слов запроса;
• без указанных слов.
Кроме того, с помощью расширенного поиска можно искать:
• определенные типы документов (Adobe Acrobat PDF – .pdf, Adobe Postscript – .ps, Microsoft Word – .doc, Microsoft Excel – .xls, Microsoft Powerpoint – .ppt, расширенный текстовой формат – .rtf);
• страницы по дате их изменения (последние 3, 6 и 12 месяцев);
• результаты, содержащие слова в различных местах страницы (в заголовке, в основной части, в адресе страницы, в ссылках на данную страницу);
• документы на определенном сайте или, наоборот, исключить его из сферы поиска;
• похожие страницы;
• ссылки, которые указывают на интересующую вас страницу.
По умолчанию поисковая система выдает результаты (рис. 3.16), полученные на сайтах всего мира, но, при желании, можно включить в зону поиска только русскоязычные сайты. При расширенном поиске, наоборот, по умолчанию система ищет только в русском Internet.
Функция «Вы искали» позволяет восстановить запросы, которые были ранее заданы поисковой системе. Она полезна в случае, если нужна какая-либо информация, которую вы находили некоторое время назад, но не можете вспомнить точную формулировку запроса.
Чтобы установить на своем сайте форму для поиска в Internet посредством Поиск@Mail.Ru, выберите ее на странице http://poisk.mail.ru/form/. Предлагаются разного размера формы: стандартные, цветные, экстравагантные и предложенные пользователями.
Для добавления адреса своего сайта в базу данных поисковой системы Поиск@Mail.ru, воспользуйтесь ссылкой Добавить сайт (http://poisk.mail.ru/cgi-bin/add_url.cgi).