По содержанию Internet представляет собой кладезь информации, а по способу ее организации – огромную свалку. Но, к счастью, положение не столь безнадежно – найти необходимую информацию помогают каталоги и поисковые машины.
Работа поисковых систем, к которым часто и при этом ошибочно относят и каталоги, полностью автоматизирована и ведется по следующей схеме: сканирование ресурсов с помощью программы-робота, формирование индексной базы данных и, наконец, обслуживание запросов по ключевым словам. Как бы ни были популярны каталоги, должно быть понятно, что реальную доступность информации в Internet во всем ее объеме могут обеспечить только автоматические индексы.
Каким же поисковым машинам отдают предпочтение пользователи?
По различным электронным опросам на тему «Какими поисковыми системами Вы пользуетесь?» в России распределение результатов примерно таково:
• Яndex – 47 %;
• Rambler – 21 %;
• Апорт – 10 %;
• Google – 6 %;
• Altavista – 5 %;
• Mail.Ru – 4 %;
• Yahoo! – 4 %.
Каким же образом пользуются поисковыми машинами для популяризации сайта? До сорока процентов посетителей переходят к нужным ресурсам по ссылкам из поисковых систем. Поэтому правильное индексирование в них сайта, то есть соответствие его содержания запросу, должно быть предметом особой заботы.
Как происходит индексирование? Либо робот поисковой машины добирается до вашего сайта по ссылкам, либо вы сами отмечаете его на странице регистрации, которая существует в любой поисковой системе. В первом случае процесс индексирования может затянуться, во втором вам потребуется затратить свое время.
Для правильной индексации сайта требуется учесть следующее:
• страницы сайта должны быть текстовыми. Текст на графических изображениях поисковые машины не распознают. Правда, текст в атрибуте ALT тэга IMG обычно индексируется;
• в каждом документе сайта обязательно должны присутствовать вразумительный заголовок (тэг TITLE), ключевые слова (метатэг NAME="keywords") и краткое описание (метатэг NAME="description");
• следует подготовить файл robots.txt, а также ввести в документы метатэг NAME="robots";
• желательно регистрировать сайт в каждой интересующей вас поисковой машине вручную и в дальнейшем контролировать его индексирование.
После регистрации сайта в различных поисковых системах следует добиваться того, чтобы ссылка на него при поиске входила хотя бы в первый десяток (а лучше, если в этом десятке будет несколько ссылок на ваши документы).
Информационно-поисковые системы
Каталог – это, как правило, база данных, в которой хранятся адрес ресурса и его описание. Описание ресурса делается либо составителями каталога (как, например, на Yahoo!), либо тем, кто хочет включить его в каталог. В поисковой системе все происходит иначе.
Поисковые машины – это полностью автоматизированные системы, сканирующие сеть Internet. Ее сетевой агент (робот, «паук», «червяк») обходит все заданные ему серверы и собирает у себя индекс, то есть информацию о том, что и на какой странице было найдено. Сетевые агенты – это, по сути, программы, которые исследуют структуру гипертекста в Internet. Переходя от одного документа к другому, роботы передают собранную информацию поисковой системе, которая заносит ее в свою базу данных.
Основными функциями поисковых систем являются следующие:
• сбор статистики. Первые роботы были созданы именно для этого и определяли число страниц на сервере, типы присутствующих на нем файлов, их соотношения, средний размер страницы и т. д.;
• обслуживание. Имеются в виду такие функции, как сбор информации о неисправных ссылках и обновленных документах, проверка ссылок сайтов, авторы которые самостоятельно подали регистрационную заявку, и др.;
• поиск новых ресурсов. Необязательно регистрировать сайт собственноручно – это может сделать робот, поскольку он постоянно ищет новые ресурсы. Однако может уйти много времени.
Полнотекстовые поисковые машины индексируют все слова, найденные на Web-странице, за исключением стоп-слов (обычно малоинформативных и имеющих незначительную частоту употребления, например, союзов и предлогов).
Каждый день поисковые системы «прочесывают» Web-сайты и сохраняют текстовую информацию в своих огромных каталогах, чтобы завсегдатаи Internet могли по ключевым словам получить список Web-страниц. Как правило, в результате находятся сотни соответствующих запросу ресурсов, но отображаются они на экране «порциями» по 10–25 записей. В первую очередь выведены наиболее подходящие, согласно оценке поисковой системы, страницы.
В связи с этим становится понятным нарастание интереса разработчиков Web-узлов к поисковым службам, которые оказываются в состоянии обеспечить до 40 %, а в некоторых случаях, и до 70 % обращений к сайту.
Использование поисковых систем для продвижения Web-узла не может гарантировать успеха, если разработчик не учел целый ряд тонкостей этой процедуры. Так, далеко не всегда очевидно, какие из поисковых систем наиболее значимы для увеличения посещаемости. Исчерпывающий ответ на этот вопрос может дать только анализ статистики посещений узла после регистрации. Кроме того, чтобы обеспечить практическую, а не только теоретическую доступность своего сайта из списка отклика по тому или иному запросу, необходимо учитывать особенности функционирования отдельных сервисов.
Поиск информации в русскоязычной части Internet облегчает существование специальных поисковых средств. Принцип их действия аналогичен работе традиционных баз данных, когда в ответ на ввод ключевого слова выдается перечень документов, содержащих искомое понятие. Эти системы являются, по сути, базами таких слов, пополняемыми при периодическом сканировании содержимого серверов Internet. С помощью специальных программ-роботов поисковые системы регулярно обследуют Internet, фиксируя, как вновь появившиеся, так и обновленные ресурсы, и удаляя сведения о ресурсах, вышедших из употребления. Этот колоссальный материал с указанием ссылок на то, где хранится каждое слово, содержится в виде гигантских индексных файлов, к которым и обращаются поисковые системы при конкретном запросе.
Достоинства и недостатки поисковых машин определяются различными характеристиками. Принципиальным является то, насколько полно система обследует документы: все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, первых нескольких строк или страниц текста, и т. д. Важна также периодичность обновления данных и критерии оценки понятий при определении степени их соответствия запросу. Не последнюю роль играют простота и удобство интерфейса, возможность использовать булевы операторы (операторы математической логики) и операторы расстояния между словами в тексте документа, а также дополнительные сервисные функции, например, поиск новостей, музыкальных файлов, товаров, и т. д.
В обслуживание, осуществляемое информационно-поисковой системой, входит предварительная обработка текста, в том числе составление индекса, по которому затем происходит поиск. Такая поисковая система может быть организована как база данных с текстовыми полями. Другой вариант организации – работа с внешними текстами. В этом случае тексты сохраняют первоначальный вид, то есть остаются файлами в файловой системе, страницами на сервере или полями какой-то другой базы данных, а индекс снабжается лишь ссылками на соответствующие источники.
Работа с поисковыми средствами требует от пользователя определенного опыта и навыков.