Андрей Плахов ("Яндекс") о поисковой технологии "Спектр"

Автор: Юрий Ильин

Опубликовано 07 октября 2011 года

- Расскажите, пожалуйста, как появилась технология "Спектр" и для чего предназначена? На кого в первую очередь ориентирована?

- Как появилась? Мы в какой-то момент заметили, что люди чем дальше, тем больше задают запросов, сформулированных не до конца и не конкретно. Например, запрос "Ягуар", или "МГУ". Когда человек назвал какую-то организацию, или явление, или объект, но не понятно, что за объект и что именно он ищет про него. Про МГУ можно искать просто информацию, условия поступления, можно искать список факультетов, и так далее.

- Тем более, "МГУ" сейчас себя норовит называть каждый заштатный институт.

- Да, и это отдельная проблема. Под "Ягуаром" может подразумеваться автомобиль, животное, напиток – все, что угодно. Люди привыкли, что поисковые системы все точнее угадывают, что имелось в виду, поэтому таких запросов со временем становится больше, и нам нужно учиться обрабатывать их лучше.

Проблема была в том, что традиционные методы оценки не очень хорошо работают с такими запросами. Качество поиска оценивается рядом метрик, цифр. Есть много разных методик, но большинство их них не учитывают проблемы таких неоднозначных запросов – если все десять результатов примерно про одно и то же, это считается хорошо. Нужно было придумать способ измерять насущность этой проблемы и сделать такое ранжирование, которое бы с ней справлялось. Чтобы в выдаче были результаты и про то и про это, чтобы люди, ищущие разные вещи, находили для себя то, что нужно, и получали полный обзор по этому запросу. Так и появился «Спектр».

- Насколько я понимаю, полный обзор – это 100 страниц результатов. Как человеку ориентироваться?

- Все равно нужно каким-то образом вместить наиболее актуальную информацию в первый десяток результатов. Без некоторой потери смысла не обойтись. Мы работаем над тем, чтобы смысл терялся как можно меньше.

- Как давно задействована технология?

- Она запущена в конце прошлого года.

- И как вы оцениваете ее результаты на данный момент?

- Мы измеряем количество людей, которые не удовлетворены результатами поиска. Как мы это понимаем? Бывает, что человек задал свой запрос, увидел какие-то результаты, посмотрел на них, почитал и никуда не кликнул, а вместо этого закрыл браузер или задал другой запрос с целью все-таки что-то найти. Если такое происходит, то обычно это плохо. Число таких запросов с введением нового ранжирования уменьшилось.

- А какие-то средства противодействия манипуляциям результатами поиска задействованы?

- Да, они, конечно, нужны – более того, они обязательны. "Яндексу" есть на ком тренироваться, как отслеживать накрутки и так далее. На практике накрутками занимаются, чтобы подвинуть в выдаче не какой-то специфический результат, а свой собственный магазин, свой сайт. Если научиться такие стандартные накрутки отлавливать и с ними бороться – а мы это делаем постоянно – то те же методы могут быть использованы для более экзотических случаев.

На самом деле, за этим стоит некая этическая концепция. Хорошо все, чем хорошо пользоваться. Если люди ищут какой-то натуральный феномен, и результат сам по себе, действительно, набирает популярность, то мы не судим, хорошо это или плохо – нашим пользователям это интересно, значит, нужно найти и показать. Но мы должны бороться с накрутками, когда кто-то при помощи ботов или просто ручного труда низкооплачиваемых «роботоподобных» людей делает вид, что этот результат набирает популярность. Вот это то, с чем нужно бороться, и нужно отличать друг от друга эти вещи. Это чисто техническая задача.

- То есть даже "ботоподобных" людей можно отбивать программой-антиботом?

- Конечно. Они же по инструкции работают, все равно у них есть неестественные паттерны в поведении.

- Вот вы говорите про стандартные случаи накрутки, а нестандартные в техническом плане, что могут из себя представлять?

- В техническом? Ну, я, во-первых, сейчас не смогу ничего реалистичного предположить, потому что если мы об этом знаем, то оно уже не является чем-то нестандартным. Во-вторых, даже если я сейчас что-нибудь такое придумаю, то не хочется подавать идеи. Но, например, можно как-то более "материально" использовать таких "роботоподобных" людей. Или можно начать что-то вроде вирусной рекламы, которая будет рекламировать не товар, не сайт, а что-то другое. Но мы все равно научимся с этим справляться, как уже справились с другим хорошим примером нестандартной концепции – линк-бомбингом, когда на сайт ссылаются несколько разных людей по ссылкам, содержащим всякие нехорошие слова. Затем в социальных сетях появляются сообщения: смотрите, по этим нехорошим словам находится вот этот сайт, прикольно! И все начинают ретвитить такие ссылки или кидать их друг другу.

- Как вы оцениваете, скажем так, конкурентные преимущества "Яндекса", по сравнению с другими поисковиками, действующими в России? Правда, насколько я понимаю, их осталось совсем немного...

- В России основных игроков сейчас три: есть "Яндекс", есть русский Google и есть Mail.ru. По крайней мере с точки зрения бренда.

Насколько большим конкурентным преимуществом является качество поиска? Это не так очевидно, как запуск, условно говоря, новых сервисов, но есть точная корреляция между долей и качеством поиска, и она вполне понятна, потому что если человек задает запрос в поисковике и чего-то не находит, он легко ищет в другом.

Большинство людей знает, что поисковики бывают разные, и очень многие пользуются браузерами, где можно легко переключаться между разными поисковиками. И если вы хороший ответ не нашли, а конкурент нашел, то это серьёзный сигнал для пользователя к более частому переключению. Поэтому любое улучшение ранжирования помогает держать марку.

Сейчас вообще уже нет таких улучшений, которые бы сразу и однозначно поставили поисковик на первое место. Разве что кто-то создаст искусственный интеллект, который будет отвечать на все запросы. Поисковики почти все примерно одинаково хороши. Основная борьба сейчас разворачивается в отношении отдельных классов запросов, которые, может быть, не так часто встречаются, но зато очень важны для людей. Например, запросы о том, что только что случилось. Поисковики пытаются достичь такого уровня, чтобы отвечать в течение следующих пяти минут после события. Условно говоря, если что-то где-то взорвалось, в идеале нужно, чтобы через пять минут в поиске по запросу «взрыв» уже было что-то релевантное, хоть какие-то записи из Твиттера, например.

- Ну, это означает, что "паук" должен очень оперативно работать.

- Да, да, конечно. Но не только. Это означает изменения в ранжировании, потому что понятно, что у записей, посвященных тому, что только что появилось, нет никакого ТИЦ, никаких ссылок, ничего. Но, тем не менее, нужно понять, что это запись о чем-то важном. Такой подход требует изменений в антиспамерских инструментах, потому что если мы начинаем показывать больше нового, только появившегося, очевидно, что спамеры это поймут и подхватят. Роботу не сложно в час создать миллион страничек со словами "взрыв там", "взрыв сям", "авария там" на любой географический объект.

- Кстати, не было ли таких случаев, когда подкладывалась именно такая информационная бомба?

- Это сделать очень сложно. Фактически, способ, которым можно воздействовать на поисковик извне, автоматически должен воздействовать и на весь интернет тоже. То есть, грубо говоря, очень трудно "придумать" новость таким способом, чтобы она стала известна поисковику, но при этом не стала моментально известна людям. Вполне возможно, что взрыв в блогосфере иногда имеет, в том числе, и такую цель - привлечь людей дополнительно на новостной сайт. Пусть я фантазирую, я не уверен, что такое реально случалось, но вариант выгодный: пусть какая-то конкретная новость потом окажется фальшивкой, зато людей удалось завлечь на сайт, на котором могут быть еще какие-то завлекалочки...

Загрузка...