Опубликовано 13 июля 2010 года
Презентация проекта Pirate Pay (он же «Пираты Платят»), состоявшаяся на позапрошлой неделе на Microsoft BizSpark, вызвала всплеск бурных эмоций среди тех, кто наблюдал за ходом конференции через Twitter. Что и не удивительно: любой проект, связанный с борьбой с пиратством, с точки зрения большинства обитателей Сети, — чистейшее злодейство. А тут речь шла, вдобавок, не о традиционных попытках кого-то за что-то наказать, а о сугубо технической профилактике пиратства, и это парадоксальным образом ещё и подогрело всех тех, кто строчил в Twitter под #startuppoint крепкие выраженьица.
Так о чём, собственно, речь? В рамках проекта Pirate Pay разработаны технические средства, позволяющие фильтровать «пиратский» torrent-трафик. Как именно, рассказывает директор по развитию проекта Дмитрий Шуваев.
- Всё-таки как всё это работает с технической точки зрения?
- Исполнительные модули Pirate Pay устанавливаются в сетях операторов связи. Они контролируют Bittorrent-трафик и анализируют поисковые запросы. Запрашиваемый контент сравнивается с базой данных запрещенного контента. В случае если контент запрещен к распространению, пользователь просто не получает в ответ от трекера список пиров (IP-адресов других пользователей, раздающих контент). И соответственно этот пользователь не может скачать контент.
- По каким именно характеристикам определяется, что законно, а что нет?
- Правообладатель самостоятельно определяет контент, доступный к распространению, а также то, что следует исключить. Система просто накладывает эти параметры на проходящий трафик и определяет его разрешённость/запрещённость. По большому счету, наши роботы скачивают этот контент сразу после появления в Сети, классифицируют его по нашим уникальным алгоритмам и запрещают или разрешают его к раздаче независимо от воли торрент-агрегатора.
- То есть, фактически отбор идёт вручную?
- Нет. Это делает система, сверяющая контент по определённым признакам.
- Вот вы упомянули о том, что вам нужен лоббист. Вы делаете ставку на то, что Госдума обяжет провайдеров ставить себе вашу разработку?
- Мы не делаем ставку на этот подход, но это один из путей быстрого развития. Действительно, это особенность Pirate Pay вызывает у многих наибольший скептицизм. Здесь есть два способа.
Первый — это действительно законодательная основа, когда установка Pirate Pay является обязанностью оператора. И надо сказать, что возможность пойти по этому пути мы уже обсуждаем как с правообладателями, так и с законотворцами. И разумеется, мы заинтересованы в том, чтобы, оценив эффективность нашей системы, представители власти посодействовали её развитию с организационной точки зрения.
Второй, и более привлекательный, как нам кажется, — это создание системы дистрибуции легального контента в сети Bittorent. В этом случае провайдер уже получит материальную выгоду от работы нашей системы в своих сетях. Более того, нам достаточно установить систему на сетях 4 крупных провайдеров для того, чтобы «охватить» до 80% всех пользователей.
- На самом деле государство давно уже поднимало вопрос на эту тему, но никаких усилий не прилагало.
- Суть в том, что вопрос регулярно поднимается, но в законодательстве нет прописанной процедуры определения медийного контрафакта. Нет элементарных понятий и определений. Не говоря уж о нормативных мерах и тем более — оформленных технологиях. Все меры, которые применяются, направлены на последствия, а не на устранение причин. Поэтому изменения необходимы, и Госдума это подтверждает. Вопрос — кто сейчас будет этим заниматься. И в течение какого времени.
- А не проще ли тогда по закону просто запретить торрент-трафик?
- В основном, однако, его не для легальных нужд используют...
- Вопрос в том, чтобы привести его в так называемое легальное состояние. По-честному. Никто не собирается устраивать «охоту на ведьм». Предлагается платить разумные деньги за результаты интеллектуального труда, скажем, по пять рублей за единицу контента, и правообладатель заработает неплохие деньги.
- Это пользователю предполагается платить пять рублей?
- Да, пользователю. Пять рублей за HD-фильм, к примеру. Никакого труда не составляет связать биллинговую систему с системой биллинга провайдера. И никаких проблем, если у тебя есть лишние пять рублей, отчего бы не купить фильм? Это не доллар за трек, как в iTunes. Более того, большинство пользователей и рады бы заплатить, но нет такого механизма получения качественного контента и оплаты «в один клик» — приходится воровать. Большинство пользователей действительно законопослушные люди, но им негде брать многое из того, что они хотят увидеть и услышать. Ну, а если файлообменники «отрубить» вообще, то уйдет прекрасная возможность распространения легального контента, например, авторского кино, альбомов, — того же Налича, и так далее.
- А как вы считаете, правообладатели с такими цифрами согласятся? — с пятью рублями-то?
— Они сейчас вообще ничего не получают. Тут ведь вопрос общих масштабов: либо 1 млн. рублей, отсуженный у одного несчастного пользователя, который квартиру, дом продал, последнюю рубашку с себя снял, чтобы расплатиться, либо это — по рублю с миллиона. Вот ведь разница. Главный вопрос заключается в готовности поставщиков контента принять и понять такую схему. У нас большинство пользователей не такие злобные пираты, только 5-10% являются «идейными». Ну и более того, если автор захочет распространять свой контент бесплатно — это его право.
- С Российским авторским общество какие-либо контакты налаживаете?
— Да, мы налаживаем контакты с организациями, занимающимися коллективной защитой прав. Пока у нас идёт такая масштабная работа, взаимодействуем со всеми структурами подобного рода. Достаточно активно сотрудничаем с Российской ассоциацией DVD-издателей. РАО пока не трогали...
- РАО себе наработало достаточно одиозную репутацию...
— Вот именно, что одиозную, потому что, по большому счету, то, что они делают — это мягко говоря, неправильно.
- По факту закон сейчас позволяет брать деньги с исполнителей собственных произведений, потому что они, дескать, не пошли на поклон в местное отделение РАО и не купили там лицензию на собственный концерт.
— Это один из примеров того, как чиновники пишут под себя законы — и лоббирование осуществляется только для этого. Да, мы тоже ждем поддержки от государства, но только для того, чтобы централизованно реализовать механизм эффективной борьбы с контрафактом в Сети. И более того мы предлагаем прозрачную схему для всех участников процесса, в котором, все-таки, главную роль играет автор (или правообладатель). В других моделях решения проблемы это вряд-ли получится.
Опубликовано 14 июля 2010 года
Поисковик «Яндекс» начал использование системы поиска, которая позволяет искать по только что созданным документам — буквально через минуты после их появления. В пресс-релизе компании сообщается, что количество запросов, в ответ на которые нужна самая свежая информация, в дни важных событий достигает восьми процентов, а в обычные — около двух. Новые алгоритмы позволяют поисковику удовлетворять этот спрос.
В основе этой системы — новый поисковый робот под названием Orange. Он отслеживает появление в интернете новых страниц и буквально за секунды включает их поисковую базу. Когда происходит поиск, их оттуда извлекает так называемый «Real-Time поиск». В блоге компании сообщаются некоторые подробности устройства нового поискового механизма. В частности, говорится о том, что в первую очередь он старается обращать внимание на новостные и прочие часто обновляемые сайты.
Сообщается также, что обе технологии были созданы в калифорнийской офисе компании в рамках инициативы Yandex.Labs. Федор Романенко, менеджер качества поиска, раскрыл для «Компьютерры» некоторые детали.
- Есть ли у быстрого робота какие-то особенности индексации? Или же это просто отдельная версия обычного поиска, ориентированная на часто обновляющиеся сайты?
Задача двух новых технологий Яндекса — робота «Orange Crawler» и «Real-Time поиска» — уменьшить до считанных секунд время появления новых важных страниц в поиске, которое раньше можно было сократить для части документов до 20 минут (но не устранить полностью), а также рассчитывать ссылочные факторы, которые используются для отбора самых интересных страниц и их ранжирования на поиске.
Для этого робот Orange должен уметь обрабатывать и индексировать документы (в частности, рассчитывать ссылочные факторы ранжирования) по одному, в отличие от большого робота, который сортирует страницы «пакетами» — какое-то время готовит версию индекса с новыми документами, обрабатывая сразу много страниц, потом выкладывает её на поиск. Обработка документов по одному позволяет сократить до секунд время выкладки конкретного документа, но более затратна с точки зрения нагрузки на сервера; к тому же она не позволяет вычислять факторы ранжирования, основанные на глобальной статистике по всем страницам, и факторы класса PageRank.
При этом Orange и «большой робот» работают вместе: новый робот подготавливает «быструю» часть поисковой базы, которая должна использоваться совместно с основной базой.
Другая новая технология Яндекса — «Real-Time поиск» — на ходу добавляет документы в поисковую часть по одному за секунды (обычный поиск работает на индексе, который обновляется целиком с некоторой периодичностью).
- Чтобы показывать наиболее актуальные результаты, найденные быстрым поиском, их нужно ставить выше в выдаче поисковика. Значит ли это, что сайт, обновляющийся чаще, получит преимущество при ранжировании?
Задача поисковика — выдавать релевантную информацию по любому запросу. Необходимо понять, обязательно ли релевантный ответ на конкретный запрос должен быть свежим. Если должен, и на некотором сайте есть релевантные свежие страницы, то они могут быть показаны в результатах поиска. Но сам факт свежести страницы не является достаточным, релевантность определяется с помощью сотен факторов ранжирования с применением технологии Матрикснет.
- Входят ли блоги и социальные сети в круг индексируемых быстрым поиском сайтов или ими отдельно занимается движок «Яндекс.Блогов»?
Да, Orange работает в связке с поиском по блогам «Яндекса» и получает от него информацию о новых постах. Но он индексирует её не на 100%, отбирая более ценные сообщения по разным критериям — в их числе, например, авторитетность блога. Это связано, в частности, с тем, что блогохостинги — очень крупные сайты, имеющие ограничения на количество скачиваний url в сутки.
- В пресс-релизе сказано, что быстрый поиск стремится находить в первую очередь новости. Используется ли для этого каким-нибудь образом алгоритм «Яндекс.Новостей»? Использует ли быстрый поиск каналы RSS, отдаваемые сайтами?
Мы используем много разных способов получения сигналов о появлении новой информации в интернете. Один из механизмов — из RSS-потоков партнеров "Яндекс.Новостей"; в то же время, Orange умеет и самостоятельно обнаруживать и прокачивать RSS-потоки в интернете, частота переохода которых зависит от авторитетности сайта. Общая рекомендация для вебмастеров — помимо создания RSS-потоков не забывать ставить на них ссылки из заголовков html страниц вида , это увеличивает шанс обнаружения RSS-потока и получения им большего веса
- Требует ли быстрый поиск какого-то особенно быстрого канала? Или те секунды, за которые он срабатывает — это и есть скорость скачивания страниц?
Средняя скорость скачивания страницы из интернета находится в пределах одной секунды. Orange не нужно скачивать больше страниц, чем «большому роботу», который вынужден регулярно освежать все когда-то скачанные страницы. Таким образом, никаких специальных требований к скорости канала для Orange нет.
- Быстрый поиск устроен как распределённая система — есть ли у «Яндекса» другие сервисы, построенные тем же образом?
Практически все сервисы «Яндекса» работают на кластерах, однако у каждого сервиса своя специфика, поэтому в «Яндексе» применяются разные ПО и библиотеки для распределенной обработки запросов.
Большинство наших крупных сервисов, кроме, например, «Яндекс.Почты» или «Яндекс.Директа», требуют моментального ответа на запрос, но не требуют моментальной обработки данных. Поэтому задача, которую нам пришлось решать для создания архитектуры «свежего» поиска, нетипична — в её рамках мы должны одновременно обрабатывать огромное количество страниц, но таким образом, чтобы задержка для каждой измерялась секундами. Робот Orange и «Real-Time поиск» — первые проекты на этой технологи; возможно, в будущем она будет применяться и для других сервисов «Яндекса».