Цифровой журнал «Компьютерра» №19 - читать бесплатно онлайн полную версию книги автора Коллектив Авторов (Интерактив) #4

Интерактив

Оливер Хэкман (Youtube) о роботах, которые ищут пиратов Григорий Рудницкий

Опубликовано 31 мая 2010 года

Проблема соблюдения авторских прав постоянно преследует разработчиков YouTube. Пользователи загружали и продолжают загружать на крупнейший видеосайт пиратский контент, а правообладатели во всём винят Google, которому Youtube принадлежит. Как решить эту проблему? Вручную проверять каждый ролик — слишком долго и дорого. В Google разработали автоматическую систему распознавания нелегального видео Content ID.

Правообладатели передают компании Google копии видеофайлов, которые они хотели бы защитить от нелегальной публикации (для них это совершенно бесплатно). «Сигнатуры» подлежащих защите файлов хранятся в специальной базе данных, с которой сверяется каждый загруженный ролик. Если найдено совпадение, система помешает опубликовать видео или снабдит его рекламой, доходы от которой потекут в карман правообладателя.

Директор по разработкам YouTube Оливер Хэкман ответил на вопросы «Компьютерры» и рассказал о распознавании пиратского видео, фильтрации порнографии, новом интерфейсе сайта и HTML5.

- Сколько произведений зарегистрировано в базе данных Content ID? Есть ли среди них российские?

- Сейчас в нашей базе больше миллиона файлов. Мы обновляем её двумя способами. Когда владелец контента присылает нам файл, мы его добавляем в базу напрямую. Здесь используется два канала, причём первый работает несколько быстрее, чем второй. Мы пользуемся более скоростным каналом для обновления базы данных по спортивным мероприятиям, чтобы максимально быстро обеспечить защиту правообладателей именно в этой области. Если же речь идёт о защите контента, для которого оперативность не столь важна, то мы используем менее скоростной канал.

Что же касается объема российского контента в системе, то могу сказать, что референтного материала по российскому контенту у нас пока маловато, поскольку лишь один партнер выразил желание работать с нами – это телеканал Russia Today.

- Насколько часты ложные срабатывания Content ID?

- Их практически нет. Мы с самого начала проектировали систему именно таким образом, чтобы количество ложных срабатываний были минимальным.

- Почему порнографический контент практически никогда не встретишь на YouTube, а пиратское видео то и дело попадается? Как реализован процесс фильтрации порнографии? Кто занимается поиском порнороликов – программы или люди-модераторы?

- Вы говорите о двух фундаментально различающихся явлениях. Начнем с порнографического вопроса. У нас есть очень четкие правила сообщества, где сказано, что обнажёнка в таких-то пределах не допускается. Поэтому мы легко можем обучить наших сотрудников принимать решения даже в очень сложных ситуациях, связанных с порнографическим материалом. В отношении порнографии у нас работают как автоматизированные методы отбраковки, так и ручной просмотр. Вообще, с порнографией все достаточно просто. Любой человек поймет, что вот такое количество обнажёнки допустимо, а вот такое – уже нет. Но если говорить о трейлере какого-нибудь фильма, то мы зачастую сами не можем разобраться, хочет ли автор видео, чтобы его видела широкая публика, или нет. Приходится ждать какого-либо решения и сигнала правообладателя по данному вопросу. И как только мы получаем ту или иную рекомендацию, то сразу вводим в свою систему соответствующий алгоритм.

- Год назад Google сообщал, что на Youtube загружается около 11 часов видео в минуту. А сколько сейчас?

- С тех пор все изменилось. Теперь ежеминутно загружается 24 часа нового контента.

- Какой процент нарушающих права файлов фильтруется автоматически, а какой процент снимается по претензии правообладателя?

- Точной цифры я не знаю.

- Есть и другая проблема. Если речь идёт о каком-то громком событии или популярном фрагменте фильма, то его могут выложить на YouTube сразу несколько пользователей. В результате возникает никому не нужное дублирование файлов. Возможно ли решить эту проблему?

- Вы правы, меня это тоже раздражает. Мы в курсе этой проблемы и работаем над её минимизацией. Вместе с тем, она несколько сложнее, чем может показаться. Часто ролики хотя бы минимально, но различаются. Я полагаю, что автоматическое удаление идентичных роликов было бы неверным шагом. Ведь всегда есть мизерная вероятность того, что идентичный файл чем-то все-таки отличается от того, что уже есть. Возможно, что это мизерное отличие состоит в какой-то важной крупице информации. Проще говоря, у нас есть желание подступиться к этой проблеме, но конкретных способов её решения пока нет. Вообще говоря, здесь есть множество разных аспектов – этических, юридических. Мы обычно стараемся не редактировать список найденного по вашему запросу, хотя можно было бы и таким образом решить проблему дублирования.

- Не кажется ли вам несколько устаревшим десятиминутное ограничение длительности загружаемого файла?

- Напомню, что мы ввели это ограничение не по техническим причинам. Мы легко можем поддерживать файлы любой длины. Более того, некоторые привилегированные пользователи, прежде всего университеты, имеют право загружать материалы гораздо большей длительности. Правило десяти минут было введено для защиты авторских прав, чтобы затруднить загрузку целых фильмов или телепередач. Конечно, мы могли бы заявить, что поскольку сейчас у нас установлена система Content ID, которая полностью устраняет данную проблему. С технической точки зрения это правильно, но про человеческий фактор тоже ведь нельзя забывать. У нас пока недостаточно партнеров в рамках Content ID. Если большинство поставщиков контента воспользуется системой Content ID, мы спокойно сможем убрать десятиминутное ограничение.

Важно и другое. Есть существенная разница между просмотром видео по телевидению и в интернете. Самый популярные ролики в интернете обычно очень короткие и очень конкретные, их средняя длительность составляет от трёх до пяти минут. Поэтому десятиминутное ограничение кардинально не влияет ни на что. Но если оно действительно может создать серьёзные неудобства, мы снимаем это ограничение, что делается, к примеру, при публикации университетских лекций.

- Недавно на портале YouTube радикально поменялся интерфейс. С чем это было связано?

- Основная причина изменения дизайна страницы пользовательского канала состоит в том, что YouTube уже пять лет, но радикально при этом дизайн не пересматривался. Мы просто добавляли кнопку за кнопкой в течение всех этих пяти лет, а интерфейс постепенно становился все более тяжелым и запутанным. Например, у нас было очень много строк с текстом, размещенных в нижней части страницы, сейчас же мы оставили всего две строки, что выглядит гораздо аккуратнее и понятнее. То же самое касается и верхних блоков страницы, а также функций управления в самом плеере. Короче говоря, смена дизайна – это естественное событие в жизни любого веб-сайта.

При разработке нового интерфейса мы, конечно, в первую очередь старались реализовать и интегрировать запросы и пожелания наших пользователей. В одних случаях мы просто брали конкретные пожелания пользователей, в других – исследовали поведение посетителей сайта.

- Для отображения видео на YouTube используется формат Flash Video, а планируете ли вы реализовать поддержку и других форматов — к примеру, Silverlight?

- Основной критерий выбора тех или иных форматов состоит в их распространённости. Наша задача – сделать интернет-видео доступным для всех пользователей в мире. Мы используем Flash в ущерб всем остальным платформам по той простой причине, что в течение очень долгого времени Flash был самым популярным и поддерживаемым решением. Но недавно появился стандарт HTML 5, который становится всё лучше и лучше, и поддерживается всё большим количеством браузеров. По этой причине мы запустили специальную версию YouTube с поддержкой HTML5, и все желающие могут протестировать её работу. Что касается Silverlight, то его мы пока не рассматриваем, потому что не видим у него никаких преимуществ не только по сравнению с HTML5, но даже и по сравнению с Flash. При этом распространенность формата от Microsoft намного ниже.

На недавней конференции Google I/O было официально заявлено, что вместе с другими вендорами, в том числе с Mozilla, мы будем разрабатывать видеокодек открытого формата, который получил название WebM. Этот кодек должен стать открытым и общедоступным инструментом высокого качества. Разработчики всех основных веб-браузеров уже поддержали эту инициативу.

- Раз уж мы заговорили о HTML5, то вот ещё вопрос. Что делать с ограничениями HTML5? У HTML5-версии Youtube нет возможности полноэкранного просмотра видео, нет субтитров, нет пользовательских пометок на видео. А правообладатели наверняка будут жаловаться, что тэг video не снабжён DRM.

- Стандарт HTML 5 только начал развиваться. Трудно сразу же предположить, что он будет всерьёз конкурировать с другими технологиями. Недостатки, думаю, будут устраняться со временем. Все больше браузеров поддерживает HTML5 — это ведь открытый стандарт, и он также учитывается в рамках нашего проекта WebM. Мы надеемся принять участие и в стандартизации HTML5. Это многообещающая технология, но до тех пор, пока она не станет достаточно зрелой и качественной, мы будем ориентироваться на то, чем пользуется большинство наших посетителей, а у них, в основном, установлен Flash.

- Недавно на YouTube было внедрено распознавание речи, пока, правда, только для английского языка. Когда будет реализована поддержка и других языков, в частности русского?

- Честно говоря, не знаю. Я не представляю себе технологических масштабов этой задачи и не знаю, сколько людей в нашей компании занимаются её решением.

- С недавних пор на YouTube стало можно загружать и просматривать ролики с разрешением Full HD. Какой процент пользователей применяет эту возможность?

- Публично мы такую статистику не оглашаем. Могу лишь отметить, что Full HD становится всё более и более популярным, всё больше устройств его поддерживают. Уверен, что скоро Full HD завоюет позиции основного стандарта. Ведь дело не только в разрешении самом по себе, дело и в качестве пользовательского оборудования. Этому способствует и технологический прорыв в отрасли, связанный с внедрением стабилизаторов, устраняющих эффект дрожания руки при съемке видео высокого разрешения. Наверняка вы знаете сериал «Доктор Хаус» и уже видели его последний эпизод, который был снят не на обычном оборудовании, а с помощью фотокамеры Canon. Профессиональное или совместимое с профессиональным оборудование в последнее время заметно дешевеет. Раньше для съемки фильма в Full HD требовалось оборудование стоимостью в сотни тысяч долларов, сейчас же оно доступно даже любителям.

К оглавлению

DDoS: услуги интернет-киллеров для всех желающих Юрий Ильин

Опубликовано 01 июня 2010 года

Устроить DDoS-атаку сегодня может кто угодно — это просто и дёшево. Ботнеты — весьма ходовой товар у злоумышленников. В компании VeriSign подсчитали, что стоимость аренды ботнета в среднем составляет 9 долларов в час.

DoS-атаками называют попытки заблокировать доступ обычных пользователей к определённым сетевым ресурсам посредством перегрузки серверов, на которых эти ресурсы размещены, мусорным трафиком. Как правило под этим подразумевается отправка массированного потока бессмысленных запросов к серверу, который их не успевает обрабатывать, и в результате начинает функционировать с перебоями или отказывается работать вовсе. Распределённая DoS-атака (Distributed Denial of Service attack — DDoS) — её самая зловредная разновидность. Во время DDoS мусорный трафик исходит от очень большого количества источников. Если с простой DoS-атакой можно справиться, заблокировав адрес злоумышленника, то с DDoS всё сложнее — атакующих компьютеров слишком много.

Сейчас во Всемирной сети насчитываются миллионы заражённых компьютеров, входящие во множество мелких, среднемасштабных и крупных бот-сетей. По словам Михаила Вычижанина, начальника отдела эксплуатации компании «Оверсан-Скалакси», крупнейшими такими сетями на сегодняшний день являются сети ZeuS (3,6 миллиона ботов), Koobface (2,9 миллиона ботов) и Tidserv (1,5 миллиона ботов).

Принципы распространения ботнетов практически не претерпели изменений с прошлых лет, меняется только технологическая начинка. Механизмы fast flux, пулы сайтов, ориентированных на заражение компьютера пользователя, разнообразные http injections, уязвимости нулевого дня, обновления тел движков ботнета в клиент-серверном режиме — вся эта цепочка работает неизменно многие годы. Борьба между ботнетами тоже идёт вовсю.

"Есть определённые особенности текущего времени: это растущая конкуренция на рынке, которая заставляет вирусы (и, как следствие, ботнеты) «воевать» за ресурсы машины; эта конкуренция неизбежно ведет к войне ботнетов между собой, — говорит Вычижанин. — В ближайшие годы мы будем наблюдать эту постоянно увеличивающуюся борьбу за ресурсы конечного пользователя", — пояснил Вычижанин.

Разработчики ботнета руководствуются принципом: «Ботнет должен работать». Это означает, что за ботнетом необходим присмотр — и инвестиции тоже: нужны деньги на программирование, обновление тел вредоносных программ, мониторинг ситуации с управляющими центрами и т.п. В общем, всё «по-взрослому».

Паниковать, впрочем, не стоит. Много лет именитые специалисты по сетевой безопасности твердили, что вот ещё совсем чуть-чуть, и сетевые злоумышленники создадут какой-нибудь особо крупный ботнет и отправят весь интернет в тартарары. Они преувеличивали. "У современного интернета довольно хорошо обстоит дело с распределённостью, он почти не содержит ключевых «узловых» точек, атака на которые могла бы вывести из строя всю конструкцию,"- говорит технический директор Mail.Ru Владимир Габриелян.

"Сетевые атаки можно разделить по атакуемой цели, — говорит Владимир Габриелян. — Во-первых, целью атаки может быть отказ в обслуживании сетевой инфраструктуры, и тогда внешний ресурс становится недоступным элементарно из-за неработающей сети. Во-вторых, целью атаки может быть просто увеличение нагрузки на сервера интернет-проекта до такой степени, что он просто перестанет обслуживать клиентов и отвечать на запросы, хотя с внешней стороны с сетью всё, вроде бы, в порядке."

По словам Михаила Вычижанина, проще всего противодействовать нераспределённым атакам, жёстко сегментированным и низкоуровневыми по пропускной способности. Их обычно устраивают начинающие злоумышленники — пресловутые script kiddies. Впрочем, «лёгкие» DDoS-атаки могут сигнализировать о тестирование какой-то части зараженного функционала более серьёзными противниками.

"Тяжелее всего бороться с географически и технологически распределенными атаками на разные типы протоколов, с изменением URI-части HTTP в определённые промежутки времени, DNS-запросами различных типов, максимально моделирующими и приближающими ботнет к поведению конечного пользователя-человека," — поясняет Вычижанин. Как правило, средний уровень атаки растёт вместе с ростом пропускной способности каналов, — как магистральных, так и локальных и пользовательских; несколько лет назад атака с входящим трафиком в 1 Гб/c считалась высокоуровневой, сегодня что-то подобное будет отнесено к атакам среднего уровня.

Защита от DDoS-атак производится разными способами, но, как правило, это фильтрация входящего трафика и блокировка сегментов Сети, из которых ведётся «бомбардировка», а также наращивание пропускной способности канала, чтобы входящий трафик не мог «смыть» целевой сервер.

Отдельная история — это «борьба» с DDoS-атаками у российских хостеров. Было время, когда фактически единственным инструментом борьбы с такими атаками было отключение доступа к сайту для иностранных пользователей. «Этот способ будет работать, ну, максимум, ещё год, пока российский ботнет не появится,» — говорит гендиректор «Оверсан-Скалакси» Дмитрий Лоханский.

Помимо «отключения Запада», обычное дело — выставление счетов самим же пострадавшим от атак клиентам за перерасход трафика. "У нас есть знакомые, которым выставляли по 3 тысячи долларов за ночь по итогам атаки DDoS, — рассказывает Павел Варнавский, финансовый директор «Оверсан-Скалакси». — Нет, есть, конечно, способы с этим бороться. Трафик у тебя бесплатный, если ты соблюдаешь соотношения 1:4 (4 доли российского и 1 доля западного трафика). DDoS обычно идет с Запада. То есть, когда он приходит, он кардинально нарушает соотношение, оттуда и цена."

Как рассказал Варнавский, защита их клиентов от DDoS-атак осуществляется с помощью программно-аппаратного комплекса с оборудованием Juniper, Cisco и F5 Networks, которое располагается перед своеобразным суперкомпьютером, и обрабатывает входящий трафик. Внутри стоит ещё одна система — уже их разработки — она дофильтровывает трафик, идущий к конечным клиентам.

Необходимость в собственной разработке связана с тем, что все крупные системы рассчитаны на канальных операторов, которые могут массированно отфильтровать тонны трафика. «А когда, допустим, если у клиента есть ресурсы лишь на обработку 100-200 Мбит, — говорит Варнавский, — и он подвергается немасштабной DDoS-атаке , то оборудование Cisco может просто не заметить этого клиента.»

В этом, как утверждает Варнавский, принципиальное отличие от существующих в России услуг «защита от DDoS». При этом клиенты оказываются «закрыты» не только от DDoS, но и от внутрисетевых атак.

В целом, у «облачных» хостинг-провайдеров возможности по обеспечению надёжности хостинга выше, чем у большинства обычных в силу архитектурной специфики. Например, есть возможность заказывать полное резервирование, так что у любого ресурса всегда наготове «зеркало»: если один сервер по какой-либо причине «упал», быстро поднимается его полная копия, и восстанавливается состояние «перед смертью».

По словам Вычижанина, самым эффективным способом борьбы с DDoS, является комплекс мер, состоящий из:

Обучения системы по байесовскому методу (в основе которого лежит теорема Байеса из теории вероятностей), плюс к этому — накапливание максимального количества признаков вектора атаки, по которым будет настраиваться и осуществляться дальнейшая фильтрация.

Использование централизованной базы данных атак канальных операторов, представленных в определённых линейках оборудования (Arbor).

Использование готовых и, желательно, многоуровневых решений от вендоров, зарекомендовавших себя на этом рынке. (Arbor, Cisco Guard, Juniper IDP). Лучше всего работает связка нескольких решений в одно с технической поддержкой (особенно это эффективно в момент атаки).

Фильтрации атаки по принципу — как можно ближе к атакующему ботнету. Используется BGP, black hole определённых сетей и маршрутов, наиболее близко расположенных к очагам атаки. Для реализации таких возможностей должны присутствовать определённые договоренности и пиринговые отношения с участниками-провайдерами.

Разработка собственных алгоритмов анализа паразитного трафика и использование их в качестве дополнения к существующим механизмам. Прецеденты разработки подобных систем на этом рынке также существуют.

DDoS-атаки — это, по сути, «услуги интернет-киллера для всех желающих». Благо отбоя от желающих нет: вынос сайтов политических оппонентов и бизнес-конкурентов, подавление вещания неугодных интернет-СМИ (например, «Сотовик» только-только оклемался от атаки, начавшейся 14 мая), иногда просто хулиганство, когда какой-нибудь обиженный в комментариях дуралей начинает пакостить как умеет — это уже совершенно обычное дело.

"Проблему нужно выносить на более серьёзный, даже государственный уровень, создавать государственные центры борьбы с подобными явлениями, решения на базе GPL и т.д., — говорит Вычижанин. — Необходимо уделять проблеме больше внимания, так как эта проблема стоит перед рунетом очень остро, а рынок до сих пор по инерции надеется «на авось» и покупает услуги защиты в крайнем случае, когда бизнес уже понёс существенные убытки."

К оглавлению