Журнал «Компьютерра» № 36 от 3 октября 2006 года - читать бесплатно онлайн полную версию книги автора Компьютерра (ТЕМА НОМЕРА: Не улыбайтесь, это не поможет) #13

ТЕМА НОМЕРА: Не улыбайтесь, это не поможет

Автор: Владимир Николаевич

Любители фантастики давно знают, что в будущем техника сможет узнавать нас в лицо. Не раз нам рассказывали и показывали, как всевидящие системы наблюдения выслеживают человека, бегающего по городу и прячущегося в толпе мирных обывателей. Мы уверены, что это будет в прекрасном далёко. А в настоящем, как думает всякий пытавшийся распознать компьютерной программой полуслепой текст, автоматическое опознание по лицу не грозит нам еще лет …надцать.

Однако иногда будущее оказывается ближе, чем кажется. Представьте, что уже создана, испытана и признана очень надежной система, действительно способная различать лица. При этом не нужно совать голову в специальный ящик и задерживать дыхание — человек вообще не замечает, что его «узнали в лицо». И создатели утверждают, что их система не путает даже однояйцевых близнецов. Не слабо? Об обработке толпы, снующей по аэропорту, речь пока не идет — для опознания человек должен повернуть лицо в сторону камеры и приблизиться на один метр.

Первое и главное отличие разработки от конкурирующих систем в том, что она анализирует не двухмерный снимок (плоскую фотографию), а трехмерную модель. Представьте слепки лица, снимаемые с помощью мокрого гипса, и вы поймете, с чем работает A4Vision (www.a4vision.com). Естественно, компьютерной системе нужны виртуальные «слепки», для получения которых требуется некий объемный сканер. Основной аппаратный модуль A4Vision прямо так и называется — Vision Access 3D Face Reader, однако способ, которым он получает трехмерную поверхность, совсем не прямолинеен.

В A4Vision решили применить сканирование с помощью (внимание) «проецирования на объект светового шаблона с заранее известной пространственной структурой». Звучит непонятно, но по сути просто и даже изящно. Вспомните, как выглядят лица людей, освещенные через жалюзи. Полосы света и тени, изначально одинаково ровные, прихотливо искажаются на лице (и вообще любом предмете). Понятно, что вся сложная поверхность лица искажает световую «зебру» точно в соответствии со своей формой. Так же понятно, что эту форму (лица или надкусанной груши) можно вычислить, сравнивая разницу между ровными полосами и деформированными. Точность реконструированной 3D-модели будет зависеть, главным образом, от разрешения полосок жалюзи — чем тоньше-гуще, тем лучше. Очевидно, что вместо параллельных полос лучше освещать предмет решеткой линий, может быть даже не с квадратными ячейками, а треугольными. Впрочем, в описании одного из первых своих патентов, стоявшие у истоков разработок бауманцы Артем Юхин и Андрей Климов указывают, что «подсветка объекта формируется в виде апериодической системы полос».

Алгоритмы подобной реконструкции — дистанционной, точной и дешевой, Юхин хорошо изучил во время учебы в «Бауманке». Вполне естественно, что после университета он попытался их внедрить, одновременно серьезно усовершенствовав. Как далеко зашло это совершенство — уже секрет фирмы A4Vision, но ее представители действительно заявляют — точность съемки достигает долей миллиметра и позволяет различать однояйцевых близнецов!

История компании

Один из основателей компании, Артем Юхин стал бизнесменом, как только получил паспорт, создав в 1992 году первую в Москве фирму по компьютерному дизайну интерьеров. Хотя дела шли успешно, через несколько лет он решил получить высшее образование и поступил в «Бауманку» на факультет «Радиоэлектроника и лазерная техника». В университете Юхин познакомился с Климовым, разрабатывавшим математический «предсказатель» котировок акций на бирже, и друзья решили довести его до готового продукта. Однако в 1998 году, когда уже был найден первый покупатель, случился августовский дефолт, и биржевые игры резко потеряли привлекательность.

Тогда друзья решили взяться за дипломную работу Юхина — трехмерное распознавание лиц, и сделать на ее основе объемный фотоаппарат, быстро выдающий виртуальные «слепки» снятых объектов. В 1999 году у них уже было «устройство для бесконтактного контроля и распознавания поверхностей трехмерных объектов» (это цитата из заявки на Патент РФ) и, доработав его до изделия, которое можно было показывать инвесторам, они решили действовать по инструкции для начинающих стартапов — составили список подходящих венчурных фондов и на свои деньги стали летать по миру, убеждая вложить капитал в свое ноу-хау. К счастью, разработка оказалась удивительно демонстративной — быстрое создание виртуальных «слепков» было легко показывать, и российский «сканер» застревал в памяти многих инвесторов (сохранилась страничка проекта на сайте бауманского университета)…

Через год, когда свои и занятые деньги заканчивались, у друзей было три предложения от разных венчурных фондов. После долгих колебаний был выбран европейский фонд MyQube, дававший наибольшую свободу действий. Документы были подписаны, а через несколько месяцев пузырь «интернет-экономики» громко лопнул — новорожденная A4Vision оказалась последним стартапом фонда. В тот момент к ним примкнула Келли Ричдейл (Kelly Richdale), внеся свой большой вклад в дальнейшее развитие бизнеса. Покупателями своего сканера они видели в первую очередь доткомы — сетевые магазины и разного рода галереи, которые должны были быть заинтересованы в создании (а затем показе на веб-сайтах) 3D-каталогов своих товаров. Расчет не оправдался, и вместо потока заказов доткомы сообщали о своей ликвидации.

В новых условиях решили изменить направление разработок. Биометрия была еще не в фаворе, поэтому попытались сделать приложение для пластической хирургии — субмиллиметровая точность «слепков» должна была привлечь хирургов, правящих носы и прочие части тела богатым клиентам. Хотя идея казалась вполне разумной, но и для нее покупателей не нашлось. Но им удалось заинтересовать гигантскую Logitech идеей автоматической фокусировки ее веб-камер на лице человека. В результате, A4Vision сделала программный продукт, который успешно начал продаваться, и Logitech стал первым стратегическим инвестором. А затем наступило 11 сентября 2001 года…

Скажем сразу, что сам по себе метод «сканирования с помощью проецирования шаблона» изобретен давно. Он хорошо известен среди специалистов и даже имеет историю успешного применения. В самом начале 90-х автору этих строк попалась фотография поросенка, освещенного сверху десятком ярких световых полос — это была разработка британских ученых, создавших систему быстрого и бесконтактного измерения свиней. Вроде бы в этом нуждались английские фермеры, но свиньи (чуя истинную цель затеи) отказывались сотрудничать, поэтому пришлось изобретать способ измерения объекта без его ведома. В конце концов установка вылилась в узкий коридор с темным полом, по которому «объекты» прогонялись и освещались сверху через подобие жалюзи. Камера делала снимок «полосатой» свиньи, по которому даже тогдашние компьютеры могли рассчитать ее охват «в плечах», «в талии», «в бедрах» и т. д.

Кстати

Ошибки распознавания «обознался» и «не признал» тесно связаны — закручивая чувствительность системы, одновременно повышаешь и вероятность ложных тревог. На сайте A4Vision указывается: Extremely low False Rejection Rates (FRR), even when the False Acceptance Rate (FAR) is set close to zero (.0001). В популярных статьях называются цифры «одна ошибка на сотню» для «не признала своего», «одна шибка на миллион» для «приняла чужого за своего» или более скромные «одна на сто тысяч».

Что в начале 90-х могли британские университеты, в конце 90-х смогли российские выпускники, причем лучше и дешевле — первый прототип своей системы, который демонстрировался инвесторам, был сделан из цифрового фотоаппарата Olympus, даже не «доработанного напильником». Как уже догадались проницательные читатели, процесс «сканирования» выглядел просто — объект освещался специальным источником света. Затем делался его снимок, который отправлялся в компьютер, где самое важное и трудное совершалось на программном уровне — из плоского изображения строилась трехмерная поверхность объекта. Судя по всему, строилась достаточно впечатляюще, чтобы идея получила финансирование.

Но давайте рассмотрим, как процесс опознания по лицу проходит в готовой системе A4Vision, испытанной и уже предлагаемой покупателям. Итак, настенный прибор под названием Vision Access 3D Face Reader работает в инфракрасном спектре. Он удобнее видимого, поскольку устойчивее к посторонней засветке, не привлекает внимания и просто не слепит глаза. Главный узел прибора состоит из двух блоков — излучателя и фотоприемника, способного делать качественные снимки со скоростью десятки кадров в секунду. Иногда его называют 3D-камерой, что может ввести в заблуждение. Камера там обычная — 2D, но ее снимки преобразуются в трехмерные поверхности. Естественно, для этого излучатель «структурированной подсветки» должен быть немного в стороне от камеры — ведь если подсвечивать лицо прямо через объектив, то на снимке не будет заметно искажений световой решетки. На некоторых моделях сканера отчетливо видны два «окна», и параллакс между ними составляет около 30 см.

Снимки, сделанные камерой, сначала обрабатываются алгоритмами первичной обработки. Компания рассказывает о них скупо, но известно, что, например, автоматически отбрасываются кадры, на которых нет человеческих лиц, а на тех, что есть, сами лица эффективно выделяются из окружающего их «шума». Слово «эффективно» значит, что эта фильтрация идет почти со скоростью съемки — десятки снимков в секунду. Это впечатляющее и важное достижение — выделение из видеопотока лица, подсвеченного световым шаблоном, прямо влияет на весь процесс опознания. Традиционные системы, работающие с плоскими снимками, проводят такое выделение с большим трудом, поскольку вынуждены работать, по сути, с комбинацией темных и светлых пятен — именно так машина «видит» обычную фотографию.

Новые горизонты

Рынок лицевой идентификации в США (тогда еще 2D) был занят несколькими известными компаниями, которые после терактов провели активную PR-компанию своих продуктов. Их акции пошли вверх, и даже были заключены крупные контракты, но затем Пентагон провел независимые испытания, которые все системы провалили. Например, известная Visionix дала 52,5% ошибок типа «не признал» на базе всего из пятнадцати человек-добровольцев (503 неудачных попытки на 958 распознаваний), а на полевых испытаниях в аэропорту Палм-Бич ошибки типа «обозналась» составили 31,3% от общего числа тревог (1081 ложная тревога из 3455).

В результате, когда A4Vision смогла сделать альфа-версию своего «опознавателя», сама идея face recognition была глубоко дискредитирована, и неизвестному стартапу пришлось доказывать, мол, «ваши старые большие компании ничего не умеют, а наша молодая и маленькая умеет гораздо больше их».

На сегодняшний день главный продукт A4Vision — набор алгоритмов и технических устройств, которые крупные интеграторы систем безопасности могут встраивать в свои приложения. Крупному банку такая система может обойтись даже дешевле стандартных смарт-карт при несравнимо большей надежности.

Меж тем своей главной целью компания видит национальные паспортные системы — самые глобальные и денежные из всех проектов идентификации. Участвовать в них самостоятельно бесполезно (слишком сильны местные лоббисты и соображения национальной безопасности), поэтому основной стратегией является наведение контактов с крупнейшими локальными интеграторами. Дела идут успешно, и вот уже алгоритмами A4Vision американцев будет опознавать Motorola, у нас — НПО «Информация», а кроме них в списке партнеров значатся Unisys, Bell, GE, Oracle, Siemens, Sagem, Samsung и прочая и прочая. А ИФ «Мехатрон» уже установил пробный аппарат на одном из контрольно-пропускных пунктов «Салаватнефтеоргсинтеза», планируя до конца года оснастить ими все проходные предприятия (www.metron.ru/ content/view/39/).

Далее на основе снимков создается предварительная 3D-модель лица, от которой отрезается все постороннее — прическа, усы, борода, шея… В получившейся модели заполняются возможные «дыры» и проводится сглаживание. Кстати, система легко «видит» очки на лице (как выступ перед глазами) и в зависимости от настроек может попросить их снять или, вырезав из модели этот участок, попытаться обработать то, что осталось.

В конечном счете модуль первичной обработки выдает оптимизированную трехмерную поверхность, оптимально подходящую для последующего распознавания.

После первичной обработки наступает черед «извлечения антропометрических особенностей лица». Разумеется, извлекаются не все особенности, а только индивидуальные и не меняющиеся из-за болезней, диет, пластических операций и т. д.

Кстати

Любопытно, что среди законодателей глобальных технологических изменений на Западе немало предпринимателей российского происхождения — Макс Левчин (основатель PayPal) и Сергей Брин (основатель Google), Алек Милославский (основатель Genesys) и Александр Степанов из Adobe…

По словам представителей компании, независимые испытания показали, что точность лицевой 3D-идентификации по ряду параметров превосходит точность идентификации по отпечатку пальца, который подделать несравнимо легче, чем лицо. Конечно, если сравнивать с идентификацией всех пяти пальцев, пока не превзойденной никакими другими системами (кроме ДНК), включая сканер радужки глаза, то возможности системы все же имеют ограничения по размеру базы. Поэтому, по данным НПО «Информация» (www.npo-inform.com), лучше применять комбинированный метод с использованием трехмерной технологии от компании A4Vision и двухмерной системы распознавания, обеспечивающей достаточную точность в режиме идентификации при базах данных размером до 10 000 лиц, а в перспективе — до 100 000 человек...".

Чтобы понять, как это возможно, снова сделаем отступление. Был такой ученый — Герасимов Михаил Михайлович (1907—70), российский антрополог, археолог и скульптор, доктор исторических наук. В историю он вошел, главным образом, как создатель метода восстановления облика людей по костным останкам. Наибольшую известность получило восстановление лиц по найденным черепам — читатели наверняка видели такие ролики по ТВ. Герасимов доказал, что форма отдельных частей лица (носа, рта, глаз и ушей) очень жестко зависит от величины и формы частей черепа — носовых костей, строения и ширины зубной дуги, формы и величины зубов, прикуса, особенностей нижней челюсти, формы глазниц, их глубины и т. д. Он создал метод, так и называемый «метод Герасимова», по которому археолог, нашедший череп, может весьма точно воссоздать лицо его обладателя. Если добавить к этому лицу вероятную прическу и «раскрыть глаза» (рукой художника), то получится почти прижизненный портрет.

Сейчас этот метод компьютеризован, им широко пользуются криминалисты всех стран, но для нас важно другое. Программисты A4Vision решили применить его, образно выражаясь, в обратную сторону! Имея в распоряжении очищенную от шумов, точную до десятых долей миллиметра, трехмерную модель лица, они поняли, что могут обработать ее своего рода перевернутыми процедурами Герасимова, и выявить, в конце концов, часть черепа отснятого человека! А получив данные о костях, программа уже может выделить точки (не столько лица, сколько черепа), соотношение которых уникально для каждого человека и не зависит от диеты, болезней, возраста и т. д. Выделить, даже если перед объективом было лицо с ожирением, эмоциями и следами хирургического лезвия.

Среди прочего известно, что сканеры A4Vision определяют лицевой угол человека. Это угол между глазнично-ушной горизонталью и линией, соединяющей верхненосовую точку и простион (самую переднюю точку альвеолярного края верхней челюсти). Измерением этих же углов занимались энтузиасты расовой чистоты в нацистской Германии, по голове определяя специальной линейкой, кто ариец, а кто недочеловек.

По завершении всех процедур анализа формируется так называемый «биометрический шаблон» — очень маленький файл, описывающий уникальную геометрию конкретной физиономии. Именно этот шаблон помещается в базу данных, записывается в электронные пропуска и сравнивается с другими шаблонами.

Достижения

В ноябре 2002 года журнал Biometric technologies today назвал технологию A4Vision самой передовой на рынке, а в июне 2004-го консалтинговая компания Frost&Sullivan, выдающая нечто вроде «технологических Оскаров», назвала ее лучшим биометрическим продуктом года (раньше никакая российская технология этот «Оскар» не получала). Затем стартовали первые пилотные проекты (аэропорт Милана, Royal Bank of Scotland и др.).

А биометрический турникет от компании НПО «Информация» назван «Лучшим инновационным продуктом» 12 —ой Московской международной выставки «Охрана, безопасность и противопожарная защита — MIPS 2006» в номинации «Системы ограничения доступа». Выставка проходила в Москве с 4 по 7 апреля 2006 года. Компания НПО «Информация» представила на выставке новейшие разработки в области биометрических и интеллектуальных систем безопасности.

«Скорострельность» всего комплекса позволяет за секунду провести несколько полных циклов идентификации «съемка-моделирование-проверка по базе», фактически выполнив несколько независимых опознаний одного лица. Тонким моментом является размер самой базы данных. Пока эти сканеры работают в фирмах-банках, где число введенных в аппарат биошаблонов исчисляется сотнями (максимум — тысячами), то проверки действительно не превышают секунды. На сайте самой A4Vision в спецификациях приборов пишут о «Processing speeds of 10-12 full capturing-matching cycles per second» (за секунду происходит 10-12 циклов «захвата-сравнения» изображения ). Человек все время слегка крутит головой, меняя мимику, и постоянная съемка этих микродвижений позволяет сканеру выбрать оптимальный ракурс. Такой метод — непрерывного распознавания, сильно улучшает главную характеристику любой системы идентификации — вероятность ошибок «обознался» и «не признал».

«Биометрический шаблон» лица, получаемый A4Vision в конце моделирования и анализа, удивительно компактен — по разным данным, от трех до шести килобайт в запакованном виде. В этом смысле он похож на файл с векторной графикой, который хранит лишь узловые точки своей картинки и данные, линиями какой кривизны их надо соединять. В результате, векторные картинки занимают мало места на диске, а биометрический шаблон лица можно записать даже в дешевые RFID-чипы.

Надежность системы A4Vision в реальных условиях была несколько раз проверена сначала американскими госструктурами, а затем спецслужбами других стран. Благодаря ей в мировой обиход вошел термин «трехмерное распознавание лица», и сейчас под распознаванием лиц по умолчанию понимается именно объемная (а не плоско-фотографическая) биометрика. Более того — формат данных о трехмерной поверхности лица, который представляет собой шаблон A4Vision, судя по всему, будет принят в качестве открытого международного стандарта (как MPEG или HTML). По крайней мере, черновой вариант соответствующей поправки к ISO/IEC 19794-5 (стандарт биометрии) был утвержден в январе нынешнего года одним из подкомитетов при ISO [По данным пресс-релиза www.npo-inform.com/news/kioto-2006]. Эта стандартизация, если ее утвердят, позволит хранить в паспортах и базах разных стран шаблоны единого формата, «понимаемые» всеми системами лицевого опознания. Для A4Vision это будет Успех с большой буквы, ради которого ей, кстати, уже пришлось раскрыть внутреннюю структуру шаблона. Это позволяет конкурентам начать разработку сходных и совместимых устройств идентификации, но, по мнению самой компании, у нее есть фора в несколько лет узкоспециальных разработок и большие связи с интеграторами.

Несмотря на «мировое признание», работы по исследованию и программированию американско-швейцарско-российская A4Vision по-прежнему ведет в России, а офисы компании расположены в Калифорнии, Женеве и Москве.

Особое мнение

Надо заметить, что предмет статьи вызывает двойственное отношение. С одной стороны, очень здорово, что «наши добились успеха», причем головой и даже не переставая быть нашими. С другой, несмотря на радужные оценки экспертов, широкая поступь прогресса как-то не вызывает прилива энтузиазма. И дело тут не в преувеличенных достоинствах — они вполне обоснованны. Когда разработчики говорят, что сделать маску чужого лица с субмиллиметровой точностью очень трудно, а маску, носимую поверх своего лица, — еще труднее, в это веришь. Чтобы опознать кого бы то ни было, система идентификации должна хранить его данные в своей базе. Для разработки A4Vision это значит, что нужно создать биометрический шаблон, подведя человека к сканеру секунд на десять и попросив выполнить ряд инструкций. Создать шаблон по описаниям свидетелей или кадрам телесъемки — нельзя. Поэтому, если Бен Ладен сделает себе курносый нос и, сбрив бороду, решит провести старость среди флоридских пенсионеров, трехмерные лицевые сканеры в аэропортах США его не узнают. Тем более они не узнают любителей позировать перед камерами в балахонах на голове и оружием в руках. А вот граждан, прошедших процедуры регистрации, занесенных в базы данных и позже объявленных в розыск, такими приборами можно будет отлавливать эффективно. Кажется, даже инъекции спазмогенов, а-ля Том Круз в «Особом мнении», окажутся бесполезны.

Лицевое опознание может очень легко стать обязательной процедурой, и всякий, уклоняющийся от него, будет сразу помечаться системой как подозреваемый. На пульте наблюдателя (например, за подземным переходом) будет зажигаться сигнал «Опасность! Неопознанный объект!», а на мониторах наблюдения такой человек будет отмечаться в толпе красной рамкой (а то и перекрестьем прицела).

Ситуация начнет напоминать отношения к паспортам. Сейчас этот документ в принципе не обязательно носить с собой, но чем дальше, тем больше людей его держат при себе. Иначе при задержании патрулем человеку без паспорта (или иного документа) говорят «Пройдемте в отделение» и надевают наручники. С лицевым опознанием во многих местах (в том числе и публичных) может произойти то же самое — или позволяешь себя точно опознать при входе в универмаг или автобус, или становишься подозреваемым (с вытекающим поражением в правах). В деле безопасности это, может, и хорошо, но в тех же универмагах такое опознание станет для маркетологов еще одним орудием выкачивания денег (вспомните рекламные щиты в «Особом мнении», узнающие людей и показывающие им персональные ролики).

A4Vision создала уникальный сканер, узнающий людей независимо от их движения (снимок делается слишком быстро), устойчивый к гримасам, поворотам головы до тридцати градусов (влево-вправо) и безразличный к освещению. Он может работать в полной темноте — камера все равно отсекает видимый свет, снимая только ИК-подсветку. Сейчас компания работает над «дальнобойным» вариантом, способным узнавать людей с десяти метров, а затем и в толпе. Не знаю, как вам, а мне упорно вспоминаются подопечные английских фермеров, прогоняемые через темный коридор.

История компании

Комментарий специалиста

Данные о результатах независимого тестирования имеются, опубликованы: было проведено тестирование в Сингапуре на более чем 1 тысяче человек и в Великобритании ( в лабораторных условиях — около 200 человек). Имеются прямые ссылки на эти результаты тестирования.

Заявление об отсутствии стандартов также недостоверно, так как американский стандарт на эту биометрику уже есть, а международный разрабатывается и будет действовать примерно через год.

Сергей Дорофеев,

гендиректор российского представительства A4Vision

Новые горизонты

Комментарий специалиста

В целом, технология 3D-распознавания лица безусловно интересна и перспективна. К ее несомненным преимуществам следует отнести удобство использования. Но у «инновационности» и «перспективности» имеется обратная сторона. Технология, ввиду своей сравнительной новизны, пока не протестирована признанными независимыми международными институтами, такими как NIST на больших массивах информации (миллионы записей). Впрочем, заявки на такое тестирование A4Vision уже подала, так что скоро появится возможность сравнить качество поиска с лидерами 2D. В настоящий момент, есть разные мнения относительно перспектив 3D-распознавания.

Однако учитывая организационный и инженерный талант, амбициозность и очевидный творческий потенциал людей, «двигающих» 3D-распознавание в A4Vision, можно предположить, что 3D-распознавание не затеряется среди альтернативных биометрических технологий и будет развиваться несмотря на описанные препятствия.

Андрей Соловьев,

генеральный директор компании «Сонда»