Автор: Тихонов Кирилл
Отыскать незнакомое место в чужом городе всегда непросто. Отыскать незнакомое место в чужом японском городе - почти невозможно. И непонятные иероглифы еще полбеды - дело в другом. У большинства улиц в Японии даже нет названий, поэтому, когда необходимо сообщить адрес, местные жители просто перечисляют окрестные достопримечательности и называют номер квартала. Гайдзину такое объяснение не поможет - это немецкие студенты Макс Браун и Рафаэль Шпринг, приехавшие в Осаку изучать роботов, отлично понимали. Чтобы отыскать клуб, в котором выступала заехавшая в Японию американская группа The Shins, они запаслись нарисованной от руки схемой, но от нее оказалось мало проку. Темным ноябрьским вечером все улицы были на одно лицо, и попытки разглядеть узенький переулок со входом в клуб представлялись заведомо обреченными на провал.
Потом Макс и Рафаэль рассказывали, что именно тогда и родилась идея написать Enkin - приложение для мобильных телефонов с операционной системой Android, над которым они трудились следующие пять месяцев. Видеоролик с демонстрацией его работы, опубликованный в апреле 2008 года, немедленно стал сенсацией. На нем видно, как программа на лету обрабатывает изображение, которое поступает со встроенной в смартфон камеры, и накладывает на попавшие в кадр объекты текстовые ярлыки с пояснительной информацией. Чтобы узнать, что находится в здании, достаточно посмотреть на него через экран мобильника. Для полного сходства с Second Life картинке на дисплее недостает лишь светящихся имен над головами у прохожих, но авторы программы уже внесли в планы и эту возможность.
В отличие от виртуальной реальности, о которой знает почти каждый, термин "дополненная реальность" (augmented reality, AR) редко услышишь из уст неспециалиста. Им обозначают системы, в которых реальный мир не подменяется виртуальным, а дополняется компьютерными данными и объектами.
Enkin - лишь одна из них и даже не самая впечатляющая. В исследовательских лабораториях встречаются и более любопытные проекты, но в том-то и дело, что лишь в лабораториях. У Enkin, в отличие от его предшественников, есть все шансы стать первым массовым приложением дополненной реальности.
Специалисты почти два десятка лет пытаются внедрить дополненную реальность в производстве и в медицине. Использующий дополненную реальность врач видит своих пациентов в буквальном смысле насквозь - в очках со встроенными дисплеями рентгеновские и инфракрасные снимки оказываются точно совмещены с телом больного. На заводе виртуальные чертежи и инструкции накладываются на реальные детали, а инженеры получают возможность экспериментировать с полноразмерной компьютерной моделью конструируемого механизма в настоящем цехе. Стоит ли удивляться, что возможность увидеть невидимое пользуется немалым спросом.
Разумеется, не отстают и военные. Едва ли не в каждой статье о дополненной реальности, которая появляется в неспециализированной прессе, упоминается Исследовательская лаборатория ВМФ США. Солдат, вооруженный созданной там системой, будет видеть значки, отмечающие позиции союзников и врагов или предупреждающие об опасных местах (например, минных полях или зонах, обстреливаемых снайперами). Картину довершает счетчик боеприпасов, который, кажется, позаимствован из Counter-Strike. А что?
Это почти так и есть: компьютерные игры очень вовремя приучили нас к интерфейсам, в которых трехмерный мир совмещен с текстовыми или иными данными.
Геймеры лучше подготовлены к "информационной перегрузке", с которой сталкиваются пользователи дополненной реальности, утверждает Марк Ливингстон, разрабатывающий системы дополненной реальности для Пентагона, и он, как замечает цитирующий его слова журнал Economist, шутит лишь отчасти.
Прикладная польза дополненной реальности была очевидна с самого начала. Даже сам термин придумали не кабинетные ученые, а сотрудники авиакомпании Boeing Том Коделл и Дэвид Майзелл. В 1990 году перед ними была поставлена предельно практическая задача: придумать, как упростить прокладку кабелей при сборке пассажирских самолетов. Спустя два года в статье, рассказывающей о найденном ими решении, Коделл и Майзелл шутили: "На самом деле, Boeing 747 - это вовсе не самолет, а пять миллионов деталей, летящих плотной стаей". Boeing 747 буквально напичкан кабелями - их около тысячи, и если некоторые не длиннее шестидесяти сантиметров, то другие могут тянуться через весь фюзеляж на десятки метров. Чтобы не ошибиться, сборщикам приходилось постоянно сверяться с чертежами. Это замедляло и усложняло работу, но что делать? Ошибки обходились слишком дорого.
Коделл и Майзелл предложили использовать при сборке систему дополненной реальности, с помощью которой рабочие с носимыми компьютерами могли видеть чертежи на полупрозрачных наголовных дисплеях. В январе 1992 года они отчитались о проделанной работе в статье под названием "Дополненная реальность: применение наголовных дисплеев в неавтоматизированных производственных процессах"; дату ее публикации, вероятно, следует считать официальным днем рождения этого термина. Спустя год о существовании новой технологии узнала широкая публика: рассказ о необычной системе, испытываемой в Boeing, появился в газете New York Times, а сюжет изданного тогда же нового фантастического романа Уильяма Гибсона, отца-основателя киберпанка, был закручен вокруг устройства, в котором узнаются очки дополненной реальности. Действие книги, озаглавленной "Виртуальный свет", происходит в 2005 году.
В это трудно поверить, но первый виртуальный шлем был построен ровно сорок лет назад, во времена ламповых телевизоров, перфокарт и пакетной обработки задач. Впрочем, его предназначение было еще невероятнее. В середине шестидесятых Айвен Сазерленд, прославленный автор первого графического редактора Sketchpad, увлекся идеей машины, способной контролировать все, что видит, слышит и чувствует человек. Шлем со встроенными дисплеями и датчиками для определения положения в пространстве стал попыткой хотя бы частично реализовать эту концепцию. Через три года в Массачусетском технологическом институте появилась устрашающая конструкция, которую немедленно окрестили "Дамокловым мечом". Устройство вышло таким громоздким и тяжелым, что удержать его на собственных плечах было не под силу обычному человеку. Шлем пришлось подвесить к закрепленной на потолке вращающейся крестовине - отсюда и нелестное название.
Но он работал!
Наголовные дисплеи в системе дополненной реальности Boeing были, разумеется, много меньше "Дамоклова меча", но все еще слишком большими и не годились для продолжительного использования. Оставалось надеяться, что рано или поздно прогресс позволит решить эту проблему. В течение нескольких лет система, которую Коделл и Майзелл построили в Boeing, пережила несколько итераций, но дальше испытаний дело не шло. К концу девяностых, когда стало ясно, что в обозримом будущем Boeing не станет внедрять дополненную реальность, Майзелл покинул компанию (Коделл ушел еще раньше, но по иной причине).
Минуло еще десять лет, и "рано или поздно", кажется, наступило. Убедиться в этом можно в магазинах электроники, где на прилавках среди сомнительных китайских наушников и прочей электронной мелочи лежат самые настоящие очки со встроенными дисплеями. Они никого не удивляют и почти не привлекают внимания, хотя, в отличие от киберпанковского гаджета из "Виртуального света", стоят куда дешевле "хорошей японской машины" - за некоторые модели в Москве просят всего шесть тысяч рублей. Вот только проку от них как не было, так и нет. Даже гораздо более дорогие экземпляры страдают от тех же недостатков, что и десять лет назад. У виртуальных очков невысокое разрешение, скромное поле зрения, и они все так же за считанные минуты утомляют глаза.
Еще недавно немецкая компания metaio, внедрившая промышленные системы дополненной реальности на нескольких автозаводах Европы, активно сотрудничала с Microvision, известным производителем наголовных дисплеев, которые с помощью лазера проецируют изображение непосредственно на сетчатку глаза. Однако практика показала, что такие устройства не обеспечивают необходимой точности трекинга и неудобны для потенциальных клиентов, причем не в последнюю очередь из-за малой распространенности.
Дорогие наголовные дисплеи становятся атавизмом, коль скоро ту же задачу можно решить с помощью стандартного железа. Теперь в metaio считают, что системы дополненной реальности нужно разрабатывать для обычных устройств - персональных компьютеров, веб-камер, мобильных телефонов…
Подобное мнение можно встретить все чаще и чаще. Дополненной реальности не стать мейнстримом, пока для нее требуются очки со встроенными дисплеями и другие диковинные устройства. Скорее всего массовые приложения дополненной реальности будут похожи на известные исследовательские проекты наподобие MARS или ARQuake не больше, чем World of Warcraft и Second Life похожи на виртуальные среды вроде CAVE или, того хуже, воображаемые "киберпространства" и "метаверсы", а реальный World Wide Web образца 2008 года - на замыслы Тима Бернерса-Ли в 1991 году. Но чем заменить виртуальные очки?
Подобрать интерфейсную метафору, приближающуюся к ним по интуитивности, очень непросто. Один из самых перспективных кандидатов - это метафора "волшебной линзы". Устройство, необходимое для ее использования, есть у миллионов уже сегодня.
У меня в руках - смартфон Nokia. Может показаться, что на его экран просто-напросто выведен видеосигнал со встроенной камеры, но все гораздо сложнее.
Заметить разницу легко: достаточно посмотреть через телефон на рекламный плакат, который лежит передо мной на столе. В уголке плаката напечатана контрастная решетка с черными и белыми квадратами, напоминающая маленький кроссворд, но на экране мобильника она не видна. На ее месте появляется маленькая кроссовка из рекламы, которую можно осмотреть со всех сторон и даже заглянуть внутрь - она объемная и почти настоящая.
Черно-белая решетка - это маркер, по которому разработанная в metaio программа Unifeye Mobile вычисляет положение плаката в пространстве относительно объектива камеры. Затем программа рендерит трехмерную модель под соответствующим углом и в реальном времени накладывает ее на видео. Десять лет назад такая задача была не под силу даже неплохим настольным компьютерам, но современные смартфоны давно превзошли их по производительности. Вдобавок почти в каждом из них теперь есть встроенная камера, а в некоторых - даже аппаратный ускоритель трехмерной графики. Для многих приложений дополненной реальности большего и не требуется. Правда, количество кадров в секунду, которое выдает Unifeye Mobile на моей "нокии", оставляет желать лучшего, но иного я и не ждал - в конце концов, это не самая мощная модель. Еще пара лет, и производительность большинства смартфонов сравняется с потребностями подобных программ.
Unifeye Mobile - это экспериментальная программа, но в metaio уже использовали похожую идею в реальном проекте. Весной этого года компания создала необычные электронные путеводители для токийского выставочного центра DNP-Louvre Museum Lab. Если взглянуть на музейные стенды через экран специального планшетного компьютера с видеокамерой на оборотной стороне, среди экспонатов обнаружится трехмерный человечек в костюме ученого XVII века - это виртуальный экскурсовод по имени Губерт Роберт.
Нарисованный монгольфьер показывает посетителям маршрут, а экспонаты в дополненной реальности снабжаются пояснениями и анимированными иллюстрациями.
От DNP-Louvre Museum Lab рукой подать до расположенной по соседству компьютерной лаборатории Sony, где в начале девяностых была изобретена интерфейсная метафора "волшебной линзы", на которой основан и Enkin, и мобильные приложения metaio. "В отличие от настоящей линзы, которая увеличивает мир оптически, система, основанная на этом подходе, увеличивает информацию о мире", - так объяснял свою идею Дзюн Рекимото в статье 1994 года "Мир через компьютер". Устройство под названием Navicam, которое он собрал, чтобы проверить эффективность этого подхода, поразительно похоже на планшетные компьютеры из DNP-Louvre Museum Lab. Правда, внутри Navicam компьютера не было - времена не те. Изображение, поступающее с камеры, закрепленной на обратной стороне переносного ЖК-дисплея, обрабатывалось на мощной рабочей станции, которую соединял с устройством толстый кабель.
В видеосигнале машина пыталась отыскать ярлыки с цветным штрих-кодом - материальные гиперссылки, связывающие реальный предмет с информацией, хранящейся в компьютере. Когда это удавалось, на экране Navicam появлялось полупрозрачное окошко с текстом, на который указывал найденный код. Ярлык на библиотечной полке сообщал о новых журналах, ярлык на двери лаборатории вел к справке о ее сотрудниках, а ярлык, прилепленный к настенному календарю, выводил список запланированных встреч.
Свою задачу Рекимото видел в том, чтобы сделать компьютер невидимым, а для этого, по его мнению, компьютер должен стать вездесущим. "Самые совершенные технологии - те, что становятся незаметными.
Они настолько вплетены в ткань повседневной жизни, что неотличимы от нее", - написал в 1991 году глава компьютерной лаборатории Xerox PARC Марк Вейзер.
Он полагал, что "вездесущий компьютер" (ubiquitous computing) - это следующий этап развития техники, который ждет нас после персональных компьютеров.
Рекимото разделял взгляды Вейзера, и хотя его подход немного отличался, главное было общим: на экране Navicam весь мир превращался в один гигантский компьютерный интерфейс.
Но как управлять таким интерфейсом?
"Указание - вот естественный жест, обозначающий запрос информации об определенном объекте или месте", - говорит глава компании GeoVector Джон Элленби, тоже выходец из Xerox PARC. Покинув знаменитый исследовательский центр, Элленби основал фирму Grid Systems, которая в 1982 году выпустила первый в истории ноутбук с ЖК-дисплеем. Впрочем, дело не заладилось - из-за высокой цены ноутбук не получил широкого распространения. Следующее предприятие Элленби, компания Geovector, оказалось более успешным. Уникальный мобильный геосервис, который ей принадлежит, можно считать прямым предшественником Enkin.
Согласно официальной легенде, которую Элленби повторял журналистам множество раз, все началось в 1991 году, когда он с сыном плыл на яхте вдоль берегов Мексики. При навигации они перепроверяли свои координаты по известным ориентирам на берегу, и в какой-то момент ему пришло в голову, что было бы неплохо каким-то образом связать воедино бинокль, электронный компас и устройство позиционирования. Получившийся в итоге продукт разительно отличается от исходного замысла, но так обычно и бывает.
Сервис Geovector работает на мобильных телефонах со встроенными приемником GPS и электронным компасом. Достаточно направить мобильник в интересующем направлении, чтобы найти в Сети сведения о расположенном прямо по курсу здании, а порой даже получить список подходящих вариантов действия. Если попросить Geovector отыскать кафе или ресторан, телефон перечислит окрестные заведения общепита, а стрелка укажет направление, в котором следует двигаться, чтобы добраться до ближайшего.
Хотя в Geovector не используется наложение информации на живое видео, у сервиса много общего с мобильными системами дополненной реальности. Он решает ту же задачу - налаживает связь между миром и компьютерной информацией о нем.
Geovector работает только в Японии, и причина тому проста: только в этой стране в изобилии доступны мобильные телефоны с полным набором датчиков, необходимым для такого сервиса. Хотя мобильник, в который встроен не только приемник GPS, но и компас, есть у миллионов японцев, в Европе и США такие телефоны еще в диковинку - выпущенный в нынешнем году Nokia 6210 Navigator был едва ли не первым.
Но ситуация изменится быстро - создатели Enkin, который нуждается в не менее экзотическом наборе датчиков, убеждены в этом. "Еще несколько лет назад распространенные ныне датчики вроде GPS или акселерометров были такой же редкостью, как электронные компасы или мощная 3D-графика", - напоминает Рафаэль Шпринг. Будет спрос - предложение не заставит себя ждать. Даже в недорогих мобильных телефонах скоро появится GPS. "Все это случится куда быстрее, чем через десять лет", подтверждает Алекс Ламбеек, вице-президент Nokia, отвечающий за "бюджетные" модели.
Но кто может потратить несколько лет на ожидание? Когда в исследовательском подразделении Nokia начинали работу над программой MARA, в ассортименте крупнейшего производителя сотовых телефонов не нашлось ни единой модели с необходимыми функциями. Для экспериментов с мобильной дополненной реальностью пришлось соорудить конструкцию, состоящую из телефона Nokia 6680 и самодельной приставки, внутри которой скрывался модуль Bluetooth, приемник GPS, трехосный акселерометр и электронный компас. Еще в 2006 году MARA обладала многими возможностями, которые затем независимо от Nokia Макс Браун и Рафаэль Шпринг воспроизвели в Enkin, но в отличие от него, увы, представляла собой очередной лабораторный проект, крайне интересный, но ни к чему не ведущий.
Он был начат, реализован, изучен и закрыт. Если не считать отчета на сайте компании и пары упоминаний в научно-популярных журналах, видимых результатов у него пока не было.
Если все пойдет по плану, то первые модели мобильных телефонов на основе Android попадут на прилавки магазинов в конце текущего года. В их действующих прототипах имеются все необходимые датчики, и создателям Enkin остается только надеяться, что реальные "андроиды" тоже не подкачают.
Android был выбран для Enkin самым естественным образом. За три дня до исторического похода на концерт The Shins в Осаке Google объявил конкурс на новаторские приложения для телефонов Android.
Макс и Рафаэль решили участвовать: программа, которую они задумали, идеально соответствовала условиям конкурса, а сам Android - потребностям Enkin.
В других мобильных операционных системах, по их словам, недостает многих полезных для такого приложения функций. Будь у друзей лишнее время, можно было бы попробовать обойтись без них, но как раз времени-то и не хватало, а жертвовать ради портируемости на другие системы возможностями авторам Enkin не хотелось.
Отлаживать программу приходилось с помощью эмулятора, запущенного на обычном компьютере, причем дело осложнялось тем, что в эмуляторе отсутствовала поддержка камеры и GPS. Брауну и Шпрингу, как и их коллегам из Nokia, пришлось обходиться подручными средствами. Прежде чем взяться за Enkin, они собрали блок, состоящий из камеры, точного трехосного компаса и GPS-приемника Nokia, а затем написали утилиту, позволяющую опрашивать нестандартные датчики из эмулятора.
В мае Google объявил результаты первого этапа конкурса приложений для Android. Enkin отсутствовал в списке победителей, но это не означало конец игры для Макса Брауна и Рафаэля Шпринга. Последняя запись в их блоге туманно сообщает, что разработчики Android сами связались с ними. Проект по-прежнему активно развивается, вот только от публичного обсуждения будущего программы ее создатели теперь вежливо отказываются.
Программа Enkin устроена не так уж сложно. Она не пытается обрабатывать видео и полностью полагается на сигналы датчиков. Определив ориентацию мобильника в пространстве, она меняет угол обзора невидимой трехмерной карты, над которой висят текстовые ярлыки с информацией, и подкладывает под нее картинку, поступающую с камеры. Впрочем, авторы не исключают, что со временем они дополнят Enkin более замысловатыми способами сбора информации об окружающем - в том числе и анализом изображений.
Дело в том, что зависимость от GPS заметно ограничивает область применения подобных программ.
Точность навигаторов невелика - обычный приемник запросто может ошибиться на 10–15 метров. Такого разрешения хватает, чтобы отличать одно здание от другого, но не больше того; вдобавок GPS беспомощен в помещениях. Если не найти более точный способ идентификации объектов, то единственным применением мобильных систем дополненной реальности так и останутся лишь ориентирование на местности и развлечения, а мечты о "вездесущем компьютере" и материальных гиперссылках останутся лишь мечтами.
Одно из решений этой проблемы можно найти все в том же списке победителей конкурса приложений для Android, который проводил Google. Как и Navicam Рекимото, программа AndroidScan интерпретирует машиночитаемые коды как гиперссылки, ведущие к информации об объекте. Только в данном случае используются не специально расклеенные в стратегических местах ярлыки, а обычные штрихкоды, которые и так есть на каждой упаковке или обложке. AndroidScan разбирает снятый с помощью камеры смартфона код, выясняет, какому товару он соответствует, и добывает в Интернете информацию о нем - отзывы покупателей, цены, а для аудиодисков - даже соответствующие MP3-файлы на пробу.
Идея, впрочем, не нова: похожий мобильный сервис еще в 2004 году предлагал японский филиал крупнейшего интернет-магазина Amazon (японцы все делают первыми).
Поисковая система Linkoln, которую разрабатывают в Microsoft Research, - это следующий логический шаг. Она справляется не только с машиночитаемыми кодами. Для Linkoln подойдут любые плоские изображения - например, афиши или обложки дисков.
Если картинка содержится в ее базе данных, Linkoln сможет ее отличить.
В распознавании образов видят будущее мобильной дополненной реальности и в Nokia: в прошлом году компания приобрела калифорнийский стартап PIXTO, разработавший технологию Point&Find. Теперь над нею работают в той же лаборатории, где была создана MARA. Телефон с поддержкой Point&Find выделяет на снимке, полученном с помощью встроенной камеры, характерные детали и сверяет их базой данных, хранящейся на сервере. Хотя основа технологии - распознавание образов, информация со встроенного в телефон приемника GPS тоже способна помочь делу. Если известно, где сделан снимок, круг поиска можно ограничить. По фотографии достопримечательности телефон Point&Find выдаст историческую справку и туристическую информацию, а если в объектив попадет афиша фильма, пользователь получит список ссылок на его трейлер и расписание киносеансов.
Создатели похожей системы, которую разрабатывали в Neven Vision, зашли еще дальше: их детище умеет различать не только предметы, но и людей. Впрочем, в этом нет ничего странного, если знать историю компании. Уникальная система распознавания лиц, способная работать на маломощных карманных устройствах, долгое время оставалась "дойной коровой" компании, а основатель Neven Vision Хартмут Невен считался одним из ведущих экспертов в этой области. Пять лет назад Neven Vision начала работу над адаптацией своих патентованных алгоритмов для распознавания мест и предметов и, похоже, преуспела в этом: сообщалось, что уже в 2005 году программа уверенно идентифицировала известные ей объекты и спотыкалась лишь на предметах, которые легко спутает и человек - например, она могла не уловить тонкие различия между похожими моделями сумочек. Невен говорил, что его цель - создание "визуального Google", работающего в реальном мире, а не в Интернете.
Но для этого мало иметь эффективный алгоритм распознавания. Даже если предположить, что эта задача успешно решена, остается еще одна проблема, и не меньшая, - поисковый индекс. Если он неполон, все остальные усилия бесполезны. Можно, конечно, на первых порах ограничиться малым - например, собрать базу данных по книжным обложкам или киноафишам не так уж трудно. Но что дальше? Кому под силу создать достаточно обширную базу данных мест и объектов? Разве что самому Google - и как тут не вспомнить фургончики Google StreetView, второй год колесящие по городам Америки, Японии и Европы и методично фиксирующие облик каждого дома, улицы и переулка. Кто-то уже в шутку сравнивал их с "пауками"-гуглботами, которыми поисковик индексирует сайты. И как знать, возможно, в этом сравнении есть доля правды. В конце концов, Хартмут Невен теперь тоже работает в Google.
Во времена Великой депрессии у американских бродяг был особый жаргон, кодекс чести и даже набор значков-иероглифов, которые они оставляли в местах, где побывали. Три диагональные черты обозначали опасность, нарисованные зубы - обитающую поблизости злую собаку, а перекрещенные лопаты свидетельствовали, что здесь нетрудно найти работу.
В основе новомодных геосоциальных сетей для мобильных телефонов лежит тот же принцип: их участники оставляют на карте метки, которые потом могут увидеть другие, только используют для этого не мел, а специальную программу. Loopt, Nearby, Beetaun, Locly, Synchro Spot - списки приложений для iPhone 3G и Android пестрят разномастными реализациями одной и той же идеи.
Подключить самих пользователей к созданию геоконтента - важнейшая задача. К тому моменту, когда подоспеют мобильные системы дополненной реальности, он должен быть готов, ведь что толку в гиперссылках, если они никуда не ведут? С трехмерными моделями для дополненной реальности еще хуже: их изготовление обходится весьма недешево, и на откуп любителям эту задачу отдать труднее. Дело осложняется почти полным отсутствием общепринятых стандартов: информация, помещенная в одну систему, не годится для другой.
Ситуация в этой области напоминает период, предшествовавший распространению веба, когда каждый онлайновый сервис использовал несовместимое программное обеспечение. Момент, когда появится общепринятый и доступный стандарт, станет переломным в развитии геосервисов и мобильных систем дополненной реальности. Стоит ли пытаться предсказать, что произойдет дальше? Ни один прогноз из старых статей об augmented reality, которые я встретил, не сбылся. Вот и теперь все будет совсем не так, как мы представляем, - это единственное, в чем не приходится сомневаться.