Вообще-то компания Cognitive Technologies собирала журналистов в гостинице «Алроса» 27 января на официальную пресс-конференцию по итогам года. Гвоздём программы, однако, стало не скучное перечисление достижений этого крупнейшего игрока на отечественном корпоративном рынке программного обеспечения. Самое интересное в деятельности Cognitive, в далеком 1993 году созданной на основе группы учёных — специалистов по искусственному интеллекту, — это технологии. И сейчас компания снова сумела удивить собравшихся.
Год назад специалисты компании уже демонстрировали программу, которая определяет авторство текста с такой же уверенностью, как эксперт-криминалист определяет принадлежность отпечатков пальцев. Как раз на днях технология семантического анализа текста, на которой основывалась та демонстрация, была продана «Яндексу». Пока можно только гадать, куда конкретно крупнейший российский поисковик собирается её приложить, но главное направление очевидно: это методы «понимания» содержания текстов, а следовательно, обеспечения лучшего их соответствия пожеланиям запрашивающего.
А на этот раз Cognitive показала свое умение решать классическую задачу "отличить кошку от собаки". В 1967 году известный советский кибернетик Михаил Моисеевич Бонгард опубликовал книгу " Проблемы узнавания ", посвященную проблемам теории распознавания образов. В этой книге в качестве приложения был помещён "Задачник для узнающей программы" — перечень из сотни задач распознавания ("тесты Бонгарда"). Характерной чертой этих задач было то, что они легко решаются человеком, но при этом не имеют чётких критериев для их описания в виде алгоритма.
Одной из этих задач и было — "отличить кошку от собаки", задача, которую любой ребенок, даже ещё не научившийся говорить, решает с полувзгляда. Если вы захотите поиграться в вопросы-ответы на эту тему, то быстро обнаружите, что любая черта, характерная для кошачьих (или, наоборот, собак), не может служить однозначным и стопроцентным критерием для отличия во всех случаях. Убираемые когти? Кошка может их выпустить в любой момент, но от этого мы её с собакой не перепутаем. Вертикальный зрачок? Кошку с зажмуренными глазами мы также легко отличаем. И так далее.
Представители Cognitive заранее предложили всем желающим принести изображения кошек и собак на флэшках, и на компьютере, установленном в холле гостиницы, где проходила пресс-конференция, демонстрировали работу программы. Ни одной ошибки сделано не было — программа уверенно (с соотношением 30:8) определяла собаку даже на фотографии лохматого шпица.
Демонстрация эта, по словам представителей компании, была лишь иллюстрацией к решению общей задачи классификации изображений. Пока не существует программ, с достаточной для практического применения уверенностью решающих даже простейшие задачи такого рода: например, выделить все женские портреты из некоторой галереи, или ещё проще — найти из всех картин только пейзажи.
Все реально работающие системы поиска и классификации изображений сводятся главным образом к анализу текстового контекста (как в поиске Google по картинкам), а если и пытаются что-то распознавать ( Face Search, Exalead и прочие), то по очень ограниченным критериям и с решительно недостаточной релевантностью результатов. Даже системы по элементарному поиску дубликатов одного и того же изображения нередко спотыкаются на простом изменении соотношения сторон при обрезке картинок. А про фиаско, которое потерпели системы выявления разыскиваемых лиц по изображениям, полученным от следящих видеокамер (вроде популярной некогда программы FaceIT), пресса писала неоднократно.
Переоценить последствия от нахождения общей методики распознавания изображений и отнесения их к одному из заданных классов сложно. Это переворот не только в обычном поиске по картинкам в Сети, но и в криминалистике, в научных приложениях (в геоинформационных системах, в биологии, в медицине), в военной области. Так что можно лишь пожелать компании всяческих успехов в этом направлении. Но заодно стоит и предостеречь от необоснованного оптимизма: как известно, и задачу машинного языкового перевода ещё полвека назад полагали почти что решённой. А как это работает на практике и по сей день, мы все хорошо знаем…