Опубликовано 12 октября 2010 года
Читатели со стажем не дадут соврать: о системах распознания речи (VRS, Voice Recognition Systems) я писал регулярно, начиная с самой первой статьи, опубликованной в бумажной «Компьютерре» аж в 1996 году! Я делился, помнится, впечатлениями о чуде из чудес компьютерных технологий — программе Dragon Dictate. Вот этот исторический текст, отдаленный от нас во времени почти как полет американцев на Луну (от меня, по крайней мере, и от моих воспоминаний об Америке):
"Наблюдение за Бобом в офисе неизбежно рождало чувство приобщенности к XXI веку. Обставленный компьютерами и мониторами, Боб принимал и отсылал электронную почту, издавал резолюции и созывал собрания совета директоров — и все это без помощи клавиатуры: команды он подавал через микрофон благодаря программе Dragon Dictate. Зрелище просто феерическое! Иное дело — абсолютная сырость самой Dragon Dictate, которая не распознавала каждые три слова из четырех. Бобу приходилось постоянно отвлекаться и вносить изменения в словарный запас программы, причем для этого необходимо было произнести магическое слово"Oops" . В этом случае Dragon Dictate переключается в командный режим и позволяет делать исправления. Я сидел рядом и, закрыв глаза, слушал волшебную музыку очарования технологией: «Упс... упс... упс... упс!»
Но мистер Старер не был бы тем, кем он является на самом деле, — одним из тысячи самых богатых людей Соединенных Штатов (согласно журналу «Fortune»), — если бы не умел вовремя контролировать свои эмоции. После часа ритуальных утренних «упс»-заклинаний он снимал наушники, потягивался и принимался за настоящее дело — подписывал горы бумажных документов, звонил по телефону, летел за пятьсот миль на собственном реактивном самолете на встречи с деловым партнерами и потенциальными клиентами, которые, хоть и не ведали об очаровании технологией, однако обладали просто чудовищным финансово-материальным потенциалом".
Что ж, прошло 15 лет. За это время я предпринимал несколько попыток свериться со свежими достижениями в области распознания речи, однако всякий раз в совершенно конфузном состоянии закрывал тему, покрывая эти самые «достижения» конфузной фигурой умолчания. Отчего так? Оттого, что за 15 лет прогресс нулевой. Именно так — читайте по слогам: ну-ле-вой! Никакой!
Для аналогии приведу еще одну перспективнейшую сферу soft-hard решений, которая топчется на месте те же 15 лет: синтез речи (TTS — Text-To-Speech Engines). О нем я тоже писал миллионократно — при всяком очередном всполохе надежд: то какие-то белорусские товарищи (Sakrament) грозились не сегодня-завтра создать чудо-движок для русской речи, то объявлялась какая-то загадочная якобы 22-килогерцовая «Катя» (ScanSoft RealSpeak Katerina 22Khz), которая на поверку оказывалась чистой воды аберрацией разума (размер TTS 45 мегабайт, тогда как «всего лишь» 16-килогерцовый английский движок AT&T Natural Voices занимает 600 мегов и при этом звучит на фоне русской «Кати» как бог).
Короче говоря, и TTS и VRS, будучи едва ли не самыми перспективными инициативами ай-ти не только на уровне пользователей, но и бизнес-решений, одновременно яляются и самыми тупиковыми и безнадежными. Может найдется, все-таки, профессиональный человек среди читателей Голубятен (а то все больше мельтешат на форуме негативные голубицкоманы), которые объяснят старику-филологу: что такого страшно неподъемного в TTS и VRS, что не позволяет сдвинуть воз с места 15 лет к ряду?!
Поводом к посту послужил разговор с Антонелло, который хвастался андроидной приблудой, встроенной в последнюю версию мобильной ОС (2.2) — Google Voice Actions, кажется так это называется. Поначалу мне очень понравилось, как старый Козловский надиктовал прямо в камеру Скайпа мне письмо и одним кликом отправил по мылу. Все прошло гладко — примерно так, как мечталось нам в 1995 году. Впечатлившись, я тут же бросился искать нечто подобное на моем любимом айфоне. И быстро нашел: называется... вы не поверите: Dragon Dictation свежайшей (октябрьской) версии 2.02, который справляется с задачей распознания речи не хуже Google Voice Actions.
После получаса работы с Dragon Dictation эйфорию, увы, сменила печаль времен «Упс-упс-упс» моего дорогого учителя Боба Старера. Наверное, распознание происходит получше, чем в 1995 году. Во всяком случае мобильный вариант (на айфоне) смотрится сильно интереснее последней (второй) версии Dragon Dictate, изданной в этом году для Mac OS X. Эту — последнюю — приходится обучать и обучать до бесконечности, и все равно результату до идеала примерно как до Луны.
Продукты Dragon (компания Nuance Communications), кстати, работают только на английском, немецком, французском и — кажется, либо на подходе — испанском языках. О русском даже мечтать не приходится. Когда-то был такой «Горыныч» — явный филиал Dragon Dictate либо пародия на него — однако канул в лету: в прошлом году видел на Горбушке какую-то полуОЕМ версию этого барахла непонятно, какого года выпуска. Короче, все разработки с распознанием русской речи, похоже, сдохли окончательно и бесповоротно. Наверное, растворились в нанотехнологиях.
Google Voice Actions вроде с русским справляется. Встроенный в iOS 4 надкусановый вариант управления голосом на фоне андроидной приблуды смотрится, конечно, ребенком. Но, опять же, по гамбургскому счету: ВСЕ перечисленное, ВСЕ-ВСЕ-ВСЕ без исключения — это жалкие потуги, даже не претендующие на хоть какую-то динамику в направлении того, что 15 лет назад казалось и не идеалом вовсе, а гарантированной данностью завтрашнего дня.
Ну и что случилось? Почему все так печально? Кто-нибудь даст объяснение импотенции? Ась?
Опубликовано 17 октября 2010 года
Сегодня поговорим о форточном софте ☺ Как же так?! Что такое?!
А что такое? Все в порядке. Или кто-то всерьез повелся на яблочно-форточный холивар? Чего хочешь ожидал от брата-гоблина, но не такой же наивности. Или кто-то упустил из вида, что — вон он, стоит на столе миленький маленький такой Vaio Z с замечательнейшей Windows 7 64-bit, под которой ноутбук залетал так, как ему и не снилось с анахронистичной ХР. Короче говоря, в доме моем по-прежнему обитает добрая дюжина компьютеров, из которых половина шуршит под Маком, а другая под Семеркой. И ничего. Как-то уживаются между собой. Тот факт, что я лично использую для собственных нужд форточный компьютер только ради биржевого софта (напрочь отсутствующего под Маком) и общения со своими банками (из тех, кто имел глупость обратиться к узколобым виндузятникам за помощью... вот те и написали банковский front-end под ActiveX, юмористы эдакие), ничего не меняет в общем раскладе. А он таков, что выбор ИЛИ-ИЛИ в моем айтишном хозяйстве никогда не стоял и не стоит. Использовал и буду использовать ВСЕ, что мне удобно: и Мак, и айфон, и Windows, и Linux Embedded. На ближайший день рождения близким планирую подарить Samsung Galaxy Pad (ну здравствуй Андроид!). И вовсе не потому, что мне понравился тухес коллеги Вассермана, вставленный на весь экран в видеокамеру после того, как он уронил планшет под стол на презентации, а потому что — повторюсь — нет нужды выбирать между. Все, что классно, все буду тащить в дом по мере сил и возможностей. Вот такое у меня motto и в нем нет места холиварам.
Вобщем, как писал я 10 лет про форточный софт, так и буду писать по оказии. Главное, чтобы была эта оказия, а то не ровен час — прикроют эти форточки, как уже прикрыли мобильный вариант под натиском Андроида (iOS, конечно же, тут не причем — совершенно на другую аудиторию ориентированы айфоны, не отравленную ядом декомпиляции ☺).
Сегодня хочу напомнить еще раз читателям о существовании замечательного — если не лучшего — органайзера LeaderTask из-под пера Ивана Абрамовского. Повод к напоминанию — выход новой версии, в которой доведен до ума почтовый клиент, переработана серверная часть (работает быстрее и надежнее), появилась возможность использовать в чате мгновенные сообщения, ну и еще более сотни мелких улучшений и исправлений.
По замечательной традиции — грамотном подходе к маркетингу софтверного продукта — разработчики LeaderTask выложили на своем сайте новый видеоролик, наглядно и четко раскрывающий основные достоинства программы. Признаюсь, я даже не заметил, как позиционирование ЛидерТаска эволюционировало от навороченного органайзера для индивидуального пользования к CRM (ну ... или почти полноценной). Эволюция эта, безусловно, сказалась на цене, однако на корпоративном поле она смотрится откровенным give-away по сравнению с продуктами конкурентов.
Ну а что же делать нам, простым смертным, не озабоченным проблемами директора предприятия? Ведь LeaderTask как был так и остался программой с превосходной scalability, масштабируемостью, поэтому превращение CRM обратно в самый мощный и навороченный органайзер индивидуального пользования — дело 5 минут. Здесь мы и подошли к основному поводу для написания воскресного поста: уж очень хочется, чтобы читатели не только бурчали и фыркали на форуме, но и получали материально осязаемое удовольствие от «Голубятен» ☺
Итак, конкурс: первые три участника, правильно ответившие на вопрос, получат лицензию LeaderTask Управление Компанией на три рабочих места (слегка так 5997 рублей!). А вот и сам вопрос: «Начиная с какой версии в LeaderTask появилась функция Почтовый клиент?» Ответ размещайте на форумной ветке.
PS Всем отлично догулять выходные!
PPS Если ничего не произойдет непредвиденного, агрегатор всего-всего моего наследия ☺sgolub.ru запустится уже в ближайший вторник