Данные, основанные на том, что пишут люди

В наши дни люди много пишут. Они участвуют в работе форумов, меняют свой статус в социальных сетях, комментируют записи в чужих блогах и даже ведут собственные. Если хорошенько подумать, то мы поймем, что любой текст представляет собой набор данных (причем совершенно бесплатных). Было бы глупо этим не воспользоваться. Все, что вам нужно, – это простой инструмент, способный считывать содержание интересных для вас сайтов и копировать нужную вам информацию в базу данных. Сам по себе процесс сбора информации довольно прост, чего нельзя сказать о ее анализе. Чуть раньше я уже делился с вами парой примеров, как мы можем научить компьютеры воспринимать данные определенным образом. Все сравнительно просто, если речь идет о цифрах. Но когда вы просите компьютер изучить текст, то задача усложняется. При этом я не собираюсь говорить, что это невозможно.

На рынке имеется целый ряд программных продуктов, способных анализировать крупные объемы текста и снабжать нас информацией о том, какие вопросы обсуждают люди, скольким людям они интересны и даже что они чувствуют в отношении обсуждаемого. Вот пример, которым поделилась со мной компания Visible Technologies пару лет назад:

Я ненавижу, что Джордж У. Буш постоянно подвергается критике. Да, он делает ужасные грамматические ошибки – тоже мне, страшное обвинение! Зато он четко поддерживает правильную иммиграционную политику. При этом он творит какие-то странные дела в связи с приватизацией системы социального обеспечения. Не знаю, будут ли теперь голосовать за него ребята, воюющие в Ираке, но они делают то, что должны делать.

Ранние (читай, примитивные) программы для анализа текста считывали количество распознанных слов с положительной или отрицательной окраской, а затем делали заключение о негативной в целом окраске того или иной сообщения.




Проблема состояла в том, что, хотя программа распознавала слова правильным образом, она ошибалась с общей тональностью высказывания. Приведенный выше комментарий был расценен ей как в целом положительный.

Технологии следующего поколения могли разложить текст на субкомментарии и определить их общий настрой. Соответственно, это давало возможность извлечь из каждого поста куда больше информации. Мы можем увидеть, как современные алгоритмы позволяют компьютерам более точно фиксировать и классифицировать темы и настроения людей в ходе их онлайнового общения.

С этим инструментом связано немало вопросов. Не так давно я беседовал с бренд-менеджером дезодоранта Axe. По его словам, сразу после того, как компания впервые использовала этот инструмент, то обнаружила резкий рост интереса к своему продукту в самом начале рецессии. Неужели люди принялись говорить в тяжелые времена о своих дезодорантах? Не совсем. Скорее они говорили о том, как волнуются, что их самих или их друзей могут уволить. Судя по всему, компьютерам, как и прежде, сложно увидеть разницу между разговором о гигиене тела и важнейшем событии в жизни (потере работы).

Несмотря на это, многие компании начали использовать этот инструмент анализа социальных медиа для того, чтобы внимательно наблюдать за происходящим в блогосфере. Вы и сами можете использовать эту технологию для анализа того, что говорят люди о ваших брендах. Не исключено, однако, что вам стоит начать с простого чтения комментариев.

Именно это мы сделали в описанном выше проекте для Ceasars. Компания периодически берет пятьдесят положительных («пять звезд») отзывов о гостиницах с популярного сайта Tripadvisor и пытается найти в них глубокие идеи. Компания организует комментарии по следующим темам: физические атрибуты гостиницы, местоположение, удобства и услуги, – а затем пытается выяснить, что именно понравилось людям и почему они дали гостинице высшую оценку. Иногда, как в случае обзора гостиницы «Париж» в Лас-Вегасе, результаты просто удивляют. Я не раз уже вспоминал этот пример, когда людям, жившим в «Париже», больше всего нравится вид на город из окон гостиничных номеров. После того как компания узнала об этом, она совершила ряд решительных преобразований. Теперь, если вы зайдете на первую страницу сайта гостиницы (ParisLasVegas.com), то увидите точно такую же картину, которая откроется из окна вашего номера. Результат – резкий рост бронирования.

Каждый раз, когда я рассказываю историю о Ceasars, обязательно кто-нибудь спрашивает об использованных нами программах или алгоритмах анализа текста. Люди приходят в реальное изумление, когда я отвечаю, что мы просто читали комментарии на TripAdvisor.com.

Нечто подобное случилось и в IBM. В процессе изучения комментариев клиентов в Интернете компания заметила, что, несмотря на всю привлекательность своей продукции, о ней мало кто писал. Вместо этого люди говорили обо всех крутых вещах, ставших для них доступными благодаря новейшим разработкам IBM. Большинство потребителей не интересуются тем, как именно работает та или иная техника или программа; им совершенно не нужно понимать принципы связи – они просто хотят иметь надежный и удобный мобильный телефон. В результате основные усилия маркетологов IBM переключились с разговоров о протоколе Voice over Internet (IP) и моделях облачных вычислений на рекламный рассказ о придуманных их компанией новых и еще более простых способах общения между людьми. Реклама бренда Lotus была вполне типичной для этой ситуации: «Lotus знает, что вы пытаетесь связаться с людьми, а не их телефонными номерами».

Загрузка...