«Разумеется, он проиграет», – сказали они.
По результатам республиканских предварительных выборов 2016 года эксперты пришли к выводу, что у Дональда Трампа нет никаких шансов, поскольку он оскорбил все возможные меньшинства. Опросы показали, сколь малое число американцев одобряет такое посягательство на их права.
Большинство опрошенных экспертов в то время также считали, что Трамп проиграет на всеобщих выборах. Слишком многие потенциальные избиратели говорили, что его манеры и взгляды вызывают у них отвращение.
Однако были факты, указывавшие на то, что на самом деле Трамп может выиграть как предварительные партийные, так и всеобщие выборы. И эти подсказки можно было найти в интернете.
Я эксперт в области интернет-данных. Ежедневно я отслеживаю цифровые следы людей, перемещающихся по ссылкам во всемирной паутине. По тому, на какие ссылки или клавиши они нажимают, я пытаюсь понять, чего они действительно хотят, что делают и кто они (да и мы все) есть на самом деле. Хочу рассказать, как я встал на этот необычный путь.
История началась – теперь кажется, что давным-давно, – с президентских выборов 2008 года. Социологи тогда вели долгие дискуссии: насколько сильны расовые предрассудки в Америке?
Барак Обама был выдвинут как первый афроамериканский кандидат в президенты США от лидирующей партии. Он победил, и довольно легко. Опросы показали, что раса не была тем фактором, который влиял на выбор американцев. Институт Гэллапа, например, проводил многочисленные опросы до и после первого избрания Обамы. Их вывод: американских избирателей не особо волновало, что Барак Обама черный[1]. Вскоре после выборов двое известных профессоров из университета Беркли[2] в Калифорнии внимательно изучили собранные в ходе исследований материалы, применяя сложнейшие методики обработки данных. В результате они пришли к аналогичному выводу.
Таким образом, во время президентства Обамы это стало общепринятым мнением, которое распространилось во многих СМИ и академических кругах. Источники, на которые восемьдесят с лишним лет опирались СМИ и ученые-социологи для понимания устройства нашего мира, утверждают, что подавляющее большинство американцев не волновало, что Обама – чернокожий, когда они решали, может ли он стать их президентом.
Эта страна, издавна запятнанная рабством и законами Джима Кроу[3], казалось, наконец перестала судить о людях по цвету их кожи. Это вроде бы должно было указывать на то, что расизм в Америке на последнем издыхании. Некоторые эксперты даже заявили, что мы живем в пострасовом обществе[4].
В 2012 году я был аспирантом в области экономики и разочаровался в выбранном мной направлении, будучи уверенным в том, что я уже довольно хорошо понимаю, как устроен мир, о чем люди думают и что их заботит в двадцать первом веке. А когда дело дошло до вопроса о предрассудках, я позволил себе поверить, исходя из того, что я читал в трудах по психологии и политологии, что явный расизм присущ весьма ограниченному проценту американцев и большинство из них – консервативные республиканцы, в основном живущие в глубинке на Юге.
Затем я обнаружил Google Trends.
Появление этого приложения в 2009 году прошло практически незамеченным. Оно позволяет пользователям определить, насколько часто то или иное слово или фраза появлялись в разных местах и в разное время, и преподносилось оно как инструмент для развлечения, например для обсуждения с друзьями, какие знаменитости сейчас популярны или какая одежда вошла в моду. Ранние версии программы даже включали шутливое предостережение о том, что «не стоит писать докторскую диссертацию», опираясь на такие данные, что сразу же побудило меня написать диссертацию на их основе[5].
В то время данные поисковика Google, похоже, не считались достойным источником информации для серьезных научных исследований, ведь они не создавались как инструмент для изучения человеческой психологии. Google придумали для того, чтобы люди могли познавать мир, а не для того, чтобы исследователи изучали людей. Но оказалось, что следы, которые мы оставляем, выискивая крупицы знаний в интернете, чрезвычайно показательны.
Другими словами, люди, ищущие информацию, сами являются источником информации. То, когда и где они ищут факты, цитаты, шутки, места, людей, вещи или помощь, оказывается, может рассказать нам гораздо больше об их реальных мыслях, желаниях, опасениях и делах, чем можно себе представить. И особенно наглядно это проявляется тогда, когда люди не столько задают поисковику вопросы, сколько доверяются ему: «я ненавижу своего босса», «я пьян», «мой папа ударил меня».
Печатание слова или фразы в аккуратном белом окошке оставляет маленький реальный след. Помноженный на миллионы, в итоге он выявляет глубинные реалии. Первое слово, которое я набрал в Google Trends, было «Бог». Я узнал, что штатами, в которых чаще всего в поисковых запросах в Google упоминается Бог, были Алабама, Миссисипи и Арканзас – так называемый Библейский пояс. И эти поиски чаще всего происходят по воскресеньям. В этом нет ничего удивительного, но любопытно, что поиск данных позволяет выявить настолько ясную картину. Я набрал Кnicks[6] и увидел, что большинство запросов относится к городу Нью-Йорк. Ежу понятно. Тогда я набрал свое имя. «Мы сожалеем, – ответил мне Google Trends. – Не хватает поискового объема, чтобы показать результаты». Так я узнал, что Google Trends предоставляет данные только тогда, когда достаточно много людей выполняет один и тот же поиск.
Но сила поисковой системы Google не в том, чтобы выяснить, что наибольшей популярностью Бог пользуется на Юге, Кnicks – в Нью-Йорке или что я не популярен нигде. Любой опрос может выявить это. Могущество и власть Google заключается в том, что люди рассказывают гигантской поисковой системе то, что они не могли бы сказать никому другому.
Возьмем, к примеру, секс (к этой теме я вернусь позднее и рассмотрю ее более подробно). Результатам опросов нельзя доверять, поскольку люди редко говорят правду о своей сексуальной жизни. Я проанализировал данные Всеобщего социального исследования[7], которое считается наиболее достоверным и авторитетным источником информации о поведении американцев. По данным этого опроса, когда речь идет о гетеросексуальном контакте, женщины говорят, что они занимаются сексом в среднем пятьдесят пять раз в год, в шестнадцати процентах случаев используя презерватив. Это дает около 1,1 миллиарда презервативов в год. Но, по утверждению гетеросексуальных мужчин, ежегодно используется 1,6 миллиарда презервативов. По определению эти цифры должны совпадать. Так кто же говорит правду – мужчины или женщины?
Как оказалось – ни те, ни другие. По данным компании Nielsen, которая отслеживает поведение потребителей, ежегодно продается менее 600 миллионов презервативов[8]. Так что лгут и те и другие; единственное различие в том, насколько сильно.
Ложь на самом деле очень широко распространена. Мужчины, которые никогда не были в браке, заявляют об использовании в среднем двадцати девяти презервативов в год. Это число следует добавить к числу презервативов, продаваемых в Соединенных Штатах людям, состоящим в браке и одиноким, вместе взятым. Люди, состоящие в браке, наверное, тоже преувеличивают свою сексуальную активность. В среднем женатые мужчины в возрасте под шестьдесят пять говорят, что они занимаются сексом раз в неделю. Только один процент признается, что у них не было секса целый год. Замужние женщины сообщают о немного меньшем количестве секса, но совсем немного.
По результатам поиска в Google мы обнаружим менее яркую, но, как мне кажется, гораздо более правдоподобную картину. Больше всего жалоб на отсутствие секса в браке. Поисковый запрос «брак без секса» делается в три с половиной раза чаще, чем запрос «несчастливый брак», и в восемь раз чаще, чем «брак без любви». Даже неженатые пары довольно часто жалуются на то, что они не занимаются сексом. Поисковый запрос «отношения без секса» уступает только запросам тех, кто ищет «жесткий секс». (Хочу подчеркнуть, что все эти данные предоставлены анонимно. Google, разумеется, не сообщает данные поиска конкретной личности.)
Поисковик Google позволил нам увидеть картину Америки, которая разительно отличается от той пострасовой утопии, которую показали результаты опросов. Помню, как я впервые набрал слово «ниггер» в Google Trends. Можете считать меня наивным, но, учитывая, насколько «токсично» это слово, я ожидал, что поисковый объем будет очень небольшим. Ребята, я был неправ. В Соединенных Штатах слово «ниггер» – или во множественном числе «ниггеры» – входило в поисковые запросы примерно столько же раз, сколько слова «мигрень», «экономист(ы)» и «Лейкерс». Я подумал, что, если связать это слово со словом «рэп», возможно, результат будет другим. Но нет. Слово, используемое в рэпе, почти всегда – «нигга». Какая же мотивация была у американцев, осуществлявших поиск со словом «ниггер»? Зачастую они ищут анекдоты, высмеивающие афроамериканцев. Но на самом деле только двадцать процентов поисковых запросов со словом «ниггер» включают и слово «анекдот», тогда как большинство подобных поисков включают фразы «тупые ниггеры» и «я ненавижу ниггеров».
И ежегодно – миллионы таких поисков. Множество американцев в уединении, находясь дома, делают шокирующе расистские запросы. Чем больше я занимался этим исследованием, тем больше получал тревожной информации.
В первую ночь после выборов Обамы, когда большинство комментариев были хвалебными и признающими историческое значение его избрания, примерно один из каждых ста поисковых запросов Google, содержащих слово «Обама», также включал слова «ККК»[9] или «ниггер(ы)». Возможно, это не так уж много, учитывая тысячи нерасистских запросов в Google об этом молодом незнакомце с очаровательным семейством, который собирался взять на себя выполнение самой значимой в мире работы. В ночь выборов поисковых запросов и регистраций на Stormfront[10] – сайте белых националистов с неожиданно высокой популярностью в США – было более чем в десять раз больше, чем обычно. В некоторых штатах поисков по запросам «ниггер-президент»[11] было намного больше, чем по запросам «первый черный президент».
Темная сторона и неприязнь, которые не были выявлены традиционными методами, стали вполне очевидны после анализа поисковых запросов, которые делали люди.
Все эти запросы плохо согласуются с обществом, в котором расизм – незначительный фактор. В 2012 году я знал Дональда Дж. Трампа в основном как бизнесмена и ведущего реалити-шоу. Я, как и большинство людей, представить не мог, что спустя четыре года он станет серьезным кандидатом в президенты. Тем не менее, все эти неприглядные поисковые запросы нетрудно связать с успехом кандидата, который, используя злобные нападки на иммигрантов, разжигая неприязнь и нетерпимость, часто играл на худших человеческих проявлениях.
Анализ поиска в Google также показал, что мы во многом имели неверное представление о локализации расистских настроений в стране. По опросам и традиционным представлениям, современный расизм базируется преимущественно на Юге и в основном среди республиканцев. Однако места с наивысшим уровнем расистских запросов были обнаружены – помимо Западной Виргинии, Южной Луизианы и Миссисипи – также в штатах Нью-Йорк, Пенсильвания, Западный и Восточный Огайо, Мичиган, промышленный и сельский Иллинойс. По данным Google, правильнее было бы противопоставить не Юг и Север, а Восток и Запад. Вы не получите подобного уровня запросов сильно к западу от Миссисипи. И распространение расизма не ограничивается средой республиканцев. Фактически расистские запросы в местах с высоким процентом республиканцев были не выше, чем в местах с высоким процентом демократов. Иными словами, анализ поиска в Google помог составить новую карту локализации расизма в США, и эта карта выглядела совершенно иначе, чем мы себе представляли. Дело в том, что республиканцы на Юге с большей вероятностью признаются в своем расизме, хотя и множество демократов на Севере имеют аналогичные взгляды.
Четыре года спустя эта карта окажется довольно значимой при объяснении политического успеха Трампа.
В 2012 году я использовал эту карту локализации расизма, разработанную по частоте запросов в Google, чтобы полностью пересмотреть ту роль, которую сыграла расовая принадлежность Обамы, и увидел четкую картину. В районах страны с наибольшим количеством расистских поисковых запросов рейтинг Обамы был существенно ниже рейтинга Джона Керри, белого кандидата в президенты от Демократической партии. Такой результат в этих районах невозможно было объяснить никаким иным фактором, в том числе уровнем образования, возрастом, религиозностью или владением оружием. Расистские запросы не позволяли прогнозировать низкий уровень популярности ни для какого другого демократического кандидата. Только для Обамы.
В результате Обама потерял примерно четыре процента голосов по стране вследствие откровенного расизма. Это было намного больше, чем ожидалось, исходя из данных опросов. Барак Обама, конечно, был избран и переизбран президентом, в чем не последнюю роль сыграли очень благоприятные условия для демократов, но ему пришлось преодолеть намного больше трудностей, чем кому-либо, кто полагался на традиционные источники данных, которые в большинстве случаев были ошибочны. В стране было достаточно расистов, способных одержать победу на предварительных или всеобщих выборах не в столь благоприятный для демократов период.
Поначалу мое исследование было отклонено пятью научными журналами[12]. Многие из рецензентов – извините за брюзжание – заявили, что не могут поверить, будто так много американцев скрывают свой расизм. Это противоречило тому, что люди говорили при опросах. Кроме того, исследование поисковых запросов в Google казалось им очень странным способом получения данных.
Теперь, когда мы стали свидетелями инаугурации президента Дональда Дж. Трампа, мои результаты кажутся вполне убедительными.
Чем больше я изучал этот вопрос, тем больше понимал, что в Google есть много информации, которую не принимали во внимание при опросах и которая, помимо всего прочего, может быть полезна для понимания результатов выборов.
Например, информация о том, кто на самом деле будет принимать участие в выборах. Больше половины граждан, которые не голосуют, говорят исследователям, проводящим опросы непосредственно перед выборами, что они намерены пойти голосовать, что искажает оценку явки, в то время как данные о поиске в Google по фразам «как голосовать» или «где голосовать» за неделю перед выборами помогут более точно предсказать, где предполагается большая активность на избирательных участках.
Можно даже найти информацию о том, за кого они пойдут голосовать. Мы со Стюартом Гэбриэлом, профессором университета штата Калифорния, Лос-Анджелес, нашли удивительную подсказку для определения того, как именно люди планируют голосовать. Большой процент поисков, связанных с выборами, содержит запросы с именами обоих кандидатов. Во время выборов 2016 года, когда соперничали Трамп и Хиллари Клинтон, некоторые люди делали запрос: «выборы: Трамп – Клинтон». Другие искали: «Клинтон – Трамп, дебаты». По сути, двенадцать процентов поисковых запросов со словом «Трамп» включали и слово «Клинтон». Более четверти поисковых запросов с фамилией Клинтон также содержали и фамилию Трампа.
Мы обнаружили, что эти, казалось бы, нейтральные поиски на самом деле могут дать нам некоторые подсказки о том, какого кандидата человек поддерживает.
Как? Все зависит от порядка, в котором кандидаты появляются в запросе. Наши исследования показывают, что человек со значительно большей вероятностью поставит имя кандидата, которого он поддерживает, первым в поисковом запросе, содержащем имена обоих кандидатов.
В ходе предыдущих трех выборов кандидат, фамилию которого ставили первым в поисковых запросах, набирал наибольшее число голосов. Что еще интереснее, порядок, в котором искали в сети кандидатов, позволял предсказать, чью сторону примет тот или иной штат.
Порядок, в котором имена кандидатов появляются в поисковых запросах, также содержит информацию, которую упускают при опросах. В 2012 году во время выбора между Обамой и республиканцем Миттом Ромни Нейт Сильвер, виртуозный статистик и журналист, точно предсказал результат во всех пятидесяти штатах. Однако мы обнаружили, что в тех штатах, которые чаще ставили Ромни перед Обамой в поисковых запросах, дела Ромни на самом деле были лучше, чем предсказал Сильвер. В штатах, которые чаще ставили Обаму перед Ромни, дела Обамы все-таки были лучше, чем предсказал Сильвер.
Этот показатель может содержать информацию, которая не выявляется при опросах, потому что избиратели либо обманывают сами себя, либо им неудобно раскрывать перед социологами свои истинные предпочтения. Вероятно, если бы они в 2012 году говорили, что еще не определились, но при этом постоянно делали запросы: «выборы: Ромни – Обама», «дебаты Ромни – Обама» и «Ромни – Обама, выборы», это значило бы, что они планируют все же голосовать за Ромни.
Так что же, Google предсказал победу Трампа? Ну, нам еще предстоит проделать большую работу – и мне придется объединить свои усилия с большим числом других исследователей, – прежде чем мы поймем, как лучше всего использовать данные Google, чтобы предсказать результаты выборов. Это новая наука, и пока мы располагаем данными лишь по нескольким прошедшим выборам. Разумеется, я не говорю, что наступил момент – если он вообще когда-нибудь наступит, – когда можно полностью отказаться от опросов общественного мнения как инструмента, который помогает прогнозировать выборы.
Но могу сказать определенно, что в интернете можно было найти много свидетельств того, что у Трампа было больше шансов стать президентом, чем получалось на основании данных, собранных во время опросов.
Во время всеобщих выборов можно было заметить подсказки, свидетельствующие в пользу того, что электорат на стороне Трампа. Черные американцы говорили интервьюерам, что они в массе своей будут голосовать против Трампа. Но поисковые запросы в Google с выяснением информации о голосовании на участках с преобладанием афроамериканцев, показали, что их активность снижается. В день выборов Клинтон будет неприятно удивлена низкой явкой чернокожего населения.
Были даже признаки того, что неопределившиеся избиратели перешли на сторону Трампа. Мы с Гэбриэлом обнаружили, что в ключевых штатах на Среднем Западе, в которых Клинтон надеялась одержать победу, намного больше поисковых запросов выстраивались как «Трамп – Клинтон», чем как «Клинтон – Трамп». Действительно, Трамп во многом обязан своим избранием тому, что он значительно превзошел там результаты своих показателей по опросам.
Но ключевой подсказкой – и я в этом абсолютно убежден, – которая помогла обнаружить основные признаки того, что Трампа может ждать успех – для начала на предварительных выборах – был все тот же скрытый расизм, который выявило мое исследование во время избрания Обамы. Анализ поисковых запросов в Google выявил озлобление и нетерпимость у значительного числа американцев, которые эксперты не замечали в течение многих лет. Эти данные показали, что мы жили в обществе, совершенно отличном от того, которое представляли нам ученые и журналисты, опираясь на опросы. Они выявили отвратительную, пугающую и повальную злость по отношению к кандидату, ожидающему, что избиратели отдадут за него свои голоса.
Люди часто лгут – и себе, и другим. В 2008 году американцы сообщили в ходе опросов, что их больше не волнует расовая принадлежность человека. Восемь лет спустя они избрали в качестве президента Дональда Дж. Трампа – человека, который ретвитнул ложное утверждение, что черные несут ответственность за большую часть убийств белых американцев, защищал своих сторонников, обвиненных в избиении чернокожих протестующих из Black Lives Matter (BLM) – интернационального движения активистов, выступающих против насилия в отношении чернокожего населения, – на одном из митингов, и колебался, следует ли отвергать поддержку бывшего лидера Ку-клукс-клана. Тот же скрытый расизм, который повредил Бараку Обаме, помог Дональду Трампу.
В начале предварительных выборов Нейт Сильвер уверенно заявил, что у Трампа практически нет никаких шансов на победу. Но в ходе выборов становилось все яснее, что Трамп пользуется широкой поддержкой. Сильвер решил взглянуть на данные, чтобы понять, что же происходит? Каким образом Трампу удалось так успешно продвинуться вперед?
Сильвер заметил, что районы, где Трамп выступал успешнее всего, представляют собой странную карту. Трамп хорошо зарекомендовал себя в районах Северо- Востока и промышленного Среднего Запада, а также на Юге. На Западе он был принят заметно хуже. Сильвер начал искать параметры, объясняющие эту картину. Причина в безработице? Это религия? Это владение оружием? Уровень иммиграции? Оппозиция Обаме?
В итоге Сильвер пришел к выводу, что единственным фактором, который лучше всего коррелирует с поддержкой Дональда Трампа[13] на республиканских первичных выборах, было то, что я обнаружил четыре года назад. Трампа поддержали те области, жители которых сделали большинство поисковых запросов в Google со словом «ниггер».
Почти каждый день в течение последних четырех лет я занимался анализом данных Google. Это включало работу в качестве аналитика данных компании Google, которая наняла меня, узнав о моих исследованиях расизма. И я продолжал работать с этими данными как автор редакционных статей и журналист газеты «Нью-Йорк таймс». Новые откровения не заставили себя ждать. Психические растройства, сексология, насилие над детьми, аборты, реклама, религия, здоровье – довольно серьезные темы. И этот набор данных, которого не существовало еще пару десятилетий назад, позволяет взглянуть на них совершенно по-другому. Экономисты и социологи постоянно охотятся за новыми источниками данных, так что позвольте мне быть откровенным: сегодня, я убежден, поиск в Google предоставляет самый важный набор данных о человеческой психологии, который когда-либо был собран.
Однако этот набор данных – не единственный инструмент для понимания нашего мира, предоставляемый интернетом. Вскоре я понял, что есть и другие золотоносные цифровые жилы. Я скачал всю Википедию, покопался в профилях Facebook и прошерстил Stormfront. Кроме того, PornHub, один из крупнейших порнографических сайтов интернета, дал мне свои полные данные по анонимному поиску и просмотрам видео, которые совершали люди со всего мира. Другими словами, я глубоко погрузился в то, что сейчас называют большими данными[14]. Затем я опросил десятки других специалистов – ученых, журналистов и предпринимателей, которые также проводят изыскания в этой новой сфере. Многие из их исследований будут обсуждаться в этой книге.
Но сначала я должен признаться: я не собираюсь давать точное определение того, что такое «большие данные». Почему? Потому что это, по сути, довольно расплывчатое понятие. Большие – это сколько? 18 462 наблюдений – это малые данные, а 18 463 – уже большие? Я предпочитаю инклюзивное понимание того, что относится к этому классу: большая часть данных, с которыми я работал, была получена из интернета, но при обсуждении я буду принимать во внимание и другие источники. Мы переживаем взрывной рост количества и качества различных видов доступной информации. Новые потоки информации влились через Google и социальные сети. Некоторые из них – продукт оцифровки информации, которая раньше была спрятана в шкафах и папках, другие получены в результате увеличения ресурсов, выделяемых на маркетинговые исследования. Часть исследований, рассмотренных в этой книге, вообще не нуждаются в огромных массивах данных, вместо этого в них просто применяется новый творческий подход к данным, что особенно ценно в наш век переизбытка информации.
Так почему же именно большие данные обладают такой огромной мощью? Представьте себе все данные, которые разлетаются по интернету всего за день – по правде говоря, мы подсчитали объем такой информации. В начале двадцать первого века за день люди генерируют в среднем 2,5 миллиона триллионов байт данных[15].
И эти байты и есть ключ к разгадке.
Женщина скучает вечером в четверг. Она немного погуглила «приличные смешные видео». Она проверила свою электронную почту. Она отметилась в Twitter. Затем она гуглит «анекдоты про ниггеров».
Мужчине грустно. Он погуглил «симптомы депрессии» и «рассказы о депрессии». Затем разложил пасьянс.
Женщина видит в Facebook объявление о том, что ее подруга выходит замуж. Женщина не замужем, одинока, и она блокирует информацию о подруге.
Мужчина в перерыве между поисками информации о НХЛ и рэпе задает в поисковике вопрос: «Мечтать о поцелуях мужчины – это нормально?»
Женщина кликает на сюжет BuzzFeed про «15 милых кошек».
Мужчина видит ту же историю о кошках. Но на его экране она называется «15 самых очаровательных кошек». Он не кликает на ссылку.
Женщина гуглит: «Мой сын гений?»
Мужчина гуглит: «Как заставить мою дочь похудеть?»
Женщина в отпуске с шестью лучшими подругами. Все ее подруги постоянно говорят, как им весело. Она набирает в Google: «Одиночество вдали от мужа».
Мужчина, муж предыдущей женщины, в отпуске с шестью своими лучшими друзьями. Он набирает в Google: «Признаки того, что ваша жена изменяет».
Некоторые из этих данных содержат информацию, о которой в иной ситуации никто никогда не узнал бы. Если мы объединим все это, сохраняя анонимность, строго следя за тем, чтобы никто никогда не узнал о страхах, желаниях и поведении конкретных лиц, и добавим некоторые научные данные, мы начнем по-новому смотреть на людей – их поведение, их желания, их характеры.
Рискуя показаться пафосным, скажу: фактически я пришел к выводу, что новые данные, ставшие более доступными в нашу цифровую эпоху, способны радикально расширить наше понимание человеческой природы. Микроскоп позволил нам увидеть в капле воды из пруда гораздо больше, чем мы думали. Телескоп показал нам в ночном небе намного больше того, что мы видели невооруженным глазом. И теперь новые цифровые данные открывают нам в человеческом сообществе многое из того, что было скрыто. Они могут стать нашими современными микроскопом или телескопом, и полученная ими информация, возможно, приведет к важнейшим, даже революционным открытиям.
В подобных высказываниях есть еще один рискованный момент: они могут воприниматься не только как пафосные, но и трендовые. Многие делали серьезные заявления о могуществе больших данных, не приводя никаких доказательств. Это побудило людей, скептически относящихся к большим данным, которых тоже немало, отвергнуть идею исследования больших массивов данных. «Я не говорю, что нет никакой информации в больших данных, – пишет публицист и статистик Нассим Талеб, – там масса информации. Проблема – основная – заключается в том, что иголку приходится искать в непрерывно растущих стогах сена».
Одна из основных целей этой книги – представить недостающие доказательства и показать, что можно сделать с большими данными, то есть как можно при желании находить иголки в непрерывно растущих стогах сена. Я надеюсь предоставить достаточно примеров того, как большие данные дают возможность по-новому взглянуть на человеческую психологию и поведение, чтобы вы могли увидеть очертания чего-то действительно революционного.
«Постой, Сет, – могли бы вы сказать сейчас. – Ты обещаешь революцию. Ты так красноречиво разглагольствуешь об этих больших новых наборах данных. Но до сих пор ты использовал весь этот поразительный, впечатляющий, умопомрачительный, новаторский набор данных только для того, чтобы показать мне в основном два момента: в Америке много расистов и люди, особенно мужчины, сильно преувеличивают, говоря о том, как часто они занимаются сексом».
Я допускаю, что иногда новые данные просто подтверждают очевидное. Если вы считаете, что эти выводы были очевидны, подождите, пока не доберетесь до четвертой главы, где я предоставлю вам отчетливые и неопровержимые доказательства, полученные на базе поиска в Google, подтверждающие, что у мужчин существует серьезная озабоченность и неуверенность по поводу – чего бы вы думали? – размера своего пениса.
Это, я бы сказал, имеет определенную ценность в качестве доказательства того, о чем вы, возможно, уже подозревали, но не имели достаточно данных для подтверждения своих подозрений. Подозревать – это одно, доказать – совсем другое. Но если все, на что способны большие данные – подтверждение ваших подозрений, это не будет чем-то революционным. К счастью, большие данные могут гораздо больше. Снова и снова они показывают мне, что все происходит совсем не так, как я предполагал. Вот некоторые примеры, которые вы могли бы счесть достаточно впечатляющими и неожиданными.
Можно предположить, что основной причиной расизма является экономическая незащищенность и уязвимость. Вы, естественно, подозреваете, что, когда люди теряют работу, их расизм усиливается. Но на самом деле при увеличении безработицы не увеличивается ни количество расистских поисковых запросов, ни число членов Stormfront.
Принято думать, что состояние тревожности в основном присуще жителям больших городов, где много высокообразованных людей. Городской невротик – это известный стереотип. Но количество запросов в Google, отражающих тревожность, таких как «симптомы тревожности» и «помощь при состоянии тревожности», как правило, выше в местах с низким уровнем образования, там, где меньше средний доход и где большая часть населения живет в сельской местности. То есть более высокий уровень числа поисковых запросов, связанных с тревожностью, в сельской местности, на севере штата Нью-Йорк, а не в самом Нью-Йорке.
Вы считаете, что теракт, в результате которого погибли десятки или сотни людей, автоматически приведет к широкому распространению массовой тревожности. Терроризм по определению должен внушать чувство страха. Я просмотрел поисковые запросы в Google, отражающие беспокойство, и отследил рост числа этих поисков по стране в последующие дни, недели и месяцы после каждой крупной террористической атаки в Европе или Америке, начиная с 2004 года. Итак, на сколько же в среднем выросло число поисковых запросов, связанных с тревожностью? Ни на сколько. Совсем.
Вы думаете, что люди чаще ищут анекдоты, когда им грустно. Многие из величайших мыслителей утверждали, что мы обращаемся к юмору как к обезболивающему. Юмор уже давно воспринимается как способ справиться с огорчениями, болью, неизбежными разочарованиями в жизни. Как выразился Чарли Чаплин: «Смех – это тоник, способ расслабиться, забыть о страданиях».
Тем не менее в понедельник – день с репутацией самого несчастливого – уровень поиска шуток самый низкий. То же можно сказать про пасмурные и дождливые дни. И этот уровень резко падает после крупной трагедии, например, когда в результате взрыва двух бомб погибло трое и были ранены сотни людей во время Бостонского марафона 2013 года. На самом деле люди предпочитают шутки, когда дела идут хорошо, а не наоборот.
Иногда новый массив данных выявляет такие поступки, стремления или отношения, которые я бы даже никогда и предположить не мог. В эту категорию попадают многочисленные сексуальные предпочтения. Например, известно ли вам, что в Индии большинство поисковых запросов начинается со слов «мой муж хочет…». Например: «Мой муж хочет, чтобы я кормила его грудью»[16]. Этот запрос распространен в Индии гораздо больше, чем в других странах. Кроме того, уровень поиска по порносайтам изображений, где женщина кормит мужчину грудью, в Индии и Бангладеш в четыре раза выше, чем в любой другой стране. Я, конечно, никогда и не подозревал ни о чем подобном до того, как увидел эти данные.
Тот факт, что мужчины одержимы размером своего пениса, может, и не слишком неожиданный, но вот то, что вызывает наибольшую обеспокоенность у женщин, касаемо их тела, по данным Google, действительно вызывает удивление. Опираясь на эти новые данные, женским эквивалентом комплекса по поводу размера полового члена можно считать – выразительная пауза! – переживание о том, как пахнет их вагина. Женщины выполняют почти столько же поисков, выражая озабоченность по поводу своих гениталий, как и мужчины, беспокоящиеся о размере своих. Главной заботой женщины является ее запах и то, как она может его улучшить. Разумеется, я не знал этого, пока не обнаружил такие данные.
Иногда новые данные показывают культурные различия, о которых я даже не задумывался. Вот один пример: очень по-разному люди по всему миру реагируют на беременность своих жен. В Мексике топ-запросы «моя беременная жена» включают фразы «frases de amor para mi esposa embarazada» (признание в любви моей беременной жене) и «poemas para mi esposa embarazada»[17] (стихи для моей беременной жены). В Соединенных Штатах топ поисковых запросов состоит из следующих фраз: «моя жена беременна – и что теперь?» и «моя жена беременна – что мне делать?».
Но эта книга больше, чем подборка странных фактов или единичных исследований, хотя в ней будет приведено много подобной информации. Поскольку эта методика совершенно новая и только набирает обороты, я изложу здесь некоторые идеи о том, как это работает и что делает ее столь революционной. Я также допускаю, что есть пределы больших данных.
Эйфория в связи с потенциальной информационной революцией вряд ли уместна. Большинство тех, кто без ума от больших данных, просто фонтанирует идеями применения этого колоссального массива информации. Такая одержимость не нова. До Google, Amazon и Facebook, до появления самого понятия «большие данные» состоялась конференция в Далласе – «Большие и сложные массивы данных». Джерри Фридман[18], профессор статистики Стэнфордского университета и мой коллега по работе в Google, вспоминает, что на конференции 1977 года один уважаемый статистик заявил о том, что накопил невероятные, ошеломляющие пять гигабайт данных. Затем встал следующий выдающийся статистик и начал со слов: «Последний оратор говорил о гигабайтах. Это ничто. У меня – терабайты». Другими словами, акцент выступлений сместился на то, как много информации можно накопить, вместо того чтобы сделать упор на то, что с этими накопленными данными можно сделать или на какие вопросы можно найти ответы. «Тогда мне показалось забавным, – сказал Фридман, – что все надеялись поразить слушателей тем, насколько большой набор данных им удалось собрать. И это продолжается до сих пор».
Сегодня слишком много специалистов по анализу и обработке данных накопили большие массивы информации, но они дают нам слишком несущественные сведения, например, что баскетбольный клуб Knicks пользуется популярностью в Нью-Йорке. Слишком многие компании просто утонули в больших объемах данных. У них много терабайт информации, но мало своих идей. На мой взгляд, значение количества данных часто переоценивается. И это легко заметить, учитывая один небольшой, но очень существенный момент: чем важнее явление, тем меньше число наблюдений необходимо, чтобы его обнаружить. Вам достаточно один раз прикоснуться к горячей плите, чтобы понять, насколько это опасно. Но, возможно, вам придется тысячи раз пить кофе, чтобы понять, вызывает ли он у вас головную боль. Какой фактор серьезнее? Очевидно, что горячая плита, которая в силу интенсивности своего воздействия позволяет получить мгновенный результат при минимальном объеме данных.
Поэтому самые сообразительные крупные компании, занимающиеся обработкой больших данных, зачастую обрезают имеющиеся в их распоряжении массивы. В компании Google основные решения принимаются на основе лишь малой толики имеющихся в их распоряжении данных. Вам не всегда нужны тонны информации для того, чтобы прийти к важным выводам. Нужны правильно подобранные данные. Главный аргумент в пользу того, что поисковые запросы в Google представляют собой ценнейшую информацию, состоит не в том, что их очень много, а в том, что люди в них весьма откровенны. Мы лжем друзьям, любовникам и любовницам, врачам, опросам и самим себе. Но Google дает возможность обсудить личные проблемы, в том числе с весьма компрометирующей информацией, такие как брак без секса, психическое нездоровье, неуверенность, враждебность по отношению к чернокожим.
Самое главное при работе с большими данными – умение задавать правильные вопросы, чтобы получить важные выводы. Как нельзя, случайно наведя телескоп на ночное небо, обнаружить там Плутон, нельзя, просто загрузив кучу данных, открыть тайны человеческой природы. Вам необходимо будет выделить наиболее перспективные для поиска фразы, например для Индии – это запросы в Google, которые начинаются со слов «мой муж хочет…».
Эта книга показывает, как лучше использовать большие данные, в ней подробно объясняется, почему эти массивы информации имеют такое большое значение. И попутно вы узнаете много интересного из того, что я и другие люди уже открыли для себя с помощью этого метода, в том числе:
– Как много геев среди мужчин?
– Неужели реклама действительно работает?
– Почему Американский Фараон – лучшая скаковая лошадь?
– Ангажированы ли СМИ?
– Существуют ли оговорки по Фрейду?
– Кто мошенничает с налогами?
– Важно ли, в какой колледж пойти учиться?
– Можно ли выиграть на фондовом рынке?
– Где лучшее место, чтобы растить детей?
– Как истории разносятся по сети?
– О чем следует говорить на первом свидании, если вы хотите, чтобы было второе?
…И многое, многое другое.
Но прежде чем мы доберемся до этого, нужно обсудить базовый вопрос: зачем нам вообще все эти данные? И для этого я хочу представить вам мою бабушку.