Мое внимание привлекла богато украшенная деревянная подставка для специй. Я поднял ее, чтобы рассмотреть поближе. Заметив мой интерес, отец подошел ко мне.
"Оооо", - сказал он. "Это красиво, но..." Он присмотрелся. "Ах, да - похоже, это ручная работа, не так ли? Должно быть, здесь живет плотник". Он говорил немного тише, как будто не хотел, чтобы его мандаринский язык был подслушан.
Может быть, - сказал я себе, а затем посмотрел на другой стол. "Там есть что-нибудь интересное?" спросил я.
"Да, много. Мне понравились перчатки. И очень красивый набор инструментов. В гараже я заметил еще лучше, но не думаю, что они продаются. Знаете, я действительно думаю, что хозяин дома - какой-нибудь столяр".
Как это часто бывает в жизни, требования карьеры, брака и материнства, казалось, взорвались в одночасье. Но я все равно находила время, по крайней мере, иногда, чтобы сопровождать отца, когда он занимался своим любимым делом. Это были редкие моменты тишины и ностальгии в жизни, которая казалась вечно ускоренной, и они помогали сохранить связь, которая поддерживала нас с первых дней пребывания в незнакомой новой стране. Меня особенно очаровывало то, с какой тщательностью и продуманностью он превращал предметы, выставленные на продажу на карточных столах у подъезда, в виньетки о жизни незнакомцев. Прав он был или нет, попытка всегда казалась искренней и по-своему обоснованной.
С годами это вошло в привычку и у меня.
Еще одна Tesla. Менее чем через год после выпуска Model S в середине 2012 года автомобиль стал модным трендом Пало-Альто, и я видел повсюду. Наверное, еще один технарь. Возможно, из венчурного капитала. Следующий автомобиль, мимо которого я проходил, был не таким модным, но все же о чем-то говорил. Это был какой-то хэтчбек, выкрашенный в бежевый цвет, но выцветший от многолетней стоянки на улице. Похоже на то, на чем ездил бы один из моих студентов.
Я был приглашен на ужин в недавно открывшийся ресторан горячих горшков и воспользовался Google Maps, чтобы найти его, включая несколько фотографий витрины из Street View, чтобы убедиться, что я узнаю ее из машины. По дороге мой обычно неспешный интерес к визуальным мелочам - привычка, которая никогда не отключается, но чаще всего отступает, превращаясь в некий белый шум, - проявлялся активнее, чем обычно. Если половина меня ориентировалась на то, как добраться до ужина, то другая половина была одержима тем, что я видел по дороге.
При всем том, что автомобили могут рассказать о людях, от отдельных личностей до сообществ, существуют ограничения по масштабу, в котором их можно оценить. Именно такую информацию исторически пытались собрать с помощью опросов, но платить профессионалам за создание карт автомобильной собственности в масштабах города дорого и долго, и их невозможно практически использовать за пределами регионов скромных размеров. Но что, если эти ограничения можно преодолеть? Что, если бы подобный анализ можно было проводить в любом масштабе? И что, если бы это были не только автомобили, но и все остальное? Что угодно? Какие новые открытия - общественные, культурные, даже политические - можно было бы сделать, просто внимательнее присмотревшись к миру, который окружает нас каждый день? Это был вопрос, на который, казалось, невозможно ответить без совершенно новой формы восприятия. И тут меня осенило: Google Street View. Модели автомобилей. Тонкая классификация. Что, если мы уже создаем это?
Как и любой доминирующий организм, потомство AlexNet - новые поколения нейронных сетей, совершающие впечатляющие скачки год за годом, - монополизировали свою среду, оказавшись настолько эффективными, элегантными и далеко идущими в применении, что практически все другие методы практически в одночасье отошли на второй план. Любимцы академического сообщества, которые приводили исследователей в восторг всего год или два назад, - алгоритмы вроде машин опорных векторов и байесовских сетей - исчезли из докладов на конференциях, опубликованных статей и даже из разговоров в лаборатории. Все, о чем хотелось поговорить, - это последние разработки в области нейронных сетей.
Мы знали это, потому что многие из этих новых моделей были представлены на конкурсе ImageNet Challenge. Прошло чуть больше пяти лет с момента дебюта набора данных на CVPR в 2009 году, и конкурс превратился в основополагающее событие в области компьютерного зрения, обеспечивая общий ориентир для прогресса, на который мы всегда надеялись. Хотя наша лаборатория придерживалась политики не представлять собственные модели во избежание явного конфликта интересов, простое наблюдение за конкурсом стало регулярным событием, сравнимым с Рождеством. Каждый год приносил новые достижения, неуклонно сокращая разрыв между машинами и человекоподобной производительностью. Коэффициенты ошибок становились все ниже и ниже, все ближе к нашим собственным, человеческим. А потом, возможно, еще ниже.
И все же, даже когда технология приблизилась к "человеческим характеристикам", сама идея казалась надуманной, если не миражом. Наши возможности, конечно, гораздо богаче, чем может отразить любая метрика. Но наши недостатки могут быть столь же поучительны, как и достоинства. Например, люди могут лучше компьютеров объяснить, почему они считают, что птица на соседней ветке - это прибрежная голубая сойка, опираясь на всевозможные общие знания, визуальные подсказки и интуицию. Даже опытные орнитологи редко могут определить более пары сотен видов, что оставляет подавляющую часть птичьей вселенной недоступной для одного наблюдателя.
Пока ИИ пытался преодолеть последние несколько процентных пунктов, отделявших его от человеческого уровня в общей классификации объектов, он, казалось, был дразняще близок к тому, чтобы превзойти нас в других измерениях, причем довольно значительно. Мы просто не можем держать в голове столько знаний, сколько может компьютер.
Именно тогда точки начали соединяться по-новому. Благодаря Street View у нас теперь были снимки высокого разрешения почти всех районов страны. Несмотря на то, что основной целью этого приложения была помощь в навигации, я был потрясен тем, насколько детально оно передавало информацию о нашем мире. Деревья, уличные фонари, почтовые ящики и, конечно, автомобили, на которых мы ездим... Street View давал возможность заглянуть в те скрытые измерения информации, которые лежат вокруг нас. Когда я вспомнил о работе нашей лаборатории по точному определению моделей автомобилей, возможность, которую предоставил Street View, показалась мне еще одним всплеском серендипити.
Все чаще и чаще возникал вопрос: а стоит ли вообще говорить о "зрении"? Что бы ни представляла собой эта новая способность - некое сочетание остроты зрения с энциклопедической глубиной знаний по всем мыслимым темам, - я начинал верить, что это нечто большее, чем машинный эквивалент человеческих глаз. Это было нечто совершенно новое: более глубокая, более тонко отполированная линза, способная раскрыть наш мир с такой стороны, о которой мы даже не подозревали.
Рассматривая наше растущее хранилище моделей автомобилей, кропотливо собранных из источников, разбросанных по всему интернету, я представлял, как трудно будет объяснить своему подростку, какое отношение все это имеет к науке. Детали работы, конечно, были несущественны; это было лишь последнее свидетельство главных ценностей лаборатории: глубокого уважения к сложности мира и жажды его изучения, чего бы это ни стоило. Мы чувствовали себя как любители искусства во время экскурсии по музею: каждый новый экспонат заставлял нас задуматься и в то же время вызывал благоговейный трепет перед безграничными деталями, окружавшими нас.
Мы не тратили время на беспокойство о том, окупится ли все это, как мы надеялись. Сам факт того, что мы противостояли этому - принимали мир таким, какой он есть, на его условиях, без компромиссов и дистилляции, - казался нам миссией, которой стоит посвятить свою жизнь. Будь то модели автомобилей, виды птиц или что-то совсем другое - возможно, наш следующий проект будет изучать варианты асфальтированных дорог, чешую рептилий или отделку скрипок, - каждый из них ощущался как маленький шаг к тому моменту, когда мы увидим реальность совершенно новыми глазами. Что бы мы ни нашли, я был уверен, что путешествие того стоит.
Тем временем нам предстояло преодолеть обычную батарею препятствий. Масштаб, конечно, был неизбежным вызовом. Но на этот раз мы были готовы. После ImageNet мы привыкли к головной боли, которую влечет за собой компиляция такого объема данных. Мы изучили такие сайты, как Craigslist, Cars.com, Edmunds и другие онлайн-площадки, чтобы получить обучающий набор изображений, охватывающий практически все уникальные разновидности автомобилей на дорогах в 2014 году - все 2 657 из них - и направили его в самые большие и точные классификаторы, которые когда-либо создавали. Мы также задействовали поток изображений Google Street View, заполнив наши серверы фотографиями проспектов, бульваров, углов, перекрестков и тупиков, пересекающих всю страну. В нашей лаборатории собирался еще один микрокосм мира, и уже скоро мы сможем заглянуть в него напрямую, открыв все секреты, которые он хранит.
Однако эти секреты не раскрылись бы без борьбы. Поскольку мы намеревались использовать автомобили в качестве косвенного инструмента для изучения более широких социально-экономических вопросов - соотнесения их с такими аспектами личности их владельцев, как доход, образование и род занятий, - нам пришлось столкнуться с тем, что резкие различия в денежной стоимости часто приводят лишь к незначительным различиям во внешнем облике. Поэтому, хотя мы без труда отличали седан Cadillac от пикапа Toyota, ранние эксперименты показали, что "наивно" обученный классификатор может с легкостью принять Cadillac за, скажем, Honda Accord, особенно если автомобили окрашены в похожие цвета - именно такой ошибки мы стремились избежать. Еще сложнее было отличить Cadillac ATS от CTS, не говоря уже о бесчисленных вариациях внутри каждого модельного ряда. Особенно сложной нам показалась концепция уровней отделки, поскольку пакеты опций на общую сумму в тысячи долларов, а иногда и больше, зачастую влекли за собой лишь незначительные изменения в стиле кузова и шильдике автомобиля.
"Прежде чем мы прервемся, у меня есть идея, которой я хочу поделиться".
Наше еженедельное совещание по проекту Street View подходило к концу, когда заговорил аспирант по имени Тимнит Гебру. Мы собрались в моем кабинете - маленьком, узком прямоугольнике на третьем этаже здания Gates Computer Science Building - помещении, соответствующем академическому стереотипу: тесная каморка, усугубленная грудами книг, бумаг и безделушек, которые сыплются с полок и ползут к центру комнаты. Уютно устроившись на ярко-красном диване в обрамлении беспорядка со всех сторон, наша команда студентов, состоящая теперь из трех человек.
"Итак, идея состоит в том, чтобы применить наши классификаторы изображений ко всем этим снимкам Street View, отследить все модели автомобилей, которые мы можем, и посмотреть, какие закономерности они выявляют, верно? Я тут покопался, и мне кажется, мы нашли идеальный способ сделать это".
Тимнит была самой младшей из троицы студентов, работавших над проектом, но она была целеустремленной до такой степени, что это придавало ей грозное присутствие. Несмотря на невысокий рост, как и у меня, ее уверенность в себе и ораторские способности позволяли ей без труда командовать в комнате. А поскольку Цзя защищал кандидатскую диссертацию, а Джон жонглировал множеством других проектов, Тимнит без колебаний взяла инициативу в свои руки.
Впервые мы встретились примерно за год до этого, когда она посетила один из моих продвинутых семинаров. Она была аспиранткой третьего года обучения по специальности "электротехника" и практически не занималась вопросами ИИ. Но она сразу же произвела на меня впечатление - не только потому, что была единственной чернокожей женщиной, получающей степень доктора технических наук, но и потому, что ее готовность задавать вопросы демонстрировала жажду учиться, которую преподаватели сразу же замечают. Когда она предложила присоединиться к лаборатории, я без колебаний согласилась, отказавшись даже от таких элементарных формальностей, как рекомендательные письма.
Я услышал в ее голосе убежденность, когда она продолжила. "Это Бюро переписи населения США. Каждый год они проводят общенациональный опрос под названием ACS - American Community Survey - и отслеживают массу социологической информации о регионах по всей стране".
"И вы предлагаете включить это в наш анализ?"
"Возможности просто безграничны. Перепись населения - это абсолютный кладезь данных, организованных по районам, округам, штатам и даже избирательным участкам. Но на ее сбор уходит так много времени и сил. Представляете, как соотнести все это с объектами, которые находят наши классификаторы?"
Она более чем убедительно доказала свою правоту, но больше всего меня поразила ее готовность. Такие моменты, когда студент представляет нечто творческое, новое и совершенно неожиданное, причем самостоятельно, - одни из самых приятных для преподавателя. И ее интуиция оказалась верной. Изучая данные переписи населения, которые она помогла нам получить, мы удивлялись не только их масштабам и разнообразию, но и идеям, которые они исследовали. У нас под рукой был общенациональный снимок политики, образования, доходов и даже преступности, готовый быть соотнесенным с принципиально новым сигналом о мире - компьютерным видением. Это были данные такого рода, с которыми наша лаборатория никогда раньше не сталкивалась, и они придавали работе ту серьезность, которой никто не ожидал. Это было нечто большее, чем просто проект по сбору данных.
На кухне царил беспорядок, но это был мой любимый вид беспорядка. Сильвио с ловкостью ремесленника в своей мастерской сновал туда-сюда между разбросанными кастрюлями и сковородками, поминутно пользуясь посудой, которая лежала рядом с ними, и время от времени хватая горстями ингредиенты из радуги пакетов, коробок и банок, выстроившихся на прилавках.
"Что все это значит?" спросил я.
"Наверное, у меня было настроение приготовить сегодня на ужин что-то особенное. Это polpo alla luciana. Осьминог. Еще у меня есть паста из цукини, перец на гриле, буррата и руккола, все в таком духе".
"Вау, я не могу дождаться! Давай, эм, закроем дверь".
Он знал, к чему я клоню. Жизнь в семье, состоящей из трех поколений и двух культур, быстро научила Сильвио искусству сосуществования с моей матерью, которая доводила чистоту на кухне почти до патологической крайности, следуя принципу "убирай, пока готовишь" настолько рабски, что точнее было бы сказать, что она готовит, пока убирает. Как бы ей ни нравилась стряпня Сильвио, подобные замысловатые ужины - рецепт домашнего напряжения. Я наблюдала за его выступлением еще минуту или две, прежде чем усмехнуться про себя.
"Что?" - спросил он.
"Знаешь, это забавно. Я сразу чувствую, когда наступает такой вечер. Когда я просто знаю, что нам придется держать маму подальше от кухни. Какое-то магическое расположение кастрюль, сковородок и суматохи говорит мне, что у тебя намечается что-то грандиозное, и я улавливаю это, как только прохожу мимо. Никаких сознательных мыслей - просто мгновенное осознание. Знаете, о чем это заставляет меня думать? О Джереми Вулфе".
Шевеление Сильвио на мгновение замедлилось. "Вульф... Вульф... О, ученый-когнитивист? Из Гарварда? Тот самый "суть", верно?"
"Хорошая память! Боже, он написал эту совершенно непонятную статью в каком-то журнале в 1998 году. Это даже не было исследованием. Просто статья о мнении. Но это была одна из самых влиятельных вещей, которые я прочитал в Калтехе. Легко. Я до сих пор об этом думаю".
Всемирно известный исследователь, интересующийся внутренним устройством зрительной памяти, Джереми Вулф считает нашу способность быстро осмысливать сцену захватывающей и посвятил большую часть своей работы ее пониманию. Статья 1998 года под названием "Визуальная память: Что вы знаете о том, что видели?" была написана почти разговорным тоном, но выводы в ней были весьма проницательными. По его словам, увиденное изображение побуждает наш мозг "запомнить суть сцены".
"Точно, точно. Помню, я подумал, что "суть" - забавное слово для такой статьи". Сильвио захихикал, раскладывая буррату, рукколу и помидоры и изредка поглядывая на дверь, чтобы убедиться, что она все еще закрыта.
"Отчасти поэтому я так ее любил", - ответил я. "Идеи были такими масштабными, но язык был совершенно простым".
Сильвио ненавидел, когда его отвлекали во время приготовления пищи. Я это знала, и он знал, что я это знаю. Но он тоже был неравнодушен к научным разговорам и давно усвоил, что, если я заведусь на подобную тему, ему лучше дать мне выговориться. Я слегка усмехнулся, понимая, что он, вероятно, напоминает себе обо всем этом, пока нарезает перец.
"Его идея, - добавил Сильвио, - заключалась в том, что наш первый взгляд на что-то - это все, что нужно, чтобы понять это, хотя бы на каком-то уровне, верно?"
"Верно. Это включает в себя основные вещи, такие как предметы, конечно. Мы умеем быстро находить "вещи". Но мы отлично умеем замечать, как они расположены и расставлены. Ну, знаете, углы, положения и прочее. Как мы это интерпретируем".
"Отношения между вещами".
"Да, именно так! Но самое удивительное, что мы делаем все это, не задумываясь. Это просто происходит, в мгновение ока, как у меня сегодня, когда я увидел, что ты готовишь..."
"Фей-Фей? Ты там?"
Это была моя мама. Мы с Сильвио посмотрели друг на друга, и наши глаза мгновенно расширились.
"Почему дверь закрыта?" - продолжала она.
"Сильвио был, э-э-э, там было много пара, и, э-э-э..."
"В этом нет никакого смысла!" - попытался прошептать он, ухмыляясь.
"Прекрати хихикать!" Я отстреливалась, наклоняясь к двери, чтобы выскользнуть, пытаясь и не пытаясь вести себя естественно, пока моя мать безучастно смотрела на меня.
Понятие "суть" осталось со мной надолго после прочтения книги Вулфа, вдохновив меня настолько, что я посвятил большую часть своего времени в Калтехе ее изучению. Работа не имела явных связей с информатикой или искусственным интеллектом, но напрямую затрагивала вопрос о том, что именно воспринимают люди, когда смотрят на реальный мир. Хотя Пьетро, Кристоф и я считали такое тонкое понимание далекой мечтой для компьютерного зрения, мы были убеждены, что путешествие может начаться только с лучшего понимания того, что делают люди, и придумали способ исследовать это. Наши результаты были опубликованы в 2007 году в журнале Journal of Vision, специализирующемся на неврологии.
В нашем эксперименте двадцати двум испытуемым была показана коллекция из девяноста фотографий, каждая из которых была сделана в течение короткой экспозиции от пятисот миллисекунд (полсекунды) до двадцати семи миллисекунд (примерно половина времени, в течение которого виден один кадр кинопленки). Фотографии были концептуально простыми, но детальными: повседневные сцены, включающие множество людей, событий и действий, в том числе в помещении и на улице, в естественном и искусственном окружении. Задача испытуемых состояла в том, чтобы описать увиденное - точнее, то, что они помнят, - как можно подробнее.
Как и все эксперименты, он начинался как азартная игра; половина удовольствия заключалась в том, что мы не знали, что именно мы обнаружим, если вообще что-то обнаружим. Но все окупилось, и я до сих пор восхищаюсь реакцией, которую мы получили. Например, когда одному испытуемому в течение пятисот миллисекунд показывали фотографию интерьера жилого дома викторианской эпохи, он написал:
Какая-то причудливая гостиная в стиле 1800-х годов с богато украшенными односпальными креслами и портретами на стене.
Всего за полсекунды они увидели достаточно, чтобы составить простое, но, по сути, идеальное описание сцены, включая разумные оценки века, характера настенных украшений и конструкции отдельных предметов мебели. Но даже в течение двадцати семи миллисекунд - примерно одной сороковой секунды, что, несомненно, достаточно мало для того, чтобы лишить объект почти всех возможностей для глубины и детализации, - подлинное осознание сохранялось:
Многого не было видно: в основном темнота и какие-то квадратные предметы, возможно, мебель.
"Может быть, мебель". Два слова, которые так много открывают. Удивительно, что даже за такой короткий промежуток времени можно зарегистрировать столь сложное понятие - не форму, не цвет, даже не какое-то природное явление, заложенное глубоко в наших генах, а нечто столь современное и произвольное, как мебель.
С ограничениями по времени или без них, но я нашел эту способность захватывающей. Фотографии могут быть неподвижными, но мы умеем извлекать застывшее в них движение, от грандиозного и масштабного до почти незаметного, и все это с впечатляющей точностью. Мы естественным образом учитываем угол наклона тел, рук и ног и мгновенно чувствуем, откуда они пришли и куда направляются; скорость и силу, вес и баланс, энергию и потенциал. Мы представляем себе обстоятельства, приведшие к моменту, запечатленному на снимке, и возможный результат, как, например, доли секунды, следующие за фотографией скейтбордиста, прыгающего с бордюра, или целая жизнь, следующая за изображением молодой пары, обменивающейся свадебными клятвами.
Даже о намерениях можно догадаться. Мы можем написать тома о напряжении, которое чувствуем в позе фигуры, о близости одного человека к другому или о такой простой вещи, как угол брови. Часто этого более чем достаточно, чтобы понять, на кого мы смотрим, как они относятся друг к другу и чего хотят. Нетерпеливый начальник нависает над перегруженным работой сотрудником. Сочувствующий родитель помогает ребенку, испытывающему трудности. Близкие друзья. Совершенно незнакомые люди. Привязанность или гнев. Работа или игра. Безопасность или опасность.
Это была способность, которую я особенно остро осознавала. Каждый вечер, как только я возвращалась домой с работы и закрывала за собой дверь, я делала что-то совершенно определенное, обычно еще до того, как ставила сумку. Это был не совсем ритуал, поскольку в нем отсутствовала продуманная структура ритуала, но каждый день он разворачивался одинаково и в одно и то же время. Это был момент, хорошо знакомый всем, кто ухаживает за больным членом семьи: я находила маму, где бы она ни находилась в доме - на кухне, в гостиной или, может быть, на заднем дворе, - и одним взглядом понимала, стоит ли мне беспокоиться о ней или нет; был ли у нее один из лучших дней, и я могла выдохнуть, или же это было... что-то другое.
Это было все, что требовалось. Самое важное решение, которое я мог принять, было выполнено с помощью всплеска когнитивной магии, настолько быстрой и автоматической, что она была практически непрозрачной даже для человека, работающего в моей сфере. Мама чистит картошку у раковины. Папа в фартуке наливает оливковое масло в вок на плите и, похоже, готовится бросить туда нарезанную кубиками курицу. Оба выглядят довольными. Ни один из них пока не взглянул на меня. Никакого смущения или беспокойства. Слава Богу. Я могу выдохнуть. Сегодняшняя ночь будет хорошей. Пока, по крайней мере.
Но так было не всегда. Мама лежит на диване. Она не совсем сидит или лежит, и выглядит неловко. Ее голова лежит на руках, брови сведены в кучку. Рядом с ней свернулась калачиком кошка, но мамина свободная рука лежит на ее спине. Она не гладит ее.
Плохо. Пора провести домашний тест на кровяное давление, проверить температуру и пульс, а затем, возможно, позвонить врачу.
Эта способность отличается удивительной скоростью и силой. Я редко вспоминал, как перечислял отдельные предметы, окружавшие меня: мебель в комнате, мать и отца, одежду, которую они носили, кухонную утварь, нераспечатанный пакет или конверт, эспрессо-машину Сильвио, семейного кота и так далее. Несмотря на всю работу, которую мы проводили, обучая машины классифицировать объекты, эта задача, казалось, включала в себя не только остроту зрения. В такие моменты происходило нечто гораздо более глубокое: я не просто видел свою мать, а понимал ее состояние: оценивал ее позу, оценивал ее отношение, делал выводы о жизни и смерти из чего-то столь неосязаемого, как морщины на ее бровях или угол наклона ее тела, когда она прислонялась к стойке.
Это способность, которая мгновенно ставит в тупик даже наши самые передовые алгоритмы. Вот мы празднуем дробное сокращение числа ошибок при классификации - настолько ничтожное достижение в восприятии, насколько это вообще можно себе представить, в то время как наш собственный мозг наполняет каждый момент таким беглым осознанием нашего мира, что его живость стала для нас практически невидимой. Еще в 1970-х годах исследователь и математик Анатоль Холт подвел итог этой близорукости, сказав, что ИИ - это технология, которая может сделать идеальный шахматный ход, в то время как комната горит. Как актуален этот диагноз и сейчас. Современный ИИ ведет себя как своего рода савант в игре, справляясь с отдельными задачами, которые поддаются узким метрикам вроде "коэффициента ошибок", и не замечая горящих углей, которые падают на доску.
При всей нашей ограниченности человеческое восприятие является противоположностью этому. Мы видим мир целостно, не просто определяя, но и понимая его содержание - их взаимосвязи, их значения, их прошлое и будущее. Суть в следующем. Мы не просто свидетели, а рассказчики. Мне показалось, что алгоритмам пора научиться делать то же самое.
"Вот, прочтите это". Я бросил распечатку своей статьи в Journal of Vision на стол Андрея Карпати, аспиранта второго года обучения и особенно многообещающего новичка в лаборатории. Высокий, стройный и вечно быстро говорящий, Андрей родился в Словакии и вырос в Канаде. Он с энтузиазмом решал сложные проблемы и обладал техническим талантом, чтобы воплощать свои идеи в жизнь. Как и многие студенты в моей лаборатории, он обладал упорством и настойчивостью инженера, ему было так же удобно разбирать транзисторный радиоприемник, как и покрывать доску уравнениями. Если Эйнштейн, Бор и Уилер были космическими мечтателями, то студенты вроде Андрея были другими, вырезанными из той же ткани, что и Эдисон или братья Райт. Это различие было практически незаметно для внешнего мира, но настолько актуально в нашей лаборатории, что, казалось, оно окрашивало каждый разговор. Это были противоположные, но дополняющие друг друга стили, каждый из которых был призван бросать вызов, увлекать и слегка раздражать другого. Но когда дело доходило до попытки сделать что-то новое - особенно что-то сложное, как это часто случалось в нашей лаборатории, - их сочетание оказывалось мощным.
"Что это?" - спросил он, взяв в руки книгу и просматривая аннотацию.
"Наш следующий вызов".
Встречи с Андреем стали постоянным пунктом в моем календаре. Даже по высоким стандартам, установленным в нашей лаборатории, идея алгоритма, который мог бы описать всю сцену, а не просто обозначить какой-либо объект на ее переднем плане, казалась будущим нашей работы - возможно, даже всей области. Но моя страсть сделала меня особенно суровым критиком.
"Хорошо, Андрей, это выглядит превосходно".
"Но...?" - сказал он с нерешительной усмешкой. Он знал, что будет дальше.
Дисплей на его рабочей станции выглядел именно так, как мы и хотели: на вход подавалась фотография, а на выходе получалось предложение с ее описанием.
"Но" - его работа была умной, чрезвычайно умной, в некоторых отношениях; тем не менее я знал, что нам предстоит более долгий путь. Это был лишь проблеск решения, но не полная картина - "мы просто еще не пришли".
Он опустился на свое место.
Проблема была тонкой, но она демонстрировала явление, которое я остро осознал за годы работы профессором. Как это часто бывает со студентами, Андрей был настолько сосредоточен на том, работает ли его модель, что вопрос о том, как она работает, отошел на второй план. Признаться, она действительно работала, по крайней мере, на первый взгляд. Но наши регулярные встречи позволили мне подробно изучить ход его мыслей, и хотя его подход был грамотным и хорошо обоснованным, в итоге модель оказалась чем-то вроде системы подбора надписей.
Проще говоря, слишком много описания, выводимого на экран, в той или иной форме поступало из обучающих данных, как будто алгоритм искал его в какой-то сложной базе данных. По сути, это избавляло модель от конечной цели, как я ее видел: создания надписи полностью с нуля. С практической точки зрения я был уверен, что модель не будет обобщенной - даже если она покажет хорошие результаты при тестировании, она будет сбита с толку изображениями, не входящими в ее обучающий набор, что приведет к неправильным, некачественным или обоюдным подписям. Но на самом деле проблема была научной. Модель получала свои результаты. Но она все еще не была настоящим автором.
Андрей вздохнул, прекрасно понимая, насколько я усложняю ему жизнь . Но как бы он ни был раздражен, я знал, что он способен понять, что пропасть стоит преодолеть.
"Ладно, давайте я еще раз все обдумаю", - сказал он. "Я понимаю, что надпись должна быть написана слово в слово. Это вызывает много вопросов о том, как мы будем следовать визуальным особенностям изображения и одновременно создавать что-то грамматически правильное, но... я что-нибудь придумаю".
Я улыбнулась. Он почти не скрывал своего разочарования, но было ясно, что он все правильно понял. Ученый во мне отказывался принимать что-то меньшее, и он это знал. Как он на самом деле все это сделает, пока никто не мог предположить, но я знал, что инженер в нем так же неумолим, как и я. Он добьется своего.
Язык и зрение - очень разные вещи. Основной единицей изображения является "пиксель" - ставший уже привычным термин, который возник как сокращение от "элемента изображения" - почти незаметная точка, фиксирующая цвет в одной крошечной точке сцены. Для того чтобы изобразить что-то значимое, могут потребоваться сотни, а то и тысячи пикселей. Телефоны, лежащие в наших карманах, снимают детализированные изображения, состоящие из десятков миллионов таких точек. Но сами по себе пиксели практически ничего не говорят нам об изображении, если оценивать их по отдельности. Задача алгоритма зрения, будь то серое вещество в нашем черепе или кремний в наших машинах, - сгруппировать эти пиксели во все более крупные области двухмерного изображения, а затем каким-то образом просканировать их в поисках паттернов, соответствующих трехмерным характеристикам реального мира: пространства, объемов, поверхностей, текстур и тому подобного.
В отличие от этого, основной единицей такого языка, как английский, по крайней мере, того, на котором говорят и пишут в повседневной жизни, является слово. В отличие от пикселя, слова обычно передают определенный смысл даже по отдельности. А полный набор слов хоть и очень велик, но конечен. Тем не менее, когда слова располагаются рядом друг с другом, их значение изменяется, а то и полностью трансформируется - посмотрите, например, на разницу между такими парами слов, как "рок дно", "фрагменты рока" и "рок музыка", . Это явление усугубляется по мере того, как все больше слов соединяются вместе, образуя более длинные предложения, не говоря уже об абзацах, страницах и томах. В общем, комбинаторный потенциал слов для передачи идей практически безграничен.
В то время как первые заголовки новостей этой новой, рассветной эры пестрели прорывами в области компьютерного зрения, это было не менее продуктивное время для обработки естественного языка. Жемчужиной этого периода стала рекуррентная нейронная сеть, или РНС. Семейство алгоритмов, созданных специально для работы с линейными последовательностями слов, позволяло RNN быстро определять основные свойства текста, подобно тому, как сверточные нейронные сети типа AlexNet обрабатывают изображения. Как и CNN, RNN существовали уже несколько десятилетий, но их истинная сила была осознана только сейчас.
Однако, возможно, более манящим, чем прогресс в какой-либо одной области, было перекрестное опыление, которое стало происходить между многочисленными подобластями ИИ. Растущее семейство нейронных сетей дало зрению, языку, речи и другим формам восприятия общую алгоритмическую основу, вдохновив лаборатории, подобные нашей, на стирание границ, разделявших их, в стремлении достичь более интегрированных, похожих на человеческие, возможностей.
"Кажется, у меня есть идея", - сказал Андрей через дверь в мой кабинет. С момента нашего последнего разговора прошло несколько дней, и на этот раз он выглядел уже не таким подавленным. Я мог сказать, что у него есть что-то хорошее. "Представьте, что мы объединяем CNN с RNN, - сказал он, присаживаясь на диван. "Один кодирует визуальную информацию и сопоставляет ее со словами, а другой генерирует язык. Мы будем тренировать нашу модель на парах изображений и написанных человеком описаний".
Ну вот, мы и добрались до цели, подумал я и кивнул, обдумывая сказанное.
"Продолжайте", - сказала я, любопытствуя, о чем еще он думает. "А что потом?"
"Ну, здесь определенно есть несколько неизвестных моментов, которые нужно прояснить, но я думаю, что RNN генерирует каждое новое слово в описании условно, основываясь на словах, уже имеющихся в предложении. Таким образом, мы описываем содержимое изображения, следуя при этом грамматическим шаблонам, которые были получены из обучающих данных. В результате, по крайней мере в теории, должно получиться совершенно новое описание на более или менее естественном языке".
Трудно было не впечатлиться. Если бы хотя бы половина этого сработала, он бы сконструировал свой способ выбраться из той дыры, в которой я его оставил. Мне не терпелось увидеть, что будет дальше.
Наш проект по созданию автомобиля Google Street View был завершен, и глубина собранных нами данных поражала воображение. Более пятидесяти миллионов изображений из более чем двухсот городов прошли через наши классификаторы, охватывая более трех тысяч почтовых индексов и почти сорок тысяч избирательных участков. В общей сложности наши классификаторы идентифицировали более двадцати двух миллионов автомобилей - почти 10 процентов всего автопарка Соединенных Штатов, - что позволило выявить удивительные статистические данные. Некоторые из них были забавными подтверждениями стереотипов, как, например, наш вывод о соотношении седанов и пикапов в городе: если первых больше, то город с вероятностью 88 % голосует за демократов; если больше вторых, то с вероятностью 82 % голосует за республиканцев. Но это было только начало.
Например, корреляция между этнической принадлежностью автовладельцев и предпочитаемой ими маркой была настолько сильной, что почти полностью совпадала с данными Американского общественного опроса о расовом составе населения тех же районов. Столь же точные прогнозы можно было сделать относительно среднего уровня образования и дохода в регионе. Снова и снова наша модель генерировала цветные карты целых городов, прослеживая колебания социально-экономических и политических показателей от одного конца до другого, и все они были удивительно похожи на данные, собранные традиционными методами Бюро переписи населения. И все это путем простого наблюдения за автомобилями на улицах.
Однако настоящим открытием стал потенциал процесса, который мы продемонстрировали на сайте : быстрая, масштабируемая и сравнительно дешевая альтернатива ручным опросам, на которые только в США тратится более 250 миллионов долларов в год. Это была одна из самых крупных и амбициозных работ в истории нашей лаборатории, опубликованная на страницах журнала Proceedings of the National Academy of Sciences, или PNAS, с Тимнит в качестве ведущего автора - вполне заслуженная честь, учитывая ее впечатляющие усилия. Я гордился этой работой на техническом уровне, но больше всего меня взволновало то, что она говорит о возможностях искусственного интеллекта показать нам наш мир совершенно по-новому.
Я повернулась на бок, чтобы плечом открыть двери лаборатории, жонглируя сумочкой, телефоном и недопитой чашкой чая из "Старбакса". Я находилась в оцепенении, характерном для перегруженного делами утра, спеша с одной встречи на другую и пытаясь уловить повестку дня каждой из них, когда Андрей помахал мне рукой, когда я проходила мимо его кабинета.
"Проверьте это", - сказал он, кивнув в сторону своего рабочего места. На этот раз выражение его лица было заметно более уверенным.
Я поспешил внутрь, настолько взволнованный желанием увидеть последние новинки, что почти забыл, куда шел. На экране была фотография подростка и скейтборда, оба в воздухе, на фоне голубого неба и далеких кустов. В крошечном окошке командной строки под изображением было выведено предложение.
Человек на скейтборде.
Я улыбнулся, даже не успев осознать этого. Андрей позволил моменту затянуться на секунду, а затем нажал на клавишу. Появилось еще одно изображение, на котором была изображена грязная строительная площадка с двумя рабочими в оранжевых жилетах, заливающими цемент. Через секунду-другую после этого появилось еще одно предложение.
Строители работают на обочине.
Он снова нажал на клавишу. Другое изображение, другая надпись. Затем еще одно, и еще, и еще. По количеству и разнообразию сцен было ясно, что эти предложения не просто выкопаны где-то из учебного корпуса. Их писала модель.
Андрей тоже был в восторге. Однако, как и подобает хорошему ученому, его гордость была сдержана оговорками. "Конечно, еще предстоит решить несколько вопросов. Например..."
Он снова щелкнул мышкой, и появилось новое изображение, сделанное туристом на деревенской испанской площади, которая, как я потом узнал, была городской площадью Трухильо, города, известного своим богатством архитектуры эпохи Возрождения. Я уже почти погрузился в картинку, когда появилась надпись.
Мужчина едет на лошади по улице рядом со зданием.
Прошло еще немного времени, прежде чем мы оба рассмеялись над почти идеальным описанием и его единственным, решающим упущением: человек и лошадь были сделаны из бронзы. Катушка ляпов продолжалась. Спящий на диване домашний котик был описан как кот. Ребенок, играющий с зубной щеткой, был идентифицирован как мальчик, держащий бейсбольную биту. А зебры, пасущиеся в саванне, были описаны идеально, за исключением того, что модель совершенно не заметила потрясающую радугу прямо за ними. В ошибках алгоритмов часто присутствует детская неуклюжесть, которая может быть удивительно милой. Было приятно получить напоминание о том, что, хотя нам еще многому предстоит научиться, нашим машинам тоже. Но больше всего запомнилось достижение Андрея, как в целом, так и в деталях.
"Нам нужно написать об этом для публикации", - сказал я.
"Правда?" - спросил он. "Уже?"
"Да, конечно", - ответил я с готовностью, которая удивила даже меня. Я не знал почему, но мне вдруг стало тревожно. Может быть, это было влияние все еще растущего ажиотажа в СМИ вокруг нашей области или прилив гордости за то, что я являюсь директором лаборатории. Что бы это ни было, оно не проходило.
"Чем скорее, тем лучше", - сказал я.
"Ты имеешь в виду свидание с... машиной? Например, в ней?"
Комментарии студента вызвали волну смеха в зале. Фильм Спайка Джонзе "Она" о человеке, который влюбляется в своего компаньона ИИ, был еще свеж в памяти большинства присутствующих.
"Почему бы и нет?" - ответил другой студент. "Если бы оно было достаточно разумным, чтобы общаться на человеческом уровне - я имею в виду настоящий человеческий разговор, ну, знаете, как мы сейчас разговариваем, - кто скажет, что не было бы потенциала для чего-то вроде романтической связи?"
"Не знаю... По-моему, это звучит немного нелепо".
"Но ведь в принципе этому ничто не мешает, верно? Можем ли мы хотя бы в этом согласиться?"
Это была одна из последних пятниц перед зимними каникулами, и я присутствовал на своем новом любимом мероприятии: проводимом два раза в месяц закрытом собрании студентов и преподавателей SAIL под названием "Салон ИИ", на котором обсуждались актуальные вопросы нашей области. За время, прошедшее с первой встречи, мы изучили широкий спектр тем: от культурных вопросов, таких как изображение ИИ в кино и на телевидении, до философских дебатов о том, являются ли категории и символические структуры фундаментальными фактами языка или, как довольно остроумно предполагалось в названии той конкретной беседы, "фантазией лингвистов".
Сегодня мы обсуждали "Суперинтеллект", провокационную книгу оксфордского философа Ника Бострома о будущем искусственного интеллекта. Книга стала неожиданным мейнстримным успехом после того, как такие фигуры, как Билл Гейтс и Элон Маск, опубликовали в твиттере как свои хвалебные отзывы о ней, так и опасения по поводу ее последствий, воскресив извечное научно-фантастическое клише о грядущей схватке между человеком и машиной. Наша беседа была в достаточной степени эклектичной, охватывая роботов-убийц, потенциал субъективного сознания в алгоритмах и, в последние минуты, идею влюбиться в компьютер. Но даже самые провокационные отступления во второй половине дня имели такой вес, какого я не ожидал в предыдущие годы. Трудно отмахнуться от разговоров о будущем, когда кажется, что оно наступает так быстро.
Ударные волны от конкурса ImageNet Challenge 2012 года еще не утихли. Это был переломный момент для таких одержимых компьютерным зрением, как мы, но мир обнаружил, что результаты этого некогда малоизвестного конкурса были не просто поворотным моментом в понимании изображений - они были поворотным моментом в понимании всего. Почти магическая комбинация, которую продемонстрировал AlexNet - большие массивы данных, высокоскоростные графические процессоры и глубоко проработанные нейронные сети, - стала образцом, предназначенным для массового применения в областях, далеко выходящих за рамки нашей. Уместно сказать, что новое имя стало на слуху. Это была не просто эпоха машинного обучения, а глубокое обучение - в знак признательности за все более многослойные сети, создаваемые в лабораториях по всему миру.
Это было рождение совершенно новой парадигмы, как и первые годы двадцатого века для физики. Мне вспомнились истории, которые захватили мое воображение, когда я, будучи девочкой-подростком, мечтала о жизни физика в те пьянящие дни, пытаясь представить себе тайну и благоговение, которые, должно быть, испытывали те первые пионеры. Трудно было не позавидовать им, их взгляды на реальность изменились так радикально и так внезапно в результате пробуждения к тайнам квантового мира и релятивистского величия космоса. Они родились в нужное время и в нужном месте, чтобы получить один из самых захватывающих даров истории. Не кажется гиперболой мысль о том, что современное воплощение нейронных сетей - это эквивалент нашего поколения.
Однако уже тогда были причины признать, что будущее не будет чисто поэтическим. Одним из наиболее ярких предвестников перемен стала трансформация научных конференций, посвященных ИИ. На протяжении десятилетий они были скромными мероприятиями, в которых участвовали исключительно профессора, исследователи и студенты, не привлекая внимания СМИ и испытывая нехватку денег. Корпоративные спонсоры были редки, обычно ограничивались академическими издательствами вроде Springer и занимали лишь несколько длинных столов в углу выставочного зала. Но в последующие годы после AlexNet имена из самых вершин списка Fortune 500 превратили мероприятия в зрелища, каждое новое собрание все больше напоминало отраслевую выставку на Лас-Вегас-Стрип. Уже через несколько лет огромные стенды с логотипами, купающиеся в разноцветной подсветке, стали обычным явлением, а такие компании, как Google и Microsoft, устраивали экстравагантные вечеринки для аспирантов, рассматривающих варианты карьеры.
Голод охватил эту область, поскольку возникло желание добиться большего. Больше слоев, чтобы сделать нейронные сети глубже и мощнее. Больше кремния, чтобы ускорить процесс обучения и сделать возможным развертывание все более крупных сетей. И, конечно, больше данных. Больше изображений, больше видео, больше аудио, больше текста и всего остального, что сеть может научиться понимать. Больше всего.
Было интересно думать о возможностях, которые могут открыть эти новые организованные данные, но в то же время и страшно; в моей лаборатории мы уже убедились, что в материале всегда скрыто больше, чем мы думали. Это никогда не были просто изображения, или аудио, или текст - данные позволяли модели формировать представление о мире, а большие данные означали более мощные и нюансированные представления. Отношения, связи и идеи. Истины и неправды. Проницательность и предрассудки. Новое понимание, но и новые подводные камни. Революция глубокого обучения уже наступила, и никто из нас не был к ней готов.
Тем временем исследовательская программа нашей лаборатории проявляла собственную прожорливость: сколько бы мы ни достигли, каждая новая публикация, казалось, порождала десять последующих идей, которые кто-то, будь то постдок или аспирант первого года обучения, был готов подхватить и воплотить в жизнь. Именно это мне и нравилось, даже если часто это казалось чрезмерным.
Я подумал, что истинная ценность Полярной звезды как метафоры заключается не только в ее способности указывать путь, но и в том, что ее расстояние остается вечно бесконечным. К ней можно стремиться до изнеможения, она может стать объектом одержимости всей жизни, но так и не быть достигнутой. Это символ самой характерной черты ученого: любопытство настолько неугомонно, что навсегда отталкивает удовлетворение, как противоположные магниты. Звезда в ночи, мираж вдали, дорога без конца. Я понял, что именно таким для меня становится ИИ. ImageNet стал поворотным моментом, который, безусловно, стоит отпраздновать, но это был не конец пути. Скорее, это было начало еще более грандиозного путешествия. И помимо этого, я теперь был уверен, меня ждало больше, чем может вместить карьера и даже жизнь.
Получив в свое распоряжение пригодную для публикации демонстрацию нашей техники создания подписей к изображениям, мы с Андреем провели следующие несколько недель, совершенствуя наши методы и документируя результаты. Результат нашего гамбита оправдал все мои надежды: хотя предложения все еще оставались простыми и немногословными, они были точными и достаточно естественными в своей формулировке. Это действительно был, по словам Джереми Вулфа, алгоритм, который улавливал "суть" того, что видел.
Пришло время поделиться ею с миром. В конечном итоге это означало академическую аудиторию, и наша работа была принята к участию в конференции 2014 года по системам обработки нейронной информации, или NeurIPS, до которой оставалось несколько недель. Тем временем меня пригласили выступить с лекцией на семинаре IBM в Аламеде, на другом берегу залива, и я не смог удержаться, чтобы не рассказать о том, чего мы добились раньше срока.
Обмен неопубликованными работами был нестандартным шагом, но телефонный звонок, который я получил сразу после этого, подтвердил, что он был правильным. Он поступил от Джона Маркоффа, технологического репортера The New York Times, когда я все еще находился на заднем сиденье своего Uber, направлявшегося в Стэнфорд. Я давно питал симпатию к Джону, поскольку он был одним из немногих представителей СМИ, кто оценил важность ImageNet на ранних этапах ее развития, освещая ее в Times несколькими годами ранее. Тем не менее, импровизированный звонок был необычным.
"Джон? Привет! Как дела?"
"Хорошо, хорошо. Угадайте, кто был в аудитории IBM сегодня утром?"
Ха. Мне и в голову не приходило, что здесь может присутствовать журналист. Я почувствовал, что происходит что-то странное.
"Этот ваш алгоритм - тот, который генерирует предложения для описания изображений, - вы сказали, что он еще не опубликован, верно?"
"Именно так. Но мы представим его официально на выставке NeurIPS в декабре".
"Приятно слышать", - уклончиво ответил Джон, прежде чем перейти к делу. "Послушайте, я хотел сообщить вам, что у меня в руках есть материал - разумеется, под эмбарго - о другой исследовательской группе. Я не могу сказать, кто это, но они утверждают, что создали первый алгоритм, который... ну, - он неловко рассмеялся, - "генерирует предложения, описывающие изображения".
Что?
Это не имело смысла. Мы с Андреем даже не подозревали, что кто-то еще работает над этой проблемой. Но Джон оказался прав. Всего через несколько дней в "Таймс" появилась его статья, озаглавленная "Исследователи объявили о достижении в области программного обеспечения для распознавания изображений". Он написал: "Две группы ученых, работая независимо друг от друга, создали программное обеспечение для искусственного интеллекта, способное распознавать и описывать содержание фотографий и видео с гораздо большей точностью, чем когда-либо прежде".
В академическом соперничестве нет ничего нового, и конкуренция между исследователями всегда была частью магии, которая делает наш мир такой плодородной почвой для инноваций. Тем не менее было странно, что меня это застало врасплох. Исследовательский мир известен своей открытостью, иногда до предела; если не считать права хвастаться тем, что открыл что-то первым, к нашей работе обычно не относятся как к интеллектуальной собственности, не говоря уже о чем-то конфиденциальном, вроде коммерческой тайны. Она предназначена для того, чтобы ею делились со всем миром, включая наших самых яростных соперников, и нередко еще до публикации результатов мы имеем хотя бы некоторое представление о том, кто над чем работает. Затем я углубился в чтение, и все стало ясно.
Уже много лет я и мои коллеги закатываем глаза на то, как пресса склонна преувеличивать достижения ИИ. Но однажды газетная статья заставила меня понять, насколько быстро меняется мир. Нашим соперником была не какая-то таинственная группа исследователей из другого университета. Это была компания Google.
Глава 10. Обманчивая простота
Я почувствовала, как вибрирует мой телефон, когда зазвучала музыка. Это было летним днем 2013 года, и мы с Сильвио присутствовали на бат-мицве дочери друга. Это был подходящий момент, чтобы нас прервали, поскольку торжественность церемонии только что уступила место атмосфере вечеринки на приеме. Я жестом показала, что мне нужно ответить на звонок - отговорка, которую Сильвио наверняка счел удобной, учитывая мое нежелание танцевать на публике, - и выскочила на улицу.
"Привет, папа, как дела?"
Его тон ответил на мой вопрос раньше, чем его слова.
"Я думаю, у вашей мамы жар. Ей трудно дышать, и она говорит, что у нее болит грудь. Где вы? Что мне делать?"
Я резко вдохнул, и сердце мое упало. К этому моменту я никогда не смогу привыкнуть, каким бы привычным он ни стал. Ну вот, опять, - подумала я. Опять.
За двадцать с лишним лет наша семья пережила больше случаев близкого столкновения и ночных страхов, чем я могу вспомнить, проведя, как мне казалось, целые главы нашей жизни в отделениях скорой помощи, реанимации, приемных операционных и других аббревиатурных больничных помещениях. Заболевание сердца, укоренившееся в подростковом возрасте моей матери, вызванное тяжелой ревматической лихорадкой и оставленное прогрессировать в течение десятилетий, всегда было главным виновником, но оно вызвало падение домино во всех направлениях, от побочных эффектов лекарств до почти смертельного кровоизлияния в мозг, которое мы поймали по счастливой случайности. Я сидел с матерью, когда мы пытались разобраться в сетях страховых компаний, искали варианты финансовой помощи и даже совершили поездку в Китай, когда местные возможности лечения иссякли. Постепенно моя роль превратилась из переводчика с китайского языка для подростков в нечто вроде неофициального специалиста по работе с пациентами: я разыскивал специалистов, организовывал консультации и лечение, отслеживал симптомы и следил за графиком приема лекарств и восстановления, который, казалось, никогда не мог стабилизировать ситуацию надолго. По всем признакам это была вторая карьера.
Фирменное упорство моей матери не ослабевало, даже когда одно бедствие, казалось, сливалось с другим. Но каждый новый толчок оставался со мной. Потрясения не столько утихали, сколько застывали, образуя фундамент жизни, прожитой в постоянном ожидании следующей порции плохих новостей - любая из которых грозила стать последней, - и мой желудок опускался каждый раз, когда я видел ее имя на экране своего телефона. Независимо от того, куда вела меня жизнь, я чувствовал себя обреченным на постоянное состояние уязвимости.
После очередного двухдневного вихря последнее испытание закончилось. Колебания сердца, усугубленные лихорадкой. Может быть, грипп. Страшно, но не экзистенциально. Я опустилась на пластиковое кресло в углу больничной палаты, инстинктивно открыла ноутбук и на несколько минут погрузилась в щелчки и клацанье. Трудно переоценить значение любви к своей работе в такие моменты. Но что-то было странным. Я чувствовал это, как покалывание на периферии.
За мной следят?
Я взглянул на экран и увидел, что мама проснулась. Она действительно наблюдала за мной.
"Все в порядке?" спросил я.
Видно было, что ее что-то беспокоит, но это было не ее здоровье. Она еще немного подумала.
"Фей-Фей, чем именно ты занимаешься?"
Это было странное, идеальное время, чтобы смеяться так громко, как я.
"Что?" сказала я, пытаясь говорить серьезно сквозь хихиканье. "Ты спрашиваешь, чем я занимаюсь? Чем зарабатываю на жизнь?"
"Я знаю, что вы ученый. Что-то о мозге. Но за все эти годы мы ни разу не говорили о том, какой ты ученый. Твой отец описывает это как "безумный ученый", но я уверена, что это не просто так".
Моя мама шутит. Медсестра сказала позвонить, если я замечу что-то необычное.
"Да, немного", - ответил я, все еще ухмыляясь, обдумывая ее вопрос.
Если не считать смеха, она была права. За все эти годы отношения к ней как к пациенту у меня выработалась привычка держать свою работу при себе, и теперь я задавался вопросом, не пренебрегал ли я остальной частью ее сущности. Мозговитый подстрекатель все еще был внутри, даже когда больничные халаты и капельницы говорили об обратном. Поэтому я погрузился в работу, начав с самого начала. Тайны разума. Важность категоризации объектов для визуального понимания. ImageNet. Графические процессоры. Взрыв нейронных сетей. Мир внезапно меняется. А она слушала, не отрываясь, но с видом мамы, подбадривающей своего болтливого ребенка. Что-то не сходилось.
"Не знаю, - сказала она после паузы. "По-моему, все это похоже на научную фантастику".
Мне не следовало удивляться. Она обладала достаточным интеллектом, чтобы идти в ногу со временем, но наука ради самой науки никогда не была ее стилем. Она мыслила категориями историй и персонажей. Страсти и конфликты. Я решил импровизировать.
"Знаешь, нас выпустят отсюда через час или два, но у тебя впереди несколько дней восстановления. Ты не сможешь ходить по делам без меня, или папы, или Сильвио, или еще кого-нибудь. Но что, если ты сможешь передвигаться самостоятельно?"
"Вы имеете в виду, например, автобус?"
"Нет. Даже поездка туда и обратно до автобусной остановки - это уже перебор. Я говорю о машине, которая водит за вас. Заберет вас с порога, высадит, и все такое".
До появления таких громких брендов, как Waymo и Cruise, оставались считанные годы, но автономные автомобили не давали мне покоя с тех пор, как Себастьян Трун, пионер в этой области, покинул наш отдел, чтобы принести свой опыт в Google. Мой интерес только усилился благодаря растущей волне внимания со стороны СМИ. Я не ожидал увидеть полностью автономные автомобили на дорогах в ближайшее время, каким бы впечатляющим ни был проект Себастьяна - сильно модифицированный Volkswagen Touareg под названием "Стэнли", который стал первым автомобилем в истории, успешно завершившим гонку по пустыне, ежегодно организуемую Агентством перспективных оборонных исследовательских проектов (DARPA), полностью самостоятельно. Однако в реальном мире управление автомобилем было на порядки сложнее, и я вряд ли считал это реалистичной ближайшей целью. Но это давало мне шанс спустить на землю нечто заумное.
"Ха", - сказала она, ее тон стал ярче. "Для такой, как я, это будет иметь значение".
Затем, после нескольких секунд молчания, она задала обманчиво простой вопрос.
"Фей-Фей, что еще может сделать ИИ, чтобы помочь людям?"
Я считаю, что стал ученым в тот момент, когда увидел число Бидермана, вдохновившее меня на путешествие, которое определило большую часть моей карьеры. Позже я буду вспоминать вопрос, заданный моей матерью с больничной койки, почти мимоходом, с таким же благоговением, поскольку именно в тот момент я получил шанс стать гуманистом. Это было нечто новое, за чем нужно было гнаться, мотивированное гораздо большим, чем удовлетворение любопытного духа. Я не мог предсказать, куда именно приведет этот путь, но я провел слишком много лет в подобных комнатах, чтобы не чувствовать, что какой-то намек на ответ уже маячит перед глазами.
Возможно, именно сейчас мне впервые хватило ума сложить два и два - соединить любовь к искусственному интеллекту с мучительной привилегией ухаживать за хронически нуждающимся человеком. Что может сделать ИИ в больнице ? Мы создали объектив, который мог видеть мир так, как не может видеть человек, превратив Google Street View в социологию. Что может показать нам ИИ в таком месте? Мы создали алгоритм, способный превращать изображения в истории, превращать пиксели в язык и смысл. Теперь я задавался вопросом: здесь ли, где мы провели большую часть своей жизни, я нахожусь в присутствии историй, которые больше всего нуждаются в том, чтобы быть рассказанными.
Доктор Арни Мильштейн был легендой в своей области. Профессор медицинской школы в Стэнфорде, давний консультант в отрасли и бывший врач - он был экспертом для эксперта. К моменту нашей встречи его карьера переключилась на улучшение качества оказания медицинской помощи в больницах - качество процессов, результаты и впечатления пациентов - при одновременном снижении затрат. Его седые волосы, граничащие с белизной, свидетельствовали о глубине его опыта, но он был неприхотлив и энергичен, с легкой улыбкой и естественным дружелюбием.
За те месяцы, что прошли с тех пор, как мы с мамой обсуждали ИИ в ее больничной палате, мысли о том, чтобы как-то объединить ИИ и уход за пациентами, не покидали меня. Я общался с коллегами при любой возможности, как в своем отделе, так и далеко за его пределами, закладывая семена разговоров везде, где бы я ни был. Когда общий знакомый познакомил меня с Арни, одно из семян в итоге расцвело, и хотя наш первый разговор показал, насколько разными были наши миры - нам обоим казалось, что собеседник говорит на иностранном языке, - мы сразу почувствовали родство. Никто из нас не представлял, какое сотрудничество нас ожидает, но мы были уверены, что оно в нашем будущем. Пытаясь запустить процесс, он пригласил меня присоединиться к нему на закрытую демонстрацию технологии удаленного мониторинга больниц, разрабатываемой компанией Philips, высоко над Сан-Франциско.
"Большое спасибо, что пришли". Представитель компании прошел в центр демонстрационного зала, где перед рабочими станциями, оснащенными большими мониторами с плоским экраном, расположился ряд медсестер . "Сейчас вы увидите демонстрацию технологии, которую мы называем "eICU" - решение для удаленного мониторинга в отделениях интенсивной терапии. Пока она находится на стадии доказательства концепции, но мы уже начали ее опробовать в ряде больниц".
Я понял, что на экранах отображалась прямая трансляция пациентов отделения интенсивной терапии в реальной больнице, а на видео накладывались многомерные показатели их жизнедеятельности, что позволяло медсестрам вести наблюдение отсюда. Если они замечали что-то опасное или ненормальное, панель кнопок позволяла им немедленно сообщить об этом персоналу на месте.
"Никто не любит думать об ошибках в здравоохранении, но они представляют постоянную угрозу для пациентов больниц. Инфекции, неправильно подобранные хирургические инструменты, перепутанные лекарства, ошибки в дозировке, даже такая простая вещь, как падение пожилого пациента. Список можно продолжать до бесконечности".
Отлично. Похоже, мне будет о чем подумать, когда я в следующий раз окажусь в приемной.
"Как это ни трагично, такие ошибки являются причиной примерно ста тысяч смертельных случаев в год, большинство из которых можно полностью предотвратить".
Подождите, что? Мое сознание внезапно перевернулось. Сто тысяч смертей в год? И все из-за ошибок?
"eICU - это первый шаг к предотвращению особенно опасной ошибки: пациентов, оставленных без присмотра на слишком долгое время в отделении интенсивной терапии. Она позволяет более крупным, географически распределенным командам внимательнее следить за наиболее уязвимым контингентом больницы".
Это была хорошая идея, но я никак не мог забыть только что услышанную цифру. Сто тысяч. Оно постоянно повторялось в моей голове.
"Это пример того, что я называю "темным уголком" в здравоохранении, Фей-Фей", - наклонился Арни, чтобы прошептать. "Это когда пациент, будь он в больнице, в доме престарелых, в операционной или где угодно, ускользает от внимания врача".
Я думал о маме на больничной койке и о том, что каждый вечер, стоя у входной двери, гадал, не наткнусь ли я на признак того, что ее состояние ухудшилось за время моего отсутствия.
"Это попытка решить очень старую проблему", - продолжил Арни. "Практически все работники здравоохранения перегружены работой до изнеможения. И в каком-то смысле все технологии, созданные для них за последние несколько десятилетий, только усугубили ситуацию, потому что теперь они тоже перегружены информацией. Это опасная комбинация, и слишком много пациентов попадают впросак".
Демонстрация была отполированной и впечатляющей, но мое беспокойство продолжалось и после ее завершения.
"Я не могу выбросить этот номер из головы", - сказала я, когда двери лифта закрылись.
"Сто тысяч смертей в год?" ответил Арни. "Эта цифра, пожалуй, больше, чем что-либо другое, послужила стимулом для моей работы в последние десять лет или два года".
Одно число в сердце одержимости. У нас с Арни даже больше общего, чем я думал.
"У меня к вам вопрос, - продолжил он. "Представьте себе любую больницу, или учреждение для пожилых людей, или даже программу домашнего ухода. Чего пытаются добиться сиделки, когда совершают обход?"
Я думал о врачах и медсестрах, которые навещали мою маму во время ее пребывания в больнице, многие из которых, казалось, не имели больше минуты или двух в запасе, прежде чем броситься на выполнение следующего задания.
"Личное время? Постельный режим?"
"Конечно, но подумайте еще проще".
"Ну, я не знаю, просто проверяю, наверное?"
"Вы поняли. Они делают все возможное, чтобы разделить часть своего внимания с каждым пациентом, находящимся под их опекой. Но даже при самом усердном подходе, как долго они находятся лицом к лицу? Неизбежно, что большая часть времени пациента проходит без наблюдения".
"И именно в это время происходят все эти несчастные случаи?" спросил я.
"Из-за этого ежегодно без нужды умирают сто тысяч человек".
"Хммм..." Я сделал паузу, пытаясь осмыслить все это. "Похоже, общим знаменателем является внимание. Осознанность".
"Именно так. Информированность - вот что главное. Это самый ценный ресурс во всем здравоохранении. И это единственное, что мы не можем масштабировать".
Я словно перенесся в кафе "Красная дверь", где вместе с Пьетро и Кристофом размышлял над опытом видения. Я думал о показаниях ЭЭГ Торпа, фотографических экспериментах Бидермана и попытках Канвишера составить карту анатомии коры головного мозга. Но больше всего я размышлял о Трейсман и наблюдении, лежащем в основе ее работ: чем хаотичнее сцена, тем больше времени требуется, чтобы понять ее смысл. Это была отрезвляющая мысль в мире перегруженных работой врачей, проносящихся мимо станций для мытья рук, и медсестер, слишком отвлеченных, чтобы заметить хрупких пациентов, находящихся на грани падения. Большая часть моих исследований была посвящена природе восприятия. Откуда оно берется. Что оно делает. На что оно способно. И только встретив Арни, я начал понимать, чего он стоит.
"Простите, - сказал я, взяв паузу. "Я просто немного ошеломлен этими цифрами".
Через несколько недель после демонстрации я встретился с Арни в его офисе, чтобы продолжить нашу беседу. Мы пролистывали книгу "Ошибка - дело рук человеческих" (To Err Is Human), тревожный, но всеобъемлющий обзор медицинских ошибок в больничной среде. На момент ее публикации в 2000 году авторы пришли к выводу, что нарушения протокола и невнимательность ежегодно уносят больше жизней, чем такие известные причины, как автомобильные аварии, рак груди и СПИД.
"Да. Многое не укладывается в голове".
Однако это было необходимое упражнение. Наши разговоры не прекращались с тех пор, как мы покинули демонстрационный зал реанимации, и наше волнение росло по мере того, как мы принимали решение о проведении небольшого исследовательского проекта. Это была наша первая встреча для его планирования.
"Начнем вот с этого, - сказал Арни, поставив указательный палец на отрывок в самом низу страницы:
По данным CDC, даже сегодня "мытье рук является самым важным средством предотвращения распространения инфекции". Тем не менее, неоднократные исследования показывают, что после более чем 150-летнего опыта отсутствие или неправильное мытье рук по-прежнему вносит значительный вклад в передачу заболеваний в медицинских учреждениях.
Это может показаться прозаичным, но мытье рук остается серьезной проблемой в сфере здравоохранения. По данным Центров по контролю и профилактике заболеваний, считается, что медработники должны мыть руки сто раз в день во время обхода, при каждом переходе от одного пациента к другому. Учитывая частоту и природу человеческого фактора, случайные ошибки были бы неизбежны при самых благоприятных обстоятельствах. Но когда смена затягивается, а стресс и усталость становятся все сильнее, риск значительно возрастает. В конечном итоге какой-то процент таких ошибок приводит к инфекциям - "внутрибольничным инфекциям", как их официально называют, - и к непостижимому количеству человеческих страданий.
Какой бы пугающей ни была эта тема, она стала удобным местом для начала нашей работы. Сосредоточив внимание на поведении сиделок, а не пациентов, мы могли избежать некоторых сложных моментов в медицинских исследованиях, когда речь идет о людях, проходящих лечение. К тому же, по словам Арни, администраторы Стэнфордской больницы уже давно занимались этим вопросом. Желание найти новое решение уже было.
Я быстро понял, что Арни из тех, кто добивается своего. Уже через час или два после нашего разговора он присылал мне смс с новостями, которые можно было расценить как самостоятельные достижения: звонки в службу поддержки, встречи с лицами, принимающими решения, и обеспечение доступа в больницу. Я полюбила подобное планирование в своей работе, гордясь тем, что мне пришлось приложить немало усилий, чтобы заложить основу для нового эксперимента. Но это был его мир, а не мой, и я была потрясена тем, как много всего происходило, когда он щелкал пальцами.
Сам того не зная, Арни стал тем, кого оставили Пьетро и Кристоф , - наставником, стирающим границы между дисциплинами в надежде решить проблемы. Мой вклад должен был начаться довольно скоро, по мере того как технологическая сторона нашего проекта будет собираться воедино, и я с нетерпением ждал этого. Однако на данный момент я был доволен тем, что следую примеру ветерана. Было приятно снова стать студентом.
Но даже когда Арни творил свое волшебство, масштабы задачи начали осознаваться. Наша первоначальная цель - автоматизированная техника, обеспечивающая последовательное и тщательное мытье рук в больничных помещениях, - требовала гораздо большего, чем методы классификации изображений, ставшие символом нашей области, или даже работа по созданию подписей к изображениям, которую я проделал вместе с Андреем. Наше решение должно было распознавать особые виды движений - не просто присутствие чего-либо, а то, как оно движется, и что эти движения означают, причем с точностью, достаточной для того, чтобы пройти клинический контроль.
Возникло множество острых вопросов. Например, что подразумевает классификация "правильного" мытья рук? Это, конечно, нечто большее, чем определение местонахождения врача вблизи станции для мытья рук. По-видимому, для достижения этой цели требуется алгоритм, способный распознать каждый шаг процесса: подойти к раковине, включить кран, выдать мыло, потереть под ним две руки и поддерживать это действие в течение достаточного времени. Во всех смыслах это была самая сложная перцептивная задача, с которой я когда-либо сталкивался.
К счастью, это не было прецедентом, и моя лаборатория уже занималась многими из базовых возможностей, необходимых для такой системы. Андрей, например, работал над исследовательским проектом в сотрудничестве с Google по идентификации сценариев, показанных на спортивных кадрах - например, бэттер делает замах в бейсболе или баскетболист идет в дриблинг - задача классификации в значительной степени зависит от распознавания движений и действий. Другой мой студент, Хуан Карлос Ниблес, написал всю свою докторскую диссертацию о распознавании человеческих действий на видео. Сейчас он работает профессором в Университете Норте (Universidad del Norte) в своей родной Колумбии, где он и его студенты недавно создали набор данных под названием "ActivityNet" - "ImageNet of activities", как следует из названия - в котором собраны десятки тысяч коротких видеоклипов, каждый из которых аннотирован физическими движениями, которые они изображают: ходьба, бег, танцы, игра на музыкальном инструменте и тому подобное. Другими словами, хотя анализ видео с той точностью, которую мы себе представляли, не был полностью решенной проблемой, он также не выходил за рамки возможного: это была "сладкая точка" для исследований.
Я разослал аспирантам кафедры свое обычное письмо с объявлением о новой партии вакансий ассистентов. Такие проекты, как ImageNet, приучили меня к скромным ожиданиям, и этот случай не стал исключением. Когда пришло небольшое, но приличное количество ответов, я собрал несколько слайдов, чтобы объяснить нашу идею, и назначил первый раунд собеседований. Тем временем нам нужно было придумать название. Мы с Арни представляли себе технологию, призванную заполнить пространство умной, надежной осведомленностью, но отличающуюся ненавязчивостью. В отличие от человеческих аудиторов, наша технология будет незаметно сливаться с фоном, молча наблюдать за происходящим и говорить только тогда, когда почувствует опасность. Мы назвали это "окружающим интеллектом".
"Итак, план таков. Окружающий интеллект для оказания медицинской помощи", - заключил я. "Есть вопросы?"
Моей аудиторией, сидящей на красном диване в моем кабинете, был особенно яркий двоечник, который делил свое время между информатикой и статистикой. Он начинал второй год в качестве кандидата наук и, что было удобно для нас, искал более постоянное место, чтобы закончить оставшуюся часть своего исследования. Но настроение было не таким расслабленным, как хотелось бы. Все трое наших предыдущих интервьюируемых решили не присоединяться к нашей команде, и он стал четвертой попыткой. Я изо всех сил старался скрыть, что наш боевой дух падает.
"Я имею в виду, это звучит очень интересно", - ответил он, его тон был достаточно искренним. Я предпочла проигнорировать тот факт, что он был четвертым кандидатом подряд, назвавшим нас "суперинтересными".
"Однако меня интересует, смогу ли я по-прежнему публиковаться в привычных местах. Ну, знаете, NeurIPS, CVPR и все такое".
"Безусловно", - сказал я с улыбкой. "Мы исследуем множество нерешенных проблем".
Это было правдой. Как бы ни была необычна обстановка в больнице, компьютерное зрение под капотом должно было быть абсолютно современным. Мы продвигались к границе идентификации человеческих действий, а не статичных объектов, что уже было тонкой экспериментальной техникой, и наши алгоритмы должны были столкнуться с дополнительным давлением, связанным с распознаванием необычайно тонких движений с высокими требованиями к точности. В то же время мы выводим распознавание объектов на новый уровень, поскольку нашим классификаторам придется бороться с плотными слоями движения, беспорядка и двусмысленности. Это была исключительно тяжелая работа, предоставляющая широкие возможности для создания репутации.
"Откровенно говоря, мы хотим добиться реального клинического эффекта. Это означает сотрудничество с клиническими коллегами и подачу заявок в клинические журналы, а не только в компьютерные".
Студент на мгновение задумался. "Хорошо, но, например, каков график работы с такими журналами?"
Учитывая, насколько сильно академическая карьера зависит от публикаций, особенно в первые годы, это был хороший вопрос. Он воспринимал медлительность медицинских журналов как якорь, отягощающий его, когда нужно было бежать, и он не зря беспокоился. Ему повезет, если он будет публиковаться в два раза реже, чем его коллеги. Я внутренне поморщился, когда отвечал.
"Честно говоря, я сам этого не делал. Но мой партнер, доктор Мильштейн, говорит, что обычно на это уходит год или два".
Широко раскрытые глаза. Еще одна пауза.
"Вау. Это... гораздо дольше, чем я ожидал. Я имею в виду, что обычно работы по информатике занимают несколько месяцев".
Он говорил очевидное, но он был прав. Мне нечего было добавить.
"Профессор Ли, последний вопрос, - начал он, складывая руки. "Я знаю, сколько времени вы потратили на создание ImageNet и насколько важным он был для компьютерного зрения. Будет ли у нас доступ к аналогичному набору данных для этой идеи окружающего интеллекта?"
Я вздохнул, возможно, слишком громко.
Ответ был отрицательным. Еще одно "нет" среди многих других. Нет наборов данных. Нет известной литературы, на которую мы могли бы опираться. Нет лабораторий, работающих над аналогичными проблемами, с которыми можно было бы сотрудничать. Хотя ответ был дан вежливо, он тоже был отрицательным.
По мере того как тянулись месяцы, наша борьба за привлечение хотя бы одного соавтора стала не давать мне покоя по ночам. Я стоял на пороге того, что обещало стать самой значимой главой моей карьеры - шанса по-настоящему сделать добро с помощью ИИ, как и предполагала моя мать, но без помощи мы ничего не добьемся. Я подумал об одиноких первых днях работы над ImageNet. В сравнении с ними они казались мне пустыми.
Однако сегодня у меня была возможность отвлечься. Возможно, заметив, что мне нужен толчок, чтобы не терять голову, Арни отправил меня на экскурсию.
"Вы уверены, что все будет хорошо?" спросила я, поправляя маску. Я провела большую часть своей жизни в окружении людей в халатах, но сама надела их впервые.
"Безусловно. Мы постоянно этим занимаемся. Медсестры, студенты мединститута, выпускники ординатуры, да кто угодно. Не волнуйтесь. Вы впишетесь в коллектив".
Арни устроил меня в качестве наблюдателя за доктором Терри Платчеком, педиатром из детской больницы Люсиль Паккард, чтобы я мог наблюдать за тем, как соблюдается гигиена рук в течение всей больничной смены. Но я хотела увидеть все: пациентов, медсестер, все это. Весь спектр их переживаний. Я знала, что их мир - это хаос, и хотела увидеть его таким, каким видят его они.
Я понятия не имел, что меня ждет.
Рождество пришло в общую палату, и я не могла поверить, сколько там было детей. У каждого из них была своя история, и каждая была душераздирающей. Некоторые встречи приносили хорошие новости, некоторые - плохие, а большинство были просто еще одним шагом в долгом, часто оцепенелом пути. Некоторые родители спрашивали, кто я и почему я там. Большинство даже не задумывались, привыкшие к вращающимся лицам, пытаясь понять, что переживает их близкий человек.
Предполагалось, что я буду следить за чем-то механическим и легко поддающимся количественной оценке, но я не мог оторвать глаз от того, что, как я быстро понял, было настоящей демонстрацией: человеческий акт оказания помощи. Хороший врач - это источник информации, источник силы, а иногда и опора для пациентов и их семей в трудную минуту. Годы ухода за матерью привели меня к уверенности в том, что я досконально знаю сферу здравоохранения, но встреча с доктором Платчеком полностью разрушила это предположение. Я была уверена, что никакие технологии, какими бы передовыми они ни были, не смогут заменить того, что я увидела в тот день.
Тем не менее я поняла, что в определенные, решающие моменты новые инструменты были крайне необходимы. Я познакомилась с медсестрой-ветераном, у которой недавно упал пациент - первый за всю ее карьеру, - и была удивлена тем, как сильно это ее задело. То, что кто-то пострадает в ее дежурство, было статистической неизбежностью - ведь она проработала медсестрой несколько десятилетий, - но когда этот момент наконец наступил, ее жизненный опыт не имел значения. Она выглядела такой же эмоционально опустошенной, как если бы это случилось в ее первый день. Если бы ИИ мог помочь избежать этого - двух глубоко раненых людей, - то, казалось бы, усилия того стоили.
Каким бы физически тяжелым ни был день, эмоциональное истощение затмило всю усталость, которую чувствовало мое тело в конце смены. Я как будто прокрутил в голове все моменты, с которыми сталкивался с матерью, но проигрывал их по кругу, час за часом. Ошеломленный, я пожал руку хозяину и обменялся любезностями, собираясь уходить. Но по дороге мне пришло в голову кое-что.
"Терри, мне кое-что интересно. Что заставило вас с такой готовностью впустить меня в свой мир? Ведь, будем честны, я немного аутсайдер".
Он на мгновение задумался, прежде чем ответить.
"Знаете, в последнее время в новостях много говорят об искусственном интеллекте, и, честно говоря, большинство из них мне не нравится".
Я улыбнулся, возможно, цинично. Я знал, к чему это приведет.
"Конечно, было бы здорово автоматизировать большую часть моего дня. Неважно. Я все понимаю", - продолжил он. "Но я немного устал от разговоров руководителей технологических компаний о том, что такие люди, как я, останутся без работы. Вы с Арни - единственные, кто, похоже, действительно хочет помочь мне, а не заменить меня".
Я на мгновение задумался над своим ответом. "Я знаю, что мы немного говорили о моей матери и о том, как ее здоровье повлияло на меня за эти годы", - сказал я. "Но есть и другая сторона этой истории. За все время, что я провела в таких комнатах, как эта, есть один положительный момент".
"Что это?"
"Есть что-то особенное в... не знаю, можно ли назвать это актом оказания помощи, будь то медсестра, помогающая моей матери сесть, или специалист, излагающий стратегию лечения. Это так по-человечески - возможно, это самое человечное, на что мы способны, понимаете? Я не просто не могу представить, что ИИ когда-нибудь заменит это - я бы даже не хотел этого. Я ценю ту роль, которую играют технологии в поддержании нашей жизни в наши дни, но не будет преувеличением сказать, что настоящая причина, по которой мы с мамой прошли через все это, - это люди. Такие, как вы".
Солнце село во время нашей смены, и я вышел из больницы в бодрый воздух наступившего вечера. В относительной тишине мои мысли разбрелись, а воспоминания о прошедшем дне нахлынули с тоскливым трепетом. Но как бы ни было тяжело, Арни был прав. Это было именно то, что мне было нужно. Это было образование, которое не может дать ни одна степень по информатике: суета в палате, умоляющие взгляды неуверенности, отчаянная жажда комфорта в любой форме. Больные ноги и изношенные теннисные туфли. Холодная пицца в комнате отдыха. Час за часом. Арни знал, что, несмотря на весь мой многолетний опыт работы с матерью, я не представляю, каково это - быть клиницистом. Поэтому он пригласил меня посмотреть на это своими глазами.
По дороге домой мне пришла в голову странная мысль: Я был рад, что мы еще не набрали ни одного студента. Я бы завалил их списком литературы для компьютерщиков, приучая думать о данных, нейросетях и последних достижениях в области архитектуры. Это, конечно, было важно - в таком проекте нельзя уклоняться от науки. Но теперь я понимал, что с этого начинать не стоит. Если мы хотим, чтобы ИИ помогал людям, мы должны начать с самих людей.
Решение было принято мгновенно. С этого дня ни один потенциальный член нашей команды не напишет ни строчки кода, пока не получит тот опыт, который только что получил я. Теневая работа должна была стать посвящением каждого новобранца. И это не будет обсуждаться.
Благодаря некоторому сочетанию переменчивой удачи и заряжающего эффекта от моего пребывания в больнице, прогресс был достаточным, чтобы сохранить видение. Потребовалось почти два года и гораздо больше терпения, чем я привык иметь, но мы с Арни собрали достаточно большую команду, чтобы начать работу всерьез. И хотя было ясно, что окружающий интеллект еще какое-то время будет оставаться нишей среди исследователей - спрос на специалистов в области ИИ был слишком велик, а возможности конкурентов слишком богаты, - калибр наших рекрутов говорил о том, что мы что-то задумали. Это была, без сомнения, самая интеллектуально разнообразная команда из всех, в которых я когда-либо участвовал.
Среди наших первых сотрудников были аспирант первого года обучения по информатике, кандидат наук по электротехнике и постдок, изучающий восприятие человеческих действий и социальную навигацию у роботов. Затем Арни подобрал для моих сотрудников молодых врачей: больничного педиатра, гериатра и специалиста по интенсивной терапии . Важно, что мы с самого начала договорились, что ни одна из половин команды не будет главной; Арни и его коллегам нужен был наш опыт, чтобы создать технологию, а нам - их опыт, чтобы создать ее правильно: чтобы обеспечить не только эффективность, но и уважение и гуманность.
Арни приберег свой самый впечатляющий подвиг напоследок: убедить реальные организации позволить нам продемонстрировать нашу технологию на их территории. Мы начали с попытки выявить нарушения гигиены рук в двух разных больницах - одной в Пало-Альто и другой в Юте - до того, как они успели повлиять на пациентов. Далее был дом престарелых в районе Бэй, где мы хотели помочь сиделкам, отслеживая физическую активность постояльцев в течение дня. И наконец, в отделении интенсивной терапии Стэнфордской больницы мы установили систему, которая предупреждала сиделок, когда выздоравливающие пациенты были неподвижны в течение подозрительно долгого времени.
Однако одна проблема оставалась, и даже мешок хитростей Арни не был достаточно глубоким, чтобы найти решение: данные. Годы, предшествовавшие этому проекту, убедили меня в абсолютной и несомненной необходимости данных для эффективного обучения таких моделей, как наша, - реальных, органических данных в больших количествах и с максимально возможным разнообразием.
Но в мире здравоохранения нужные нам данные почти по своей природе были скудны. Пациенты и врачи редко записывались по очевидным причинам - от юридических обязательств до элементарной конфиденциальности, а четкие изображения событий, которые мы хотели обнаружить, - многие из которых, например падения, изначально являлись отклонениями, - встречались еще реже. Это сделало нашу работу еще более сложной, чем я думал вначале: прежде чем обучать модели, нам нужно было самим собрать необходимые данные.
Тем не менее, импульс продолжал нарастать. Новые эксперименты. Новые гипотезы. Засучив рукава, мы работали с новым оборудованием и новым программным обеспечением. Как я и ожидал, это был самый сложный с научной точки зрения проект, который когда-либо пыталась осуществить моя лаборатория. Но именно миссия по-настоящему захватила наши сердца. Смысл пронизывал все, что мы делали, и из-за этого карьера, которую я знал всю свою взрослую жизнь, казалась совершенно новым миром. Личная жизнь, которую я так старался отделить от своего пути ученого, прорвалась сквозь плотину, смывая все на своем пути. Это было долгожданным.
"Позовите медсестру, - умоляла мама, ее слова были едва слышны между слабыми гортанными стонами. "Капельница... Она снова чешется. Там, куда воткнули иглу". Мы снова были в больнице, на этот раз для последней процедуры визуализации сердца, растянувшейся на годы, каждая из которых была чуть более интенсивной, чем предыдущая. Я позвала на помощь.
Нашей сиделкой на этот вечер была Мэнди, путешествующая медсестра из центральной Калифорнии. Она была молода, жизнерадостна и все еще работала над тем, чтобы получить сертификат и занять более постоянную должность. Я поняла, что она мне нравится, как только она вошла в комнату.
"Мне очень жаль", - начал я. "Я знаю, что мы звоним уже в третий раз за последние несколько часов".
"Вовсе нет", - настаивала она с улыбкой, которая, казалось, принадлежала совсем другому лицу, чем ее усталые глаза. От нее исходило такое тепло, которое нелегко подделать. "О, бедняжка!" - сказала она, обращаясь к моей матери и практически излучая доброжелательность. "Похоже, нам придется снова промывать капельницу. Я знаю, это была невеселая ночь".
Это зрелище я видела тысячу раз, но оно поразило меня по-другому. Возможно, дело было в невинности, которую я уловил в поведении Мэнди, или в том, что наши исследования сделали всех нас экспертами в области повседневной жизни медсестер. Но у меня в горле стоял ком, которого я никогда не чувствовал за все годы, проведенные в подобных комнатах. Сочувствие, благоговение, благодарность и множество других чувств, которым я не мог дать названия. Присутствие Мэнди - простой, меняющий жизнь акт заботы - застал меня врасплох. На моих глазах навернулись слезы.
Обычно в такие моменты я полностью сосредотачивался на маме, но работа, которую мы выполняли, навсегда изменила мои мысли. В среднем медсестра проходит четыре-пять миль за смену. Я знала, где побывала эта женщина , прежде чем прийти в нашу палату, и сколько других лиц она видела. Им приходится выполнять более 180 уникальных задач. Я знал, что она, вероятно, измотана. Смены увеличиваются, несмотря на хорошо задокументированные проблемы, связанные с усталостью сиделок. И все же она была неутомима в своей доброте. Сегодня средняя смена длится двенадцать часов. И все это она делала с улыбкой.
Если мои исследования действительно могли кому-то помочь, то такие медсестры, как Мэнди, были на первом месте в моем списке. Я не мог представить себе более достойных бенефициаров.
"Вы здесь работаете?" спросила Сьюзен. Наступило утро, а вместе с ним и новая медсестра для ранней смены.
Я посмотрел на свой значок Стэнфордской медицинской школы, который часто носил во время работы с Арни. Я понял, что забыл его снять.
"О, это?" Я хихикнула. "Нет, на самом деле я участвую в исследовательском проекте".
"Что за исследования?" - спросила она.
"Я с факультета информатики, и мы с моими студентами сотрудничаем над проектом, в котором используется искусственный интеллект для отслеживания гигиены рук".
Ее улыбка немного потускнела, она выглядела скорее вежливой, чем дружелюбной. "Значит... за нами следит камера?"
"Нет, нет, нет! Конечно, нет!" Этот вопрос задавался уже не в первый раз, но я все равно каждый раз чувствовал прилив смущения. "Это скорее датчик, чем камера. Запись не ведется. Но он предоставляет своего рода изображение для анализа нашим алгоритмом. Он учится рассматривать различные модели мытья рук. Мы еще только начинаем, в основном пытаясь понять, справляются ли алгоритмы с поставленной задачей. Но за вами никто не следит, обещаю!"
Я постарался сделать все возможное, чтобы сохранить легкость. Все, что я говорил, было правдой, конечно, но я не мог винить ее за то, что она предполагала худшее.
"Ладно, думаю, это звучит нормально", - сказала она, выдыхая. "Вы знаете, - продолжила она, понизив голос, - ваши некамеры должны обязательно присматривать за врачами". Сьюзен была такой же доброй, как и Мэнди, но в ней чувствовалась какая-то изюминка. По ее лицу расплылась кривая улыбка. "Они хуже всех. Но администраторы кричат только на нас, медсестер".
"Bossware".
Новый вид программного обеспечения, более вежливо называемый "мониторингом сотрудников", появлялся на складах и в офисах, внимательно изучая свои объекты до такой степени, что многие считали его инвазивным и даже дегуманизирующим. Несмотря на то, что это программное обеспечение рекламировалось как способ повысить производительность труда и обеспечить безопасность поведения в профессиональной среде, оно практически мгновенно завоевало презрение среди работников и вскоре стало постоянной темой в технологической прессе. Теперь, когда у нас еще не было шанса проявить себя, наша работа столкнулась с перспективой быть поглощенной антиутопическими коннотациями. Поначалу ассоциация казалась несправедливой - наша технология предназначалась для обеспечения безопасности пациентов, а не для оценки их работы, - но беспокойство было понятным и слишком очевидным в ретроспективе. Это была моя первая встреча с тем аспектом ИИ, который вскоре будет преследовать общественное воображение: его способность к слежке.
Оглядываясь назад, легко забыть, насколько внезапными были перемены. Это был 2015 год, и последствия ИИ для частной жизни все еще находились в фокусе внимания большинства из нас; в конце концов, прошло всего несколько лет с тех пор, как точность классификации изображений даже приблизилась к полезному порогу. Теперь же, казалось бы, в мгновение ока исследователи вроде нас столкнулись с возможностями такой мощности, что технические проблемы уступили место этическим. И наше путешествие по миру здравоохранения привело все это в нашу лабораторию.
"Никому не нужны боссовые программы", - сказал один из студентов.
Команда вернулась из детской больницы Люсиль Паккард, где надеялась нанести последние штрихи в план проведения экспериментального исследования, но поездка оказалась неожиданно неудачной. Медсестры из всех отделений, которых мы просили принять участие в исследовании, отвергли наши планы по установке партии прототипов датчиков. Это была серьезная неудача, но после разговора со Сьюзан я не мог сделать вид, что удивлен.
Это было напоминанием о том, что даже у четко сформированной междисциплинарной команды могут быть "слепые пятна". Какими бы знающими ни были наши врачи, они были скорее исследователями, чем практикующими сиделками, а это различие имело значение в подобной ситуации. Проще говоря, мы собрали глубокий запас знаний в области здравоохранения, но никто из нас не был медсестрой. Мы с Арни собрали экстренное совещание, чтобы обсудить возможные варианты.
"Я вижу только один путь вперед", - предложил один из врачей. "Медсестры должны встретиться с вашими исследователями. Им нужно поговорить. И я имею в виду действительно поговорить".
"Да, безусловно. И включите в него как можно больше людей", - сказал другой. "Слушайте. Поймите их точку зрения".
Третий присоединился. "Как насчет ратуши? Я мог бы помочь его организовать".
Слава Богу за каждого из вас, подумал я. Я не представляю, как бы я справился с этой задачей без Арни и его коллег.
"Язык нашего IRB должен быть непробиваемым", - сурово заявил Арни. "Нашим партнерам нужны гарантии, что ничья конфиденциальность не будет нарушена. Ни разу. Всем ли это ясно?"
IRB, или Institutional Review Board, - это руководящий орган, осуществляющий надзор за клиническими исследованиями, подобными нашим. Для того чтобы добиться одобрения исследования, требуется изящество и дипломатическая смекалка, не говоря уже о глубоком клиническом опыте. Я сам привык к этому, начиная с исследований в области психофизики, которые мы с Кристофом проводили в Калтехе, но для большинства моих студентов, изучающих информатику, это была совершенно новая концепция. Это были настоящие медицинские исследования, в которых участвовали реальные люди, а также новый мир профессиональных норм, которые нужно было учитывать.
Однако никто из нас не был готов к тому, что наше исследование может выйти за рамки IRB . Когда студенты рассказали нам о посещении больницы, мы с радостью узнали, что медсестры не были обеспокоены нашим исследованием в частности; многие из них узнали нас, доверяли нашим мотивам и спокойно относились к нашей работе. Их беспокоило то, к чему может привести эта работа: как может развиваться технология, кто еще может начать ее использовать и как может расшириться сфера ее применения. Их опасения были проницательными и подчеркивали тот факт, что наша задача заключалась в оценке будущего ИИ, а не только его настоящего - идей, которые даже IRB не был призван рассматривать.
Обеспечение безупречной работы наших устройств означало, что ничего нельзя передавать в удаленные центры обработки данных или, выражаясь термином, который только начинал завоевывать всеобщее признание, "облако". В любом другом контексте этот термин привлек бы внимание прессы и финансирование венчурного капитала, но для нас он был неприемлем. Вместо этого нам пришлось ориентироваться на другую зарождающуюся тенденцию: "пограничные вычисления", когда все необходимые вычислительные ресурсы сосредоточены в устройстве. Это была парадигма, необходимая нам для наших исследований, но это была целая область, и никто из нас не понимал ее так хорошо, как хотелось бы.
Как бы сложно это ни было, мы понимали, что сложности неизбежны. В сравнении с этим дни массовой загрузки из Интернета казались беззаботными, а теперь мы столкнулись с перспективой сбора, возможно, самых чувствительных данных, какие только можно себе представить: моменты подлинной человеческой уязвимости, запечатленные с достаточной точностью, чтобы научить машины надежно их распознавать. И мы должны были сделать все это, будучи уверенными - абсолютно уверенными - в том, что наши испытуемые будут в безопасности и анонимности с самого первого шага в процессе, следуя высоким стандартам IRB, общей порядочности, которую, как я знал, мы все привносили в работу, и правовым основам, таким как HIPAA - Закон о переносимости и подотчетности медицинского страхования.
Поэтому команда продолжала расти. То, что начиналось с разнообразных инженеров, исследователей и экспертов в области политики здравоохранения, вскоре стало включать практикующих врачей, биоэтика и доктора юридических наук из Стэнфордской школы права. Наши технологические партнеры также стали более разнообразными, включая экспертов по сенсорам, кибербезопасности и, конечно же, пограничным вычислениям. Это было амбициозное видение, но благодаря сочетанию финансирования из моей собственной лаборатории и Исследовательского центра клинического совершенства Арни, стэнфордской организации, занимающейся повышением качества и доступности медицинской помощи, нам удалось его реализовать.
Граница оставалась открытой, и мы ответили лишь на малую часть вопросов, которые поднимали наши исследования. Но мы добивались прогресса. Самое главное, я впервые осознал, что рассматривать ИИ как самостоятельную науку - значит упустить его величайший потенциал. Наши исследования показывали, что при интеграции с другими областями и использовании других форм опыта возможности ИИ могут быть безграничными.
"Мама, пожалуйста".
Последняя операция моей матери завершилась благополучно, но на этот раз путь к выздоровлению будет особенно долгим. Важнейшим условием для этого был режим упражнений для легких, выполняемых путем дыхания несколько раз в день в портативное устройство, известное как спирометр с побуждением. Инфекции легких - обычное явление после только что перенесенной ею процедуры, потенциально смертельно опасное, а спирометр - простое и эффективное средство профилактики.
Для женщины, перенесшей несколько сердечных приступов, кровоизлияние в мозг, а теперь еще и операцию на открытом сердце, это должно было быть простой задачей. Но она отказалась. Она делала вид, что дышит в прибор, когда его вручал ей врач, но откладывала его в сторону, как только он уходил. И она повторяла эту шараду, когда ее проверяли медсестры. Я, конечно, все это видел, но, сколько ни умолял, не мог заставить ее сделать это.
Это просто не имело смысла. В течение нескольких дней мое беспокойство росло. Казалось, никакие слова, как бы тщательно они ни были сформулированы и как бы эмоционально ни были нагружены, не могли ее убедить. Она кивала, когда медсестры предупреждали ее, и притворялась послушной, когда врачи ругали ее. Но ее театральность не меняла реальности: в левом легком скапливалась жидкость, и ей предстояло пройти еще одну болезненную процедуру по ее удалению.
Наконец, после еще нескольких недель пребывания в отделении интенсивной терапии, где она восстанавливалась после второй, совершенно ненужной операции, испытание подошло к концу, и мы привезли ее домой. Измученные, мы уединились на заднем дворе, чтобы насладиться первым спокойным днем за целую вечность. Пока ее не было, мой отец не уделял должного внимания садоводству; с облегчением вернув ее, он возобновил свои занятия.
"Мама, мне нужно спросить тебя кое о чем".
Мне не хотелось портить безмятежность, но я просто не мог оставить это без внимания.
"Помните тот маленький приборчик, который врачи хотели, чтобы вы использовали? Спирометр?"
Удивительно, как много она могла передать, оставаясь совершенно неподвижной. Она явно не хотела говорить об этом.
"Мама, я просто пытаюсь понять. Пожалуйста, помоги мне".
Прошло еще несколько мгновений, прежде чем она ответила. "Я не очень помню", - в конце концов сказала она, по-прежнему не глядя на меня. "Я принимала довольно сильные лекарства. Все очень туманно".
Я знал, что это неправда, но не мог заставить ее объясниться. Я позволил вопросу затянуться и просто наслаждался моментом вместе с ней. Было солнечно, и гардении цвели.
Наконец она нарушила молчание.
"Знаешь, Фей-Фей, - тихо сказала она, - быть пациентом... это просто ужасно". Теперь она стояла лицом ко мне. "Это не только боль. Это потеря контроля. В той палате мне казалось, что мое тело и даже мой разум не принадлежат мне. Там были все эти незнакомые люди - врачи и медсестры, я знаю, но они чужие для меня, и это ожидание следовать каждому их приказу... Это стало просто невыносимо".
Я продолжал слушать.
"Даже у тебя были заказы для меня!"
Мы оба захихикали, хоть немного разрядив обстановку.
"Я знаю, что вы пытались помочь", - добавила она. "Я знаю, что вы все пытались. Я понимаю, что все это было важно для моего здоровья. Но наступил момент, когда я уже не могла справляться с требованиями".
Затем, после еще одного мгновения раздумий, она указала на него. "Мое достоинство исчезло. Исчезло. В такой момент..." Она как будто запнулась. Я уже собирался подтолкнуть ее к продолжению, когда она закончила мысль. "... даже ваше здоровье... просто не имеет значения".
Я многому научился за время существования этого проекта. Уроки раскрывались медленно и часто болезненно. Я по-другому взглянула на борьбу моей матери со своим здоровьем и прониклась новым сочувствием к сиделкам, на которых мы полагались в течение стольких лет. Я ужаснулась масштабам человеческой уязвимости в больницах и вдохновилась возможностью что-то с этим сделать. Но самый глубокий урок, который я усвоил, - это примат человеческого достоинства, которое не может учесть ни один набор данных и не может оптимизировать ни один алгоритм. Эта старая, знакомая беспорядочность, тянущаяся ко мне из-за обветренных морщин и усталых глаз человека, которого я знал лучше всех и о котором заботился больше всех.
Прошло более двух лет с тех пор, как моя мать направила мою карьеру по совершенно новому пути, просто спросив, чем ИИ может помочь людям. Взглянув на мою сферу деятельности ее глазами, я мгновенно расширил свою мотивацию за пределы любопытства, которое двигало мной все эти годы, как бы сильно оно ни было. Впервые я увидел в нем инструмент, с помощью которого можно творить добро и, возможно, даже уменьшить трудности, с которыми ежедневно сталкиваются такие семьи, как моя. Я впервые столкнулся с этикой искусственного интеллекта: для многих из нас эта идея только зарождалась, но быстро становилась неотвратимо реальной. И после карьеры, проведенной в пределах знакомой территории, я оказался в новом мире - настолько чужом, что без партнера я был бы беспомощен. Работа с Арни преподала мне два важных урока: величайшие успехи ИИ будут не только научными, но и гуманистическими, и их невозможно достичь без посторонней помощи.
Глава 11. Никто не контролирует
"Эй, это же "Фей-Фей", верно?"
Мужчина вежливо жестикулировал, когда я повернулась на звук его голоса.
"Я Дэйв, - сказал он, протягивая мне руку для рукопожатия. "Я слышал вас на днях в каком-то подкасте. Забыл, в каком. Знаете, моя фирма говорит об искусственном интеллекте без умолку, - продолжил он. "Только за последние несколько месяцев мы закрыли четыре раунда А, и все в этой области".
Я улыбнулся, но не был уверен, как еще реагировать. На дворе был 2014 год, и жаргон венчурного капитала мог заставить меня почувствовать себя аутсайдером в своей собственной области.
"Эй, вы знакомы с Джеффом?" Он повернулся, чтобы помахать рукой другому мужчине в другом конце комнаты, одетому, похоже, в точно такие же джинсы и флисовый пуловер.
"Джефф, подожди секунду! Я хочу познакомить тебя кое с кем! Джефф - вице-президент по разработке продукции в..."
"Итак, прошу внимания, мы можем начинать", - милостиво прервал новый голос с другого конца комнаты. "Я хочу поблагодарить всех за то, что пришли сегодня. Дошкольное образование - это большой шаг, и в этом году у нас запланировано много интересного для ваших детей".
"Поговорим позже!" - прошептал мужчина, устраиваясь на миниатюрном деревянном стульчике рядом с клеткой хомяка.
Кем бы мы, академики, ни считали ИИ и чем бы он ни стал, одно было неоспоримо: мы больше не можем его контролировать. Более десяти лет это была личная одержимость - слой мыслей, который незаметно накладывался на мое мировоззрение. Однако к середине 2010-х годов это стало достоянием общественности. Билборды вдоль шоссе 101 возвещали о наборе сотрудников в стартапы, занимающиеся разработкой искусственного интеллекта. Об этом писали журналы в приемной моего дантиста. Я слышал обрывки разговоров по автомобильному радио, когда переключал станции. И, очевидно, это была горячая тема на родительских собраниях в детских садах.
Мир становился сюрреалистичным. Мы с коллегами посвятили свою карьеру изучению науки об искусственном интеллекте, но внезапно столкнулись с чем-то похожим - у нас не было подходящего слова - на феномен ИИ. При всех загадках, которые таила в себе эта технология, ее внезапно растущее взаимодействие с промышленными предприятиями и правительствами, журналистами и комментаторами и даже широкой общественностью было не менее сложным. После десятилетий, проведенных in vitro, ИИ теперь был in vivo. Он был неугомонным, голодным и жаждущим исследований. И хотя я не решаюсь слишком явно уподоблять его живому организму (история нашей области изобилует попытками антропоморфизации, которые скорее вводят в заблуждение, чем помогают понять), он, несомненно, превратился в нечто новое.
Менее чем за год до этого новость о том, что Google наступает на пятки моей работе с Андреем, была шокирующей. Теперь же это казалось причудой. Просто стало очевидным, что университетские лаборатории, некогда бывшие альфой и омегой исследований в области ИИ, были не единственными учреждениями, продвигавшимися вперед. Мы делили переполненный ландшафт с такими технологическими гигантами, как Google, Microsoft и Facebook, стартапами по всему миру, прожорливой сетью венчурных капиталистов и даже разработчиками программного обеспечения в сообществе open-source, делились ли они кодом на платформах вроде GitHub или обсуждали последние разработки на форумах вроде Reddit.
Им было о чем поговорить.
В 2015 году Цзя и Ольга опубликовали ретроспективу результатов конкурса, в том числе результаты исследования, проведенного Андреем, который оценил человеческую ошибку при маркировке тысячи изображений примерно в 5,1 %. Хотя Андреем двигало простое любопытство, его выводы придали событию новый импульс: внезапно алгоритмы стали соревноваться не только друг с другом, но и с людьми. Когда в 2014 году GoogLeNet, нейросетевой классификатор Google, достиг рекордно низкого уровня ошибок - всего 6,67 %, - мы, люди, оказались в тревожной близости от того, чтобы потерять место на вершине таблицы лидеров.
Но хотя AlexNet и GoogLeNet стали настоящим скачком вперед для компьютерного зрения, наше понимание их потенциала было далеко не полным. Например, мы были уверены, что глубина сети - один из определяющих секретов их производительности, а доступность графических процессоров означала, что у нас наконец-то появилась возможность сделать их больше, чем когда-либо прежде. Однако простой акт добавления новых слоев не стал панацеей - сначала более глубокие сети демонстрировали все более высокие показатели точности, но вскоре достигли точки убывающей отдачи. По мере того как наши амбиции заставляли нас строить все больше и больше, мы непреднамеренно превращали нейронные сети в лабиринты, их чрезмерное наслоение искажало сигнал на пути от одного конца сети к другому, останавливая процесс обучения и делая систему бесполезной.
Было ясно, что грандиозные высоты, к которым мы стремились, не будут достигнуты легко, сколько бы кремния мы ни бросили на решение проблемы. И это означало, что мощь таких наборов данных, как ImageNet, даже сейчас не используется в полной мере. Наши сети просто не могли поглотить их целиком. Статус-кво нуждался в эволюции - не только в масштабе, но и в инновациях - именно то, на что, как я надеялся, вдохновит ImageNet Challenge.
Как и положено, эта инновация появилась позже, в 2015 году, когда Deep Residual Network, представленная молодым исследователем из Microsoft по имени Кайминг Хе, снова изменила игру. Прозванная для краткости "ResNet", она была огромной - 152 слоя, но использовала архитектурный поворот, благодаря которому некоторые из этих слоев можно было обойти на этапе обучения, позволяя различным изображениям направлять свое влияние на меньшие субрегионы сети.
Хотя полностью обученная система в конечном итоге будет использовать всю свою глубину, ни один обучающий пример не должен был охватывать всю ее глубину. В результате мы получили лучшее из двух миров: увеличение количества слоев, необходимое для повышения производительности и поглощения большего объема данных - большего объема ImageNet, чем кому-либо удавалось задействовать до сих пор, - и простота, необходимая для свободного прохождения сигналов без ухудшения качества. Это был хрестоматийный пример изобретательности, которая двигала нашей областью в ее лучшие моменты.
Однако дизайн ResNet был лишь половиной истории. Она оказалась гораздо эффективнее, чем предполагали ее авторы, и показала настолько поразительные результаты, что об этом написали в таких популярных изданиях, как The New York Times. Неудивительно, что мир обратил на это внимание: Коэффициент ошибок ResNet в 4,5 % значительно превзошел оценку Андреем человеческой точности. Проще говоря, задача визуальной категоризации была решена: машины обошли своих создателей в задаче, которая еще несколько лет назад казалась практически невыполнимой. Это была захватывающая дух веха, но вскоре мы поняли, что она станет лишь первой из многих.
Вы следите за AlphaGo?
Есть идеи, кто победит
Стоит ли мне делать ставки?
Я только вышла из больницы после рождения второго ребенка, как мне стали приходить сообщения. Если что-то и могло оградить меня от мира хотя бы на неделю или две, то это должно было быть именно это. Не повезло, - весело напомнил мне жужжащий телефон.
К началу 2016 года внимание СМИ было приковано к лондонской компании DeepMind, которая готовилась к матчу между гроссмейстером го Ли Седолем и, конечно же, машиной. До этого момента компания была в основном малоизвестной технологической историей (и даже моя осведомленность о ней была лишь беглой), но теперь казалось, что она на пути к тому, чтобы стать известной всем. За год до этого Google начал активную деятельность по приобретению ИИ-стартапов, причем DeepMind стала самой дорогой из покупок - более полумиллиарда долларов. Но еще более запоминающейся, чем ее ценник, была ее миссия. "Они утверждают, что работают над AGI, - вспоминаю, как один коллега сказал мне об этом с усталым смешком академика.
Я сочувствовал. "AGI" - это сокращение от "искусственный общий интеллект", форма ИИ, настолько сложная и гибкая, что вместо выполнения узких задач, таких как классификация изображений или перевод текста с одного языка на другой, она может воспроизводить все когнитивные способности человека, от аналитических до творческих. Я не могу точно определить, когда этот термин вошел в лексикон, но я точно никогда не слышал, чтобы его использовали на факультете информатики. В конце концов, такой "общий" интеллект был целью ИИ с момента его зарождения; тот факт, что нам еще предстоит пройти такой долгий путь, не означал, что мы ставили перед собой более низкие цели. Для ушей таких исследователей, как мы, новый термин звучал несколько излишне. Но он был запоминающимся, и для сторонних наблюдателей были понятны конечные амбиции нашей области. И это позиционировало DeepMind как необычайно смелого игрока в и без того конкурентной экосистеме.
Меня засыпали вопросами студенты, друзья и даже случайные знакомые, и все они интересовались, есть ли у меня какие-нибудь прогнозы. На самом деле нет, но я не смог удержаться и спросил об этом другого профессора ИИ, когда он зашел к нам со свежей бутылочкой молочной смеси.
"Эх, я, наверное, могу пойти по любому пути", - сказал Сильвио. "Дип Блю сделал это с шахматами двадцать лет назад". Он, похоже, занялся мысленной арифметикой. "Ну, девятнадцать, если быть точным".
Ботаники есть ботаники.
"В любом случае, - продолжил он. "Я знаю, что Го намного сложнее шахмат, но это все равно настольная игра. Какой бы сложной она ни была, она проста. По крайней мере, с математической точки зрения".
Поняв, что перешел на профессорский тон, который мы оба пытались, но часто не получалось, проверить за дверью, он ухмыльнулся, осторожно ставя бутылку в подогреватель. Мы почти одновременно произнесли то, что последовало дальше. "В отличие от этого!"
Он был прав. При всей модной болтовне о моделировании комбинаторно непостижимой стратегической игры, такая простая задача, как приготовить бутылочку с детской смесью и поставить ее в подогреватель, все еще оставалась святым Граалем робототехника - и далеко не решенной проблемой за пределами жестко контролируемых лабораторных условий.