С того момента, как я приземлился в Пасадене, стало ясно, что Калтех имеет преимущество в плане климата. Это была моя первая поездка в Южную Калифорнию, и погода оправдала свою солнечную репутацию: сухое тепло, которое казалось мгновенным убежищем от влажности Нью-Джерси. Меня поразила и его фотогеничность - от цветов, которые, казалось, распускались во всех направлениях, до черепашьих прудов и их лениво загорающих обитателей. Массачусетский технологический институт и Стэнфорд были безупречны в плане учебы, но это место казалось мне раем.
Несмотря на то, что кампус был небольшим - его превосходил даже Принстон, который сам по себе считался небольшим, - я был потрясен яркой атмосферой Калтеха. Красочная, воздушная испанская колониальная архитектура казалась мне другим миром после стольких лет, проведенных среди похожих на соборы зданий моей альма-матер. А возможности для осмотра достопримечательностей, связанных с физикой, были безграничны. Я сразу же заметил место, где Эйнштейн был сфотографирован на велосипеде, случайно прошел мимо библиотеки Милликана и наткнулся на аудиторию, в которой проходили легендарные лекции Фейнмана.
Все, что я видел и чувствовал во время посещения Калтеха, говорило о том, что здесь мое место. И хотя это может показаться банальным, я не мог притворяться, что возможность избежать многолетней дрожи от северо-восточных снежных бурь сама по себе не была привлекательным моментом. Но то, что начиналось как желание учиться здесь, превратилось в уверенность, когда я познакомился с людьми, у которых мне предстояло учиться.
Первым из моих потенциальных консультантов был Пьетро Перона, который излучал итальянское обаяние и не знал границ, когда дело касалось междисциплинарных исследований. Он работал на кафедре электротехники, но любил когнитивные науки и разделял мое желание объединить эти два направления. Даже в разговоре его интересы показались мне необычайно разносторонними с первого же нашего общения.
"Любопытно, Фей-Фей, что ты думаешь о картине на стене?"
Пьетро жестом указал на плакат в рамке, выполненный в смелых основных цветах и разделенный на квадраты и прямоугольники неравномерно расположенными ортогональными линиями.
В Принстоне я успел посетить несколько занятий по искусству и с радостью узнал в ней Мондриана.
"Мне всегда нравились его работы", - продолжает Пьетро. "Простота геометрии не перестает заставлять меня останавливаться и думать".
"О чем именно?" спросил я.
"О том, могут ли существовать правила, управляющие этим. Или хотя бы способные это объяснить".
"Правила? Ты имеешь в виду... что-то вроде алгоритма?"
Он улыбнулся и продолжил. "Разве вам не любопытно? Что, если окажется, что если измерить пропорции каждой картины Мондриана, то возникнет некая закономерность? Разве это не было бы увлекательно?"
Я улыбнулась в ответ. Я не могла понять, насколько он серьезен, - была почти уверена, что он шутит со мной, - но мне нравилось, что он вообще нашел время, чтобы разработать такую идею. Умная, авантюрная и глупая - и все это одновременно. Мне казалось, что я всю жизнь ждала встречи с такими мыслителями.
Вторым был Кристоф Кох, специалист по вычислительной нейробиологии. Как и в случае с Пьетро, в тот первый день я увидел в Кристофе отличительную черту каждого хорошего ученого: воображение без границ и бесстрашие перед лицом вызовов, которые такое воображение естественно ищет. Он обладал высокими достижениями в области биофизики, но его опыт постоянного изобретательства произвел на меня впечатление. Как и Перона, он стремился стирать границы между дисциплинами и поощрял мои порывы делать то же самое. Он пришел из физики, которую мы разделяли, и был бывшим студентом Поджио. Но в ту первую встречу мне предстояло узнать, что его ум охватила глубокая философская страсть, которая и стала доминирующей в нашей первой беседе.
"Фей-Фей, ты когда-нибудь задумывался о том, как можно объяснить цвет человеку, страдающему дальтонизмом? Как бы вы выразили словами опыт видения красного?"
Хммм... Я и не думал.
"Разве не странно, что наше знакомство с цветом, похоже, не приводит к способности его описать? Вы можете понять, что я имею в виду, когда говорю "синий" или "красный", но только потому, что вы сами уже видели эти цвета. Мои слова просто вызывают у вас воспоминания; они не передают новую информацию".
Это, безусловно, наводит на размышления.
"Итак, когда вы представляете себе будущее поколение, достигшее полного понимания того, как работает зрение, думаете ли вы, что их мастерство будет включать в себя способность, скажем, описать качество красноты из первых принципов?"
Я на мгновение задумался, прежде чем ответить.
"Хммм... А разве не должно? Я имею в виду, если вы действительно имеете в виду "полное" понимание".
"Это вполне разумный ответ. Но он предполагает, что существует объяснение такого опыта, которое можно найти в редукционистском учете. А что, если его каким-то образом нет? Что тогда? Что нам делать с этим противоречием? Зрение может быть сложным явлением - возможно, одним из самых сложных, - но это все же физический процесс: материя ведет себя в соответствии с физическими законами. И все же, разве субъективно наш опыт не кажется нефизическим? Почему видение красного цвета должно ощущаться как нечто субъективное?"
Эти вопросы я раньше не рассматривала, и его зацикленность на них сказала мне все, что я хотела знать о его способности бросить мне вызов.
Эти двое представляли собой интересную пару. Они оба были высокими и, судя по всему, одного возраста - где-то около сорока, по моим прикидкам, - но с контрастным телосложением: Пьетро был более крепким из них, а Кристоф - довольно худощавым. У обоих был сильный акцент - итальянский и немецкий соответственно, - но они говорили с юмором и непринужденной уверенностью, которые смягчали их напряженность. И если Пьетро выглядел как академик, с заправленными пуговицами и бежевыми докерами, то Кристоф гордился агрессивным и ярким гардеробом, от пронзительных флуоресцентных рубашек до волос, выкрашенных в цвета комиксов, например зеленый и фиолетовый.
Но что их объединяло - в необычайной степени - так это любопытство, которое можно описать только как ликующее, наполняющее все, что они говорили, заразительной энергией. Они задавали острые вопросы на сложные темы без колебаний и даже без намека на самосознание, как будто ответы на самые глубокие загадки жизни можно найти только в разговоре. Кристоф, в частности, часто казался настолько захваченным своими мыслями, что ему было интереснее обсуждать их в монологе, чем разговаривать со мной, даже в беседах один на один. Но его озабоченность исходила из места невинности, а не отстраненности, как у ребенка, беспомощно отвлекающегося на дневные грезы. Это напоминало мне рассеянность моего отца, и я находил это очаровательным.
После стольких лет сомнений в себе, трудностей со вторым языком и, как следствие, некоторой замкнутости, странно , что меня тянет к таким дерзким личностям. Но, как я обнаружил в разговоре с мистером Сабеллой, общая любовь к науке помогла мне почувствовать себя ровесником любого человека, пусть даже на время дружеской беседы. Мир, каким я его знал, становился почти безмолвным, когда я оказывался в диалоге с такими людьми, как Пьетро и Кристоф, как будто наши идеи говорили сами по себе, не отягощенные нашим языком, статусом или возрастом. Они были новым примером для подражания: иммигранты, которые не просто добились успеха, а добились его как ученые.
Мой визит в Калтех был одним из самых запоминающихся дней в моей жизни. Это были интеллектуальные гиганты, и для меня было честью просто пообщаться с ними в течение нескольких часов, не говоря уже о том, чтобы обдумать возможность стать их студентом. Мое решение было принято еще до того, как мой обратный рейс оторвался от взлетной полосы.
Учитывая масштабы и сложность эволюции, неудивительно, что человеческая способность к зрению не поддалась десятилетиям попыток автоматизации. Но что, если это изменится? Что, если бы мы могли делиться с машинами человеческим восприятием мира, с их автоматической скоростью и неутомимой точностью? Представьте себе беспилотники или даже спутники, которые летают над лесами, ледниками и побережьями и составляют экспертные оценки состояния окружающей среды в глобальном масштабе. Представьте себе умных нечеловеческих помощников, которые помогают людям с ослабленным зрением ориентироваться в среде любой сложности так же, как это сделал бы человек. Представьте, что поиск и спасение станут более безопасными благодаря роботам-первопроходцам, которые объединят суждения врача скорой помощи или пожарного с выносливостью и устойчивостью машины, или автоматизированной медицинской диагностике, которая позволит пациентам по всему миру с помощью мобильных устройств узнать мнение специалиста.
Возможности открываются и в цифровом мире. После более чем ста лет существования визуальных средств массовой информации, включая фотографию, кино, журналистику и телевидение, потребление изображений стало неотъемлемой частью современной жизни. Но в отличие от текстовых и числовых данных, поиск которых доступен с первых дней существования компьютеров, даже беглый поиск изображений остается ручным делом, требующим времени и, зачастую, зарплаты человека. Как визуально интеллектуальные машины могут помочь нам разобраться в коллективной массе данных, которая уже давно превзошла все надежды на ручную работу?
Подобные возможности манили исследователей ИИ с первых дней существования этой области. Однако вскоре они поняли - и каждое последующее поколение только подтверждает это - что визуальное понимание является задачей удивительной сложности, начиная с самих данных. Поскольку цифровые изображения хранятся в виде пикселей - отдельных цветовых точек, закодированных в цифровом виде, - для машины они представляются не более чем длинным списком целых чисел. Чтобы увидеть изображение так, как это мог бы сделать человек, с точки зрения таких значимых понятий, как люди, места и вещи, алгоритм должен просеять этот список и выявить числовые паттерны, которые каким-то образом соответствуют друг другу.
К сожалению, определить эти закономерности даже для таких простых понятий, как прямые линии или геометрические фигуры, довольно сложно. Сделать это для такого органического и протеинового объекта, как человеческое лицо - во всех его цветах и пропорциях, в бесконечном диапазоне углов, условий освещения и фона - гораздо сложнее.
И дальше загадка только углубляется. Например, где именно проходит граница между пассивным актом видения и связанным с ним, но гораздо более глубоким актом понимания? Как часто чисто перцептивный опыт зрения - цветные пятна, которым придают форму края и текстуры, - становится целостным благодаря нашей способности наделять эти формы смыслом еще до того, как мы успели осознанно обработать увиденное? Вскоре становится ясно, что разделить эти два понятия невозможно: видеть - значит понимать, что делает задачу не только интеллектуальной, но и сенсорной. Таким образом, зрение - это не просто применение нашего интеллекта. Для всех практических целей оно является синонимом нашего интеллекта.
Это и есть магия зрения. Этот навык настолько тонко настроен, что, хотя мы видим мир не более чем через свет, случайно попавший на поверхность наших глаз, то, что мы получаем из этого света, расширяется и заполняет весь наш опыт. Этот почти чудесный переход от сенсорного ввода к надежному и действенному знанию - одна из самых впечатляющих возможностей нашего мозга. Вычислительная стоимость одной только этой задачи на порядки превышает возможности даже суперкомпьютеров размером со склад, и все это обеспечивает влажный органический комок диаметром около пяти дюймов. А ее концептуальная глубина продолжает смирять даже светил академического мира.
Загадка зрения - это нечто большее, чем просто понимание того, как мы видим. Это не просто вопрос о цветах или формах или даже о вычислении чисел во все более крупных масштабах. Это исследование феномена, лежащего в самой основе нашего познания, из которого проистекает многое из того, кем и чем мы являемся, биологически, межличностно и культурно. Это путешествие к самым основополагающим слоям нашего опыта. Очень часто видеть - значит знать. Поэтому понять, как мы видим, - значит понять себя.
Моя карьера аспиранта началась с покупки особенно большого учебника. Он был издан всего за год до моего поступления, поэтому его содержание было почти таким же свежим, как и переплет. Он был тяжелым и с острыми краями, и при первом же открытии он громко треснул. Я радовался каждый раз, когда видел его обложку, которая сплетала все нити моего академического пути в единый артефакт.
Она была озаглавлена "Наука о зрении" - два слова, которые, казалось, как нельзя лучше подходили для описания пути, по которому я пытался идти со времен эксперимента в Калифорнийском университете в Беркли. Дюймом ниже, курсивом, был набран подзаголовок, который еще больше разбудил мое любопытство: "От фотонов к феноменологии". А над ними - полноцветное изображение картины Ван Гога "Звездная ночь", занимающее почти две трети всей поверхности. Это была плотная и всеобъемлющая работа, которой суждено было стать стандартом на десятилетия вперед. Я хотел узнать все, чему она могла меня научить.
Прошло два года с того судьбоносного момента в темной лаборатории , когда я впервые увидел внутреннюю работу разума, отличного от моего собственного. Два года я занимался поисками, которые только начинались. Меня заинтриговало инженерное искусство, но я не хотел быть инженером. И хотя я был очарован тайнами нейронауки, я не хотел быть нейробиологом. Я хотел опираться и на то, и на другое, но при этом не быть ограниченным ни тем, ни другим.
Мое время не могло быть лучше, даже если это было не более чем случайностью. Я еще не знал об этом, но изучение зрения стало отростком искусственного интеллекта как такового - одно сообщество среди многих, находящихся в изгнании, раздробленных и отброшенных от знамени, которое когда-то их объединяло, а сейчас десятилетие находится в глубокой заморозке очередного экономического спада. Затухание некогда захватывающих перспектив, таких как нейронные сети и экспертные системы, привело к очередному витку отчуждения, когда стартапы закрыли свои двери, а академический интерес угас. Это была очередная зима в области ИИ, и я находился в ее гуще. Но оттепель наступала быстро.
Глава 6. Северная звезда
На горизонте забрезжил рассвет в Пасадене, окрашенный в палитру теплых цветов, которые я уже успел признать типично калифорнийскими. Его призыв выйти на улицу и пренебречь обязательствами дня был заманчив, но ни одно небо не было достаточно голубым, чтобы соперничать с обещанием открытий. Сегодня был первый день нового эксперимента, к которому я готовился несколько месяцев, и он ждал меня под землей.
Наша работа проходила в отделе психофизики лаборатории Коха - тенистом подвальном мире, скрытом под лужайками и велосипедными дорожками Калтеха. Лишенное естественного света и регулярно лишаемое искусственного, это было место почти идеальной изоляции: три одинаковые кабинки, разделенные затемняющими шторами, каждая достаточно большая, чтобы изолировать органы чувств одного сидящего человека.
Оказавшись внутри, наши испытуемые клали одну руку на мышь, другую - на клавиатуру и вглядывались в темноту. После кратковременного затишья загорался монитор, на котором появлялась последовательность изображений, настолько бессвязных, что они могли быть созданы дадаистом: буквы, расположенные как алфавитный суп; фотографии случайных, разрозненных сцен; внезапные вспышки цветного шума - все с точностью до миллисекунды и вызывающие точно измеренные повторные спонсоры щелчков и нажатий клавиш. Затем, в течение нескольких секунд, темнота возвращалась. В воздухе повисало еще одно мгновение неподвижности, и последовательность повторялась. Снова, и снова, и снова.
Как бы хаотично это ни выглядело, ни одна деталь не была произвольной. Все это было похоже на попытку, пусть и надуманную, прочитать мысли или хотя бы составить представление об их содержании. Несколько секунд бешеного движения пальцев, неглубокого дыхания и расширяющихся зрачков, запечатленных в зарослях данных, на полное распутывание которых могут уйти дни, недели и даже месяцы. Секреты органов чувств глубоко спрятаны, и вытащить их на свет хотя бы на мгновение может оказаться странным делом.
Эволюция в течение полумиллиарда лет упорно трудилась над одним-единственным светочувствительным белком, неустанно подталкивая его к созданию столь изысканного аппарата, что он почти не поддается пониманию. Теперь, в Калтехе, плоды этого труда должны были стать нашим учителем - вся зрительная кора, простирающаяся от стеклянной поверхности глаза до самых глубоких глубин разума. По мнению моих консультантов, первым шагом на пути к обещанному машинному интеллекту должно было стать лучшее понимание человеческого рода.
Я не знал, на что именно я рассчитывал в годы учебы в аспирантуре, кроме возможности погрузиться в область, которая украла мое сердце. Но я надеялся, что где-то на этом пути я найду занятие, которому смогу следовать с рвением моих образцов для подражания - духом, который побудил Эрика Висхауса превратить одержимость аномалиями плодовой мушки в Нобелевскую премию или Нила деГрасса Тайсона превратить космос в числовую поэзию. Мне нужна была своя собственная Полярная звезда. Но пока я ее не нашел, я довольствовался тем, что обдумывал вопрос о том, как на самом деле работает невыразимый опыт видения, - или, говоря нескладным языком подзаголовка моего учебника, как фотоны становятся феноменологией.
Первый шаг к этому пониманию был сделан на страницах моего учебника "Наука о зрении", в котором рассказывалось о психологе Анне Трейсман из Принстона . Вундеркинд эксперимента и гигант когнитивной науки двадцатого века, она сочетала очаровательно простые инструменты с сырой изобретательностью, чтобы исследовать человеческое восприятие, за десятилетия до появления цифровых технологий, которые значительно ускорили бы ее исследования.
Разработанная Трейсманом "теория интеграции признаков внимания" стала почти универсальной основой для понимания природы зрительного восприятия. Представляя испытуемым кратковременную вспышку абстрактной композиции - например, одиночный красный круг в мешанине зеленых и красных квадратов, - она смогла разделить время, необходимое им для восприятия изображения на разных уровнях глубины. Она обнаружила, что люди практически мгновенно определяют присутствие красного цвета - просто знают, что он содержится где-то внутри изображения, - но им требуется больше времени, чтобы найти именно красный круг, поскольку его идентичность представляет собой сочетание двух разных признаков: цвета и формы, совпадающих в одном и том же месте. Другими словами, способность интегрировать восприятие красного цвета и восприятие круга не только занимала больше времени, но и представляла собой совершенно отдельный, более интенсивный этап визуальной обработки.
Работа Трейсмана была грандиозной по своему размаху и плотной по своим объяснениям, но ее объединяла идея о том, что человеческое зрение начинается с определения мелких деталей, а затем устанавливает взаимосвязи между ними, пока они не откроют полную картину. Это был интуитивный тезис, и он предлагал метрику для понимания работы зрения: простые объекты, определяемые небольшим количеством признаков, можно распознать быстро - например, оранжевый мяч на сером асфальте, - в то время как более сложные сцены, такие как извилистая лесная тропа или детали лица друга, требуют больше времени.
Эта парадигма, как я видел, повторялась в изучении компьютерного зрения, когда исследователи писали и совершенствовали алгоритмы, способные определять фундаментальные детали на фотографиях и других изображениях - резкие края, изменения света и цвета, фрагменты текстуры или узоры - а затем создавали алгоритмы более высокого уровня, чтобы распознавать связи между ними и ассоциировать их с более значимыми вещами, такими как люди и объекты. То немногое, что я знал о зрении, имело смысл. Но вскоре картина должна была стать гораздо сложнее.
"У меня есть кое-что для твоего списка чтения, Фей-Фей, - сказал Пьетро, положив копию статьи на стол передо мной.
"Это?"
Я взял его в руки и пролистал, заметив, что он меньше четверти объема большинства опубликованных работ. Пьетро понимающе улыбнулся.
"Поверьте мне. Вам захочется это прочитать".
Он не шутил.
Статья, представленная нейробиологом Саймоном Торпом в раздел "Письма" журнала Nature за 1996 год, была короткой - всего три страницы, но громогласной в своих выводах. Даже ее несерьезное название - "Скорость обработки информации в зрительной системе человека" - преуменьшало то влияние, которое она могла оказать, поскольку ставила под сомнение общепринятую ортодоксальность целой области. Это был пример величайшей традиции во всей науке - разрушение устоявшихся представлений, интуитивно понятных и привычных, более сложной реальностью.
С помощью электроэнцефалограммы, или ЭЭГ, Торп измерял электрические сигналы на поверхности мозга испытуемых, пока они рассматривали изображения на мониторе компьютера. Когда фотография вспыхивала на экране всего на 27 миллисекунд - время, необходимое медоносной пчеле, чтобы несколько раз взмахнуть крыльями, - испытуемые с поразительной точностью определяли ее содержание. Но он копнул глубже и определил момент распознавания в их мозгу: всего через 150 миллисекунд после появления изображения, то есть примерно за то время, которое требуется, чтобы моргнуть. Это было самое точное исследование скорости обработки зрительной информации человеком, которое когда-либо проводилось, и цифры оказались значительно меньше, чем предсказывала теория Трейсмана.
Испытуемые Торпа обрабатывали целые фотографии, изобилующие деталями, перспективой, тонким освещением и смыслом, и все это за то время, которое потребовалось испытуемым Трейсмана, чтобы определить основные цвета и формы. У всех, кто читал статью, в голове горел один вопрос: как? Я понял, почему Пьетро так хотел, чтобы я тоже ее прочитал, и почему спустя более трех лет после публикации она оставалась постоянным источником обсуждений и споров между ним и Кристофом. Я сразу же разделил их увлечение.
Для меня эта работа стала еще более сюрреалистичной из-за того, что она была опубликована совсем недавно - всего за несколько лет до моего прихода в Калтех. Легко забыть, насколько молодым на самом деле является современное изучение человеческого зрения, ведь самые ранние его публикации датируются всего несколькими десятилетиями. В отличие от физики с ее многовековой историей, населенной легендами от Галилея до Ньютона и Бора, зрение было - и остается - в значительной степени неизведанной территорией. Изучение компьютерного зрения еще моложе. Я чувствовал, что карта рисуется, даже когда держал ее в руках, и она заряжала меня энергией в первые дни учебы в аспирантуре. Я не мог удержаться от того, чтобы не рассказать о ней в своих еженедельных звонках мистеру Сабелле, которые продолжались из Пасадены.
"Я никогда не видел ничего подобного", - сказал я. "Эта область настолько сложна, настолько интересна, и все же... она практически новая! Большинство крупнейших авторов все еще ведут активные исследования, пока мы разговариваем!"
Чем больше времени я проводил с Пьетро и Кристофом, тем больше ценил чувство приключения, которое определяло их научную карьеру. Хотя они были выходцами из физики и инженерии, оба носили на рукаве свою любовь к таким областям, как психология, когнитивные науки и нейронауки. Они читали журналы по компьютерным наукам так же регулярно, как и все остальные на факультете, но не менее пристально изучали такие издания, как Psychological Review, Proceedings of the National Academy of Sciences и особенно престижный Nature.
Это увлечение вылилось в твердое мнение и стремление расширить границы знаний, что означало столкновение с расхождением между выводами Торпа и Трейсмана. Имелись убедительные доказательства того, что по крайней мере некоторые аспекты зрения - в частности, способность распознавать реальные пейзажи - не требуют особых усилий. Но что привело к этой легкости? Можно ли ее как-то количественно оценить? Как это повлияет на наше понимание мозга в целом? Это были вопросы, на которые стоило найти ответы, и, что было удобно для моих консультантов, попыток сделать это было бы более чем достаточно, чтобы занять их особенно настойчивого нового аспиранта на некоторое время.
Как читать мысли?
В лабораторных условиях точная фиксация восприятия, ожиданий и даже принятия решений испытуемым - обычное дело. Однако разработка экспериментального метода для этого требует сочетания инженерного искусства, психологии, эргономики и даже чего-то сродни ловкости рук. Ирония заключается в том, что, хотя наши эксперименты внешне ничем не отличаются от тех, что можно увидеть во многих других лабораториях - испытуемые, обвешанные электродами, ассистенты, собирающие кучи данных, и так далее, - их разработка была не чем иным, как искусством.
Наша цель была необычайно туманной: определить, смогут ли испытуемые точно распознать содержание фотографии, демонстрируемой в течение доли секунды, но не фокусируя на ней свое внимание. Торп установил скорость выполнения такой задачи, но он не исследовал роль, которую играет сознательное внимание. Требуется ли сознательное сосредоточение? Или же наша способность к распознаванию является вечной и неосознанной, ощущая окружающий мир независимо от того, обращаем мы на него внимание или нет? Мы подозревали последнее, но хотели это доказать.
Идея о том, как это сделать, пришла от Ахима Брауна, приглашенного постдока в лаборатории Кристофа. Браун исследовал похожую гипотезу - о том, что наш мозг обрабатывает обширные визуальные детали без нашего осознания, - используя то, что он назвал "методом двойного теста", в котором он привлекал внимание испытуемого к центральной задаче, требующей сознательного сосредоточения, и одновременно представлял периферийную задачу, требующую только пассивного наблюдения; высокий уровень внимания, требуемый первой задачей, гарантирует, что вторая не будет обрабатываться сознательно.
Изобретательность метода заключается в том, как он обнажает фокус чувств испытуемого. Поскольку центральная задача имеет объективный ответ, требующий усилий, можно с высокой степенью достоверности определить в течение нескольких раундов, был ли пользователь полностью вовлечен в нее или нет. Периферийная задача, хотя и сравнительно простая, также имеет правильный ответ, что позволяет надежно измерить вторичное осознание испытуемого. Поскольку обе задачи предъявляются в течение всего двухсот миллисекунд (лишь немного дольше, чем моргание глаза), возможность их осознанного выполнения одна за другой можно исключить.
В нашем эксперименте мы использовали этот точный контроль над вниманием испытуемых, чтобы задать простой вопрос: при просмотре случайно выбранной фотографии пейзажа на природе - мы были уверены, что они видели ее только периферийно, - содержала ли она изображение животного или нет? Их ответы могли бы многое сказать о природе внимания, как оно связано с визуальным восприятием.
С точки зрения испытуемых, темп эксперимента был стремительным, наполненным молниеносными вспышками образов и паттернов, требующих почти мгновенной реакции. Но задача по его проведению была значительно менее сложной. От одного дня к другому это больше походило на присмотр за детьми, чем на научное исследование, пока мы ждали, когда из кабинок выйдут сонные студенты, которых мы заманивали обещанием потратить деньги на выходные. Так как желающих было не так много, как хотелось бы, мы были во власти их расписания. Не раз случалось, что моей главной обязанностью на день становилась встреча незнакомца у входа в лабораторию в шесть утра. Но мне нравилось даже это. По-своему это тоже было частью науки.
Как бы ни был важен наш эксперимент, Пьетро и Кристоф дали понять, что хороший ученый должен следить и за литературой. И чем больше я читал, тем больше понимал, что Торп не был первым претендентом Трейсмана на . Я обнаружил своеобразный след из хлебных крошек, зарытый в десятилетиях статей и указывающий на растущую коллекцию исключений из ее идей.
Пожалуй, самые нелепые результаты были получены исследователем зрения по имени Ирвинг Бидерман. Он и его коллеги провели эксперимент, в котором испытуемым показывали не абстрактные формы и цвета, а быстрые отрывки фотографий, а затем просили определить, что они видят. Несмотря на значительное увеличение сложности стимулов и исчезающе малую продолжительность их экспозиции, ответы испытуемых были неизменно точными. За меньшее время, чем потребовалось испытуемым Трейсмана, чтобы, скажем, распознать одинокую букву A среди поля разноцветных букв B, испытуемые Бидермана каким-то образом смогли воспринять достаточно деталей фотографии, чтобы определить, изображена ли на ней парковка торгового центра или домашняя кухня.
Следующее новшество появилось благодаря психологу Молли Поттер. Используя ранний компьютерный монитор, она представляла испытуемым отрывки текста, высвечивая по одному слову крупным шрифтом в центре экрана. Их понимание было впечатляюще высоким, даже когда слова появлялись со скоростью двенадцать в секунду - в два раза быстрее, чем средний студент колледжа читает в обычных условиях. Как ни убедительны были демонстрации Трейсмана о том, что зрительное восприятие развивается с уровня мелких деталей, чтение оказалось мощным исключением.
Эти исследования были еще более впечатляющими в свете сравнительно примитивных инструментов, с помощью которых они проводились. Не имея возможности непосредственно наблюдать за процессом познания своих подопечных, такие мыслители, как Трейсман, Бидерман и Поттер, извлекли десятилетия увлекательных подсказок благодаря умелому использованию поведенческих наблюдений в строго контролируемых условиях. Но у этого подхода были свои пределы: в конце концов, о мозге можно многое узнать только извне. Чтобы понять эти явления изнутри, требовалось новое поколение технологий.
Эта технология наконец-то появилась в виде нейронаучных инструментов, таких как ЭЭГ и функциональная магнитно-резонансная томография, или фМРТ, , вооружив исследователей более высокой степенью клинической точности, чем когда-либо прежде. Работа Торпа была одной из самых заметных, но далеко не единственной. Не менее важной была работа когнитивного нейробиолога Нэнси Канвишер из Массачусетского технологического института и ее студентов, которые с помощью фМРТ-анализа выявили ряд областей мозга, связанных именно с тем видом обработки информации, который необходим для быстрого и точного восприятия, обнаруженного такими исследователями, как Торп и Бидерман. В то время как ЭЭГ измеряет электрические импульсы в мозге, которые распространяются очень быстро, но диффузно по всей его поверхности, фМРТ измеряет изменения уровня кислорода в крови, когда задействованы определенные участки нейронов.
Первым прорывом стало открытие "фузиформной лицевой области" - участка коры в височной доле размером не более кубического сантиметра, который, похоже, специально создан для распознавания человеческих лиц. Затем была обнаружена близлежащая "парагиппокампальная зона места", которая играет аналогичную роль при распознавании знакомых мест, например, кухни или часто посещаемой дороги. Еще одним открытием стала "экстрастриатная зона тела", которая помогает нам воспринимать физическую ориентацию окружающих, реагируя на присутствие рук, ног и тому подобного.
В этих структурах, известных как "нейронные корреляты" зрения, есть нечто особенное: похоже, они специально созданы. Каждая из них распознает одну категорию вещей и только ее - лица, знакомые места, позы тела и тому подобное, что объясняет поразительную скорость нашего восприятия в специфических задачах распознавания. Вместо того чтобы пытаться расшифровать их с нуля, деталь за деталью, специальная особенность нашей нейронной анатомии вступает в действие, чтобы распознать их почти мгновенно. С нашей точки зрения, это происходит без особых усилий.
С биологической точки зрения роль усилий в процессе говорит о многом. Эволюция до фанатизма скуповата и реагирует только на давление окружающей среды, настолько сильное, что альтернативой адаптации является вымирание. Чтобы способность была доведена до такой степени, чтобы сделать нечто сложное автоматическим, она должна иметь фундаментальное, даже исключительное значение.
Таким образом, зрение - это не только вопрос деталей того, что мы видим. Хотя изображения можно разложить на части и изучить в гранулярных терминах, предложенных исследователями вроде Трейсмана, особенно в жестко контролируемых лабораторных условиях, зрение, на которое мы полагаемся, чтобы выжить в хаотичном мире, имеет дело с вещами - предметами, людьми и местами. Действительно, на самых ранних этапах обработки информации мы воспринимаем окружающее не как совокупность цветов и контуров, а в категориях.
Какими бы захватывающими ни были эти находки сами по себе, они соединялись друг с другом еще более глубоким образом, словно береговая линия неизведанного континента. Каждая новая идея указывала на что-то большое, историческое, может быть, только ожидающее своего открытия, и это заставляло меня с еще большим нетерпением ждать результатов нашего эксперимента. Стоим ли мы на пороге прояснения понимания? Или более сложного?
В большинстве дней Пьетро пил капучино в середине дня в кафе Red Door на территории кампуса, и я начал ходить с ним. Мои личные финансы не позволяли мне иметь модную привычку пить кофе, но мне нравилось наблюдать за его процессом, начиная с индивидуального заказа, который он передавал бариста, и заканчивая осторожностью, с которой он добавлял только намек на коричневый сахар, и последующим деликатным помешиванием. После моих лет суеты это было приятным напоминанием о том, что стоит ценить более простые моменты жизни.
Сегодня, однако, причина моего прихода была более стратегической: результаты эксперимента были готовы, и я хотел поделиться ими немедленно. При всем внимании, которое Пьетро уделял своему ритуалу, с ним было легче разговаривать за кофе, чем за обедом, поскольку у него выработалась привычка расставлять наши подносы в виде красочных табло, которые он сравнивал с работами поп-художника Дэвида Хокни. Хотя поначалу это было забавно, его "коллажи Хокни", как он их называл, были для него в основном возможностью развлечь себя, пока я становился все более голодным, вспоминая, какой утонченной когда-то казалась его любовь к истории искусства.
Пока он делал первый глоток капучино, я открыла блокнот, в который переписала последние результаты, и начала читать их вслух. Я был горд тем, что после стольких трудов у меня появилось что-то осязаемое, но по мере того как я переходил к списку цифр, Пьетро становился таким же взволнованным, как и я.
"Фей-Фей, эти фигуры... Я имею в виду, они..."
"Я знаю! Они невероятные!"
Тест за тестом давал потрясающе четкую картину: наши испытуемые распознавали фотографии реальных сцен, даже когда их внимание было полностью сосредоточено на чем-то другом. Мы знали, что время реакции будет быстрым, но были застигнуты врасплох тем, насколько быстро, последовательно и точно испытуемые справлялись с задачей. Эта уникальная особенность мозга, способная определять бесчисленные визуальные концепции с удивительной разборчивостью и бешеной скоростью, оказалась не просто мощной - она оказалась практически автоматической.
Для меня было большой честью участвовать в исследованиях, которые, казалось, оказывали влияние на всю область, но самой большой наградой была философская. Наши результаты пополнили ряды десятилетий работ, свидетельствующих о том, что в основе человеческого зрительного восприятия лежит простая идея: прежде всего, наше зрение основано на осознании четко определенных категорий. На распознавании вещей. По выражению лица Пьетро - едва уловимому, но безошибочному - я понял, что он согласен. Я все больше убеждался, что мы находимся на пороге раскрытия секрета всего сущего.
По мере приближения конца второго года обучения в Калтехе я почувствовал, что прочитал достаточно литературы, посетил достаточно семинаров и симпозиумов и, после публикации результатов нашего эксперимента, увидел достаточно из первых рук, чтобы оценить важный факт: визуальное восприятие основано на категоризации; наш мозг естественным образом сортирует детали того, что мы видим, на более широкие понятия, которые имеют для нас значение, такие как объекты, люди, места и события. Например, вид дерева на фоне неба - это гораздо больше, чем просто узор из зеленых и синих цветов. Зрение работает на более высоком, более значимом уровне, вооружая нас знанием: мы можем представить себе листья, которые колышет ветер или которые мы держим между пальцами, или ветку с текстурой и весом, которые мы можем мгновенно оценить, - и все это разительно отличается от неприкосновенной атмосферы и цветного света, висящего за много миль над головой.
Способность к классификации наделяет нас такими возможностями, которые трудно переоценить. Вместо того чтобы погружать нас в бесчисленные детали света, цвета и формы, зрение превращает наш мир в дискретные понятия, которые мы можем описать словами, - полезные идеи, расположенные вокруг нас, как на карте, сводящие сложную реальность к тому, что мы можем понять с первого взгляда и отреагировать на это в течение мгновения. Именно так наши древние предки выживали в условиях чистого хаоса, так поколения художников извлекали красоту и смысл из повседневной жизни и так мы продолжаем ориентироваться в постоянно усложняющемся мире.
Многое из того, что я прочитал, казалось, подкрепляло эту идею. В то время как Трейсман показал один из способов распознавания сложных объектов, Бидерман, Поттер и Торп усложнили картину поразительной альтернативой: в некоторых случаях такая интенсивная обработка снизу вверх вообще обходится стороной. В исследованиях нашей лаборатории изучался вопрос о том, в какой степени распознавание работает в отсутствие сознательного внимания. Особенно интересным было предположение Канвишера о том, что этой невероятной способности способствуют специально созданные нейронные корреляты, которые отображают конкретные вещи в мире - убедительное доказательство того, что мозг физически склонен к быстрому и надежному распознаванию хорошо известных визуальных концепций.
Казалось, что мы пытаемся перепрошить часовой механизм, созданный со скрупулезным терпением каким-то непостижимым колоссом. Мы все еще были далеки от его полного понимания - его маленькие шестеренки оставались загадочными, даже когда они тикали перед нами, - но мы украли взгляд на нечто замечательное. Биологическая эволюция - единственная сила во вселенной , способная создать настоящий интеллект с нуля, и я чувствовал, что мы восстановили ее чертеж или, по крайней мере, несколько его обрывков.
Это меняло и мое представление о собственной области компьютерного зрения. Хотя изобретательность была налицо, она была разбросана по эклектичному спектру исследовательских проектов. Нигде я не мог найти общих, единых усилий, аналогичных той целеустремленной силе, которая терпеливо формировала развитие нашего собственного разума на протяжении тысячелетий. Я не мог не задаться вопросом, каким был бы мир, если бы ситуация изменилась - если бы исследователи объединились, чтобы понять и воссоздать основную идею, которая, казалось, лежит в самом сердце человеческого познания.
Я с трудом представлял себе, какие открытия могут ожидать такую координацию. Нет предела тому, во что в конечном итоге может превратиться искусственный интеллект, но это стало казаться второстепенным; я все больше убеждался, что эта конкретная задача - осмысление визуального мира путем понимания бесчисленных категорий объектов, которые его наполняют, - является идеальным первым шагом к его раскрытию. В конце концов, это сработало для нашего вида. Теперь я верил, что это может сработать и для наших машин.
Я подумал о своих примерах для подражания - от легенд физики до моих собственных профессоров. Годами я восхищался силой идей, которые двигали ими как учеными, и тем, какое влияние они оказывали на свои области. Теперь, спустя всего пару лет после начала обучения в аспирантуре, я верил, что вижу проблеск на своем собственном горизонте - что-то далекое и туманное, но достаточно яркое, чтобы осветить мой путь вперед. Так или иначе, мы собирались сделать визуальный мир привычным для машин. Превзойдя даже стандарты жизни, склонной к зацикливанию, я развил одержимость, более сильную, чем любая другая, которую я когда-либо знал.
Я нашел свою собственную Полярную звезду.
На экране появилось изображение реактивного лайнера, и алгоритм приступил к выполнению своей задачи. Это была задача, с которой мог справиться даже ребенок: определить присутствие самолета в любой точке фотографии. Но в 2003 году на этот вопрос машины могли ответить только после изучения огромного количества примеров. И даже тогда их шансы на успех были скромными. В тот день мы с Пьетро проверяли идею, которая, как мы надеялись, могла изменить эти шансы, возможно, кардинально. Я присмотрелся, желая увидеть, что будет делать алгоритм.
На экране начали появляться розовые точки - так сказать, визуальные подсказки, призванные выделить детали на фотографии, которые привлекли внимание алгоритма. Я слегка поморщился, когда первая из них появилась на участке травы у асфальта. Алгоритм смотрел не туда. Но тенденция быстро изменилась, когда следующие две появились на крыльях самолета. Затем еще одна, где-то в хвостовой части. Затем еще три возле кабины пилота. Наконец появилась последняя точка. Шасси. Это считается, подумал я. Это же техническая часть самолета!
Я взволнованно выдохнула. Пока все хорошо.
Далее началась самая сложная часть работы. Поскольку каждый выделенный элемент занимал всего несколько пикселей, алгоритм был разработан таким образом, чтобы объединять их в кластеры, представляющие более крупные части объекта, который он должен был идентифицировать. Другими словами, это прокси для тусклой формы визуального восприятия. Вокруг каждой части были нарисованы цветные круги: синий и тиловый - для разных сегментов фюзеляжа, красный - для вертикального стабилизатора, зеленый - для области, где они встречаются. Конечно, алгоритм расположил их почти точно на своих местах.
Самолет признан.
Это был волнующий момент, но не потому, что он сработал, а потому, как он сработал. Вместо того чтобы погрузить машину в сотни фотографий самолетов, охватывающих как можно больше вариаций цвета, стиля, перспективы и условий освещения, мы показали ей всего одну. Однако мы показывали ей сотни изображений совершенно несвязанных предметов - пятнистых кошек из джунглей, мотоциклов, человеческих лиц, сделанных нашими улыбчивыми товарищами по лаборатории и новой цифровой камерой Пьетро, а также случайные подборки, которые мы загрузили из Google Images. Наша гипотеза заключалась в том, что, ознакомив алгоритм сначала с широким спектром визуального мира, он будет лучше подготовлен к обучению чему-то конкретному. Поэтому, хотя алгоритм был обучен на самых разных вещах, самолет, который он только что распознал, был лишь вторым, который он видел. Эвер.
Наше творение было лишь пробным вариантом, и в нем не обошлось без ошибок. Но наша цель состояла в том, чтобы продемонстрировать, что алгоритмы, как и люди, получают огромную пользу от того, что видят больше визуального мира. Теперь на моем горизонте замаячила Северная звезда, и мы сделали реальный шаг в ее направлении.
Мы назвали эту технику "одномоментным обучением". Это был значительный отход от существующего положения дел в области распознавания изображений, но способность, которая нас вдохновила, хорошо известна. Как люди, мы от природы умеем распознавать вещи даже после одного взгляда на них: новый вид музыкального инструмента, животное, которого мы никогда раньше не видели, лицо недавно избранного политика. Можно привести множество объяснений этой способности, но одним из самых простых и действенных является тот факт, что даже когда мы видим что-то новое, мы используем для этого опыт всей нашей жизни. Независимо от новизны, практически все, что мы видим, настолько сильно опирается на прошлый опыт - знакомые детали, такие как контуры, свет и тень, текстуры и узоры, - что трудно представить, что можно увидеть что-то в полном одиночестве.
Наша техника воплотила эту концепцию в машинах, и оказалось, что она работает. Однако если результаты оказались приятным сюрпризом, то прием, который получила наша статья, был ошеломляющим. Это был своего рода прорывной успех: ее не только приняли на Международную конференцию по компьютерному зрению (ICCV) в Ницце, Франция, но и дали нам одно из немногих мест для устного доклада. Хотя доклад был написан в соавторстве с Пьетро и его коллегой по имени Роб Фергус, я был ведущим. Это означало, что честь и ответственность за поездку лежала на мне.
Выступление на ICCV - редкая возможность, особенно для аспиранта, и отсутствие опыта выступлений перед столь важной аудиторией тяготило меня. Что еще хуже, Пьетро не смог бы поехать со мной. Он и его жена ожидали рождения своего первенца, и дата родов приближалась. Это была моя первая научная конференция и первое выступление на сцене. И я буду выступать один.
Нервы могли бы стать проблемой во время полета в Ниццу, если бы не стоявшая передо мной задача. Мои обязанности в Калтехе держали меня в состоянии безостановочной суеты, и тринадцать спокойных часов на высоте тридцать тысяч футов оказались единственным свободным окном для подготовки доклада, который мне предстояло сделать. Большую часть поездки я не высовывался, составляя конспект и собирая слайды так быстро, как только мог.
Однако по прибытии я остро почувствовал отсутствие Пьетро. Обычно консультанты посещают первую конференцию студента вместе с ним, независимо от того, выступает он с докладом или нет, в знак поддержки и для того, чтобы помочь наладить контакты. До меня начало доходить, что я была предоставлена сама себе в зале, полном сотен незнакомых людей. Если я и собиралась нервничать, то сейчас самое время.
"Фей-Фей?" - раздался голос позади меня. Повернувшись, я увидел незнакомое лицо, смотревшее на меня сверху вниз.
"... Да?" осторожно ответила я.
"Прекрасно, что мы наконец-то встретились! Я Джитендра".
"Джитен... О! Джитендра... Малик? Ты..."
"Полагаю, вы знаете меня как бывшего советника Пьетро, да, - сказал он со смехом. "Он попросил меня составить вам компанию. Вы же не думали, что мы позволим вам сделать это в одиночку, не так ли?"
Хотя я знал имя Джитендры и, конечно, его репутацию, мы впервые встретились лицом к лицу. Я склонен рассматривать академические отношения в семейных терминах, поэтому я считал его - советника моего советника - своим "академическим дедушкой". Он вполне соответствовал этому названию, его присутствие было одновременно успокаивающим и ободряющим. После моего доклада, когда на меня набросилась толпа исследователей, жаждущих узнать больше, он стал для меня спасением. Простое присутствие его рядом со мной превратило подавляющий день в нечто управляемое и положило начало тому, что переросло в прочную связь.
Несмотря на шквал разговоров после моего выступления, мне пришло в голову нечто неуловимое: каждый вопрос, который мне задавали, касался самого алгоритма. Как вы составили байесовские уравнения для оценки апостериорной вероятности? Как вы оценили предварительное распределение изображений? Вы упомянули об использовании недавно предложенного алгоритма вариативного вывода для оптимизации параметров модели - можете ли вы рассказать об этом подробнее? Какие у вас планы по его расширению в будущих модификациях? Как он может работать в других условиях?
Нас снова и снова спрашивали о математическом ядре выбранного нами алгоритма машинного обучения - вероятностной технике, называемой "байесовской сетью", - но ни разу не спросили о данных, на которых мы его обучали. И хотя в этом не было ничего необычного - данные не так уж и незаметно были отброшены как инертный товар, имеющий значение лишь в той степени, в какой это требуется алгоритмам, - я начал понимать, что мы недооценили нечто важное.
Определяющая особенность нашего алгоритма - его способность узнавать новые категории объектов всего за одну экспозицию - в значительной степени зависела от данных. В конечном счете, именно разнообразие других объектов, которые видел наш алгоритм, дало ему своего рода перцептивный опыт и позволило так хорошо работать, когда ему было представлено что-то новое.
На самом деле, чем больше я думал об этом, тем больше удивлялся, почему эта тема - тонкая, но интригующая сила данных - не привлекает никакого внимания. В конце концов, мы добились довольно удивительных результатов при абсолютном отсутствии данных - несколько сотен изображений, распределенных по нескольким случайно выбранным категориям. В связи с этим возник вопрос, который казался все более провокационным каждый раз, когда я возвращался к нему: если так мало данных позволило создать столь мощные возможности, то что может дать больше данных?
Как насчет большего?
"Почти готово... Секундочку..." Очередной обед в кафе "Красная дверь", очередная трата нескольких совершенно замечательных минут времени, пока Пьетро расставлял наши тарелки, превращая их в очередную серию коллажей Хокни. "Вот!"
"Ага. Очень мило", - сказал я. Я больше не притворялся, что смотрю.
Пьетро улыбнулся своей работе, явно уловив мое нетерпение и явно не обеспокоившись им. Я забрала у него свой поднос и принялась за еду.
"Я все время думаю о нашей одноразовой учебной работе", - сказал он, меняя тему. "Я горжусь тем, чего мы добились, но мы оба знаем, что настоящая звезда шоу - это данные".
Я кивнул, продолжая жевать.
"А что, если мы создадим совершенно новый набор данных? Больший. Думаю, мы могли бы сделать все сами, с нуля".
Я продолжала кивать.
"Что, если все эти новые данные - сами по себе - являются ключом к достижению следующего уровня?"
Это была дерзкая идея, и в то же время достаточно затянутая, чтобы все было интересно.
"Итак, начнем с самого очевидного вопроса: сколько категорий изображений должен включать наш новый набор данных?"
Я отложил вилку и на мгновение задумался над вопросом. Зная, что самая большая коллекция, когда-либо собранная в Калтехе, предлагает семь довольно случайно выбранных категорий, округление казалось разумным началом.
"Как насчет... десяти?" предложил я.
Пьетро нахмурил брови.
"Это было бы улучшением, я полагаю, но я задаюсь вопросом, не слишком ли мы прогрессируем".
Мне нравился дух его предложения, но я не мог не учитывать и реальность. Зная, что вся работа по сбору, маркировке, и систематизации изображений ляжет на меня, я делал все возможное, чтобы сбалансировать потребности нашего исследования с практическими заботами повседневной жизни.
"Хорошо. Значит, пятнадцать?"
Пьетро язвительно усмехнулся.
"Отлично. Двадцать!"
Он не сдвинулся с места. Серьезно?
Позже Пьетро скажет мне, что я был близок к цели - он считал, что достаточно будет тридцати категорий. Но, заметив, что разговор, похоже, переходит в переговоры, причем довольно осторожные, он почувствовал, что вынужден перейти в наступление.
"Давай сделаем сотню, Фей-Фей".
Как позже скажет Пьетро, я выглядела так, словно он приговорил меня к смерти. Учитывая, сколько работы это, несомненно, потребует, я, скорее всего, потеряю часть своего рассудка, не говоря уже о каком-либо подобии социальной жизни, к которой я мог стремиться в течение следующих нескольких месяцев (хотя, конечно, это не такая большая потеря). Но он был прав, и я не мог отрицать своего волнения при мысли о том, как будет работать наша модель при наличии такого ресурса. Однако вместо того чтобы доставить ему удовольствие, я постарался принять эту идею как должное. Улучшение моего покерного лица будет более долгосрочной задачей.
По мере того, как из памяти улетучивались подробности этого разговора, я начинал по-другому относиться к плану. Да, создание ста категорий изображений, каждая из которых содержала бы самые разнообразные примеры, было бы более трудоемким делом, чем все, что я когда-либо пытался сделать в своей жизни, включая выходные в химчистке. Но это было именно то, чего я хотел. Моя Полярная звезда мерцала над горизонтом ярче, чем когда-либо.
"Привет, Фей-Фей".
"Привет, мам. Как папа? Как магазин?"
"Клиент просит переделать одежду, но он постоянно использует термин, который мне не знаком. Я думаю, это тип посадки, но..."
Последовала странная пауза.
"Фей-Фей, я..."
Ее дыхание стало более затрудненным. Я слышал ее на другом конце линии, но она не могла ответить.
"Мама? Мама? Ты в порядке?"
Не бывает подходящего момента, чтобы узнать, что у вашей матери застойная сердечная недостаточность. Но за два года учебы в аспирантуре, которая и без того нагружает вас до предела, это чувство трудно выразить словами.
Оглядываясь назад, можно сказать, что уже несколько недель она чувствовала себя неважно. Я решил, что ей просто нужен перерыв, учитывая, что ей приходится вести магазин более или менее в одиночку, и пригласил ее приехать в гости. Но когда она приехала в аэропорт, тяжело дыша и бледнее, чем я ее когда-либо видел, я понял, что происходит что-то гораздо более серьезное.
Несомненно, это была чрезвычайная ситуация, но отсутствие медицинской страховки у моих родителей не позволяло мне понять, как реагировать. В панике я обзвонила всех, кого могла вспомнить, и меня направили к китайскоговорящему врачу, работающему в частной клинике в Ирвайне. Ехать пришлось почти два часа, но она оказалась единственной, кто согласился принять нас за отдельную плату, да еще и со скидкой. Диагноз был поставлен быстро: здоровье сердца моей матери было плачевным.
Мистер Сабелла оставался для меня главным источником утешения. "Как твоя мама, Фей-Фей?" - спросил он.
"Доктор говорит, что она выживет. Мы успели вовремя".
"Слава Богу. Как ты держишься?"
Я вздохнул, когда все это вылилось из меня. Наш последний, самый отчаянный план. После семи лет работы химчистки у нас не было другого выбора, кроме как продать ее. Это был наш спасательный круг, когда все остальные варианты казались нам недоступными, но моя мать просто стала слишком больна, чтобы продолжать работать, даже с помощью моего отца. И хотя бизнес был платежеспособным, мы все еще не достигли той нормы прибыли, которая позволила бы нам нанять сотрудников. Пришло время двигаться дальше.
Еще более радикальным было мое решение перевезти родителей через всю страну , чтобы они присоединились ко мне в Пасадене, где мы могли бы снова столкнуться с проблемой выживания как семья. Мое общежитие было еще меньше, чем наше жилье в Парсиппани, но это был наш единственный вариант на данный момент.
Наступила минута молчания, пока мистер Сабелла все осмысливал. "Вы собираетесь продолжить обучение, верно?" Казалось, он почувствовал что-то, с чем даже я еще не успел столкнуться.
"Я не знаю".
Еще мгновение длилось молчание, пока я не нарушил его смехом.
"Как вы думаете, я могу объявить своих родителей иждивенцами, по крайней мере?"
Возникала новая реальность, настолько сложная, что она дестабилизировала все решения, которые я принимал с того дня, как вошел в лекционный зал в Принстоне в качестве студента-физика. Любопытство всей моей жизни привело меня в сферу, известную жесткой конкуренцией, низкой оплатой и отсутствием гарантий долгосрочной карьеры, и все это при том, что мои родители нуждались в поддержке, которую я не был способен обеспечить. Каждый день, проведенный в погоне за мечтой, казался мне в лучшем случае эгоистичным, а в худшем - безрассудным. Чем больше я думал о разнице между моей собственной семьей и семьями моих коллег по лаборатории, большинство из которых были представителями среднего класса, а то и богатыми, тем сложнее было отрицать правду: у меня просто не было такой роскоши, как быть ученым.
Но история еще не закончилась.
Прошло несколько недель, когда сокурсник упомянул, что в город приезжает партнер из McKinsey, всемирно известной консалтинговой компании, занимающейся вопросами управления. Они хотели занять должность аналитика-стажера, которая сулила обширный опыт работы без отрыва от производства, а это означало, что исследователи из школ Лиги плюща, хотя бы слабо связанные с математикой и компьютерными науками, были идеальными кандидатами. В момент искреннего отчаяния мне показалось, что эта возможность заслуживает внимания.
Конечно, я уже бывал здесь раньше, и было соблазнительно списать это на очередную стычку в давно назревавшем конфликте между моими академическими целями и жизнью в реальном мире. Но на этот раз голос моего внутреннего ученого был иным. Потрясенный последним ударом по здоровью моей матери, он стал менее настойчивым, как будто даже та особая, охраняемая часть меня начала уступать реальности, которую, как я знал, я не мог игнорировать вечно. Отбросив колебания - теперь мне это давалось с обескураживающей легкостью, - я купила наряд, выходящий за рамки моего бюджета, тщательно спрятала бирки под воротником, рассчитывая вернуть его сразу после этого, и договорилась о собеседовании.
Все это выглядело примерно так же неестественно, как я и ожидал, но я не мог игнорировать тот факт, что судьба, похоже, с самого начала была на моей стороне. Это была, пожалуй, моя первая возможность представить себя полноценной личностью вне академического мира, и она наполнила меня убежденностью, которой я обычно не обладал. Конечно, я был бессовестным ботаником, но это было нечто большее: годы борьбы закалили меня, воспитали во мне задиристость, которую у моих товарищей по конкурсу никогда не было причин развивать, а также инстинкт прагматизма, который, как я только сейчас понял, делал меня необычным. Затем произошел почти комичный случай синхронности.
"Мы любим организовывать наши интервью на основе гипотетического бизнес-сценария", - начал представитель McKinsey. "Конечно, никто не ожидает, что вы действительно знаете отрасль, так что рассматривайте это скорее как творческое упражнение, чем что-либо еще. Мы просто пытаемся понять ваши инстинкты. Ну, знаете, аналитическое мышление и все такое".
Достаточно просто, подумал я.
"Я хочу, чтобы вы представили, что вы менеджер в... допустим... индустрии одежды".
Ух ты.
То, что началось как обычная оценка, переросло в неожиданно насыщенную беседу: от моей любви к физике и увлечения тайнами интеллекта до мира продавцов прачечных и моей любительской карьеры руководителя химчистки. Вопреки всему казалось, что все идет... хорошо.
Рекрутер, судя по всему, согласился. Ответ был незамедлительным и агрессивным: в McKinsey решили превратить стажировку в официальное предложение о постоянной должности.
Мои чувства были настолько смешанными, что я не уверен, что они вообще были зарегистрированы. С одной стороны, у меня сводило живот при мысли о том, что я оставляю позади столько - Калтех, Пьетро, Кристофа, Джитендру, моих коллег-студентов, все, что я знал, и, что хуже всего, совершенно космическую возможность реализовать идею, которая казалась мне исторической. Моя Северная звезда. С другой стороны, после того как я столько лет видел, как мои родители живут на грани, и все чаще чувствовал, что они оказались там из-за меня, мне казалось, что с меня наконец-то сняли бремя, настолько гнетущее, что я никогда до конца не осознавал его тяжести. Моя мать отдала все, чтобы я оказался здесь, и теперь, когда я знал, что нужен ей больше всего, я мог наконец отплатить ей. Я сразу же направился домой, готовый поделиться хорошими, как мне казалось, новостями.
"Так ты одеваешься в лабораторию, Фей-Фей?"
Я опустила взгляд на себя. Я забыла, что на мне был наряд для собеседования.
"О, точно", - сказал я с полузадушенным смешком. "Не волнуйтесь, я получил отличную скидку на него", - добавил я, показывая бирки, все еще нетронутые.
"Что происходит?" - спросила она, теперь еще более озадаченная. Жизнь была настолько пустой, что я даже не упомянул родителям о своих планах.
"Мама, нам нужно поговорить".
Я рассказал ей о собеседовании, предложении о работе и обо всем остальном. Я рассказал ей о преимуществах, о начальной зарплате и о том, как они уже подсластили предложение, прежде чем я успел ответить. Я объяснил, что это, по сути, быстрый путь к карьере, которую каждая мать-иммигрантка представляет для своего ребенка. Она вежливо слушала, но еще до того, как я закончил говорить, я увидел на ее лице знакомое выражение.
"Неужели мы снова затеем этот разговор?"
"Мам, я знаю, но послушай..."
"Я знаю свою дочь. Она не консультант по управлению, или как вы там это назвали. Она ученый".
"Подумай о своем здоровье, мама! Подумай о расходах, которые нам предстоят. Как академическая карьера поможет нам..."
"Фей-Фей. Мы проделали такой долгий путь не для того, чтобы ты сдался сейчас".
"Это не сдача! Это работа мечты - карьера, и она может освободить нас от всего этого. Оглянитесь вокруг! Мы трое взрослых людей, живущих в общежитии!"
Я не уверен, что поверил своим словам, но они показались мне правильными. Что бы ни думала о них моя мама, она сделала паузу, возможно, чтобы обдумать их, прежде чем ответить.
"Фей-Фей, ты все время говоришь об этом своем "эгоистичном" путешествии. Как будто наука - это что-то, что вы отнимаете у нас".
"Как я могу не чувствовать этого? Я мог бы зарабатывать на жизнь для всех нас прямо сейчас, и..."
"Ты меня не слышишь. Это никогда не было вашим путешествием. С самого начала это был наш путь. Суждено ли тебе стать ученым, исследователем или кем-то еще, чего я даже не могу себе представить, и заработаешь ли ты когда-нибудь больше, чем гроши, мы всей семьей работали над этим с того момента, как наш самолет сошел со взлетной полосы в Шанхае".
Я не знал, что сказать.
"Я говорю это в последний раз: мы проделали этот путь не для того, чтобы ты сейчас сдался".
Она была права. Она всегда была права. На этот раз, по какой-то причине, я наконец услышал ее. Я больше никогда не буду сомневаться в правильности своего пути.
"Эй, как называется эта порода собак?" спросил я сокурсника из почти пустой лаборатории, пока мы ели обед.
"Какой?"
"Знаешь, она коричнево-белая и... кажется, еще черная... и у нее такие милые висячие ушки. Боже, я совсем забыл его английское название".
Мы размышляли над такими космическими вопросами, на которые отваживаются только аспиранты.
"Я знаю, что она начинается с буквы Б... Вообще-то, не говори мне..."
Я потянулся за английским словарем, который все еще хранился у меня на столе. Почти десять лет, как я стал американцем, и даже когда Интернет стал заменять многие предметы в нашей жизни, этот словарь иногда служил мне спасением. Я пролистал страницы, затем пролистал вниз, пока не увидел ...
"Ах! Да! Бигль!"
"Хорошо, и что? А как насчет биглей?"
Я остановилась и оглянулась на страницу. Я уже забыл, почему вообще заговорил об этом, но это было неважно. Меня осенило нечто совсем другое.
Мы с Пьетро стремились получить набор данных с сотней категорий изображений, но никак не могли придумать, как решить, какие именно из них включить. Мы опасались, что выборка может быть необъективной, если мы сделаем это сами - что даже подсознательно мы будем тяготеть к категориям изображений, которые, как мы знали, наши алгоритмы с большей вероятностью смогут распознать.
Я прищурился, вглядываясь внимательнее. В том, как словарь иллюстрировал некоторые слова, было что-то элегантное. Большинство из них были существительными, с акцентом на осязаемые, визуальные вещи - предметы, другими словами, или, в случае с биглем, животные. Казалось, что это именно те категории, которые нам нужны. К тому же они более или менее равномерно распределялись по всем буквам, что, на мой взгляд, было довольно беспристрастно. Я задумался: а что, если мы просто позволим словарю сделать выбор за нас?
Это было прекрасно. Книга, которую я годами таскал с собой, стала самым полезным инструментом в моем мире начинающего исследователя компьютерного зрения. Время от времени быть иммигрантом приносит свои плоды.
Если не принимать во внимание первые откровения, работа над полным набором данных была долгой, медленной и негламурной. Месяцы ушли на то, чтобы вручную запрашивать поисковые системы изображений, отбирать лучшие результаты, затем обрезать и изменять их размеры. Небольшая команда студентов, занимающихся маркировкой, в общей сложности три или четыре человека, и даже моя мать, теперь уже местная жительница, нашла способ помочь.
Каким бы трудным ни был этот процесс, в нем было нечто просветляющее. После долгих размышлений о разнообразии визуального мира я увидел его таким, каким никогда раньше не видел: как единую реальность, включающую аккордеоны, блендеры, сотовые телефоны, раков, омаров, пиццу, знаки "стоп", зонтики и множество других вещей. В этом была какая-то поэзия; это заставило меня оценить, насколько богат и непредсказуем мир и как мало его деталей мы замечаем.
Наконец, работа была завершена. На момент завершения работы в 2004 году это была самая большая коллекция изображений, когда-либо собранная для машинного обучения: более девяти тысяч изображений, распределенных по сотне категорий. Это было беспрецедентно, и мне не терпелось увидеть, что она откроет. Мы чувствовали себя так, как никогда не чувствовали себя раньше, словно внезапно стали обладателями сверхъестественного артефакта, готового наделить наши творения большими возможностями, чем мы когда-либо могли себе представить. Но была одна деталь, перед которой я не смог устоять: работая самостоятельно, я ввел еще одну категорию, чтобы в шутливой форме подколоть своего наставника, хотя и за свой счет. Если бы Пьетро хотел 100, я бы дал ему 101.
Мы сразу же опубликовали продолжение нашей статьи об одноразовом обучении, теперь в ней была представлена модель на основе потрясающе разнообразного набора обучающих изображений - набор данных, который теперь официально известен как "Caltech 101" - и которая могла похвастаться значительным ростом производительности. В силу своего, по общему признанию, постепенного характера, эта работа не стала прорывной, как первая, по крайней мере, на начальном этапе. Но она создала более прочное наследие в качестве модели для других. Кривые производительности, которые мы нарисовали для отображения наших результатов, стали эталоном; в течение шести месяцев исследователи со всего мира ссылались на нашу работу как на стандарт, который нужно превзойти, что многие из них и сделали. Как бы ни было интересно публиковать собственные исследования, ощущение того, что мы вносим свой вклад в идеи других людей и играем даже небольшую роль в их успехе, двигая область вперед, было еще более захватывающим.
Было ясно, что жизнь в Калтехе никогда не будет легкой, но моя благодарность за то, что я просто был там, была как никогда глубока. Нам удалось продать химчистку, что дало моей маме столь необходимый шанс отдохнуть впервые с тех пор, как мы приехали в эту страну. (Я не могу притвориться, что перспектива больше никогда не отвечать на междугородние звонки по поводу застиранной рубашки не радовала и меня). Больше всего я был увлечен учебой, доходя до почти ежедневного чувства усталости.
К счастью, Калтех - это такое место, где несложно найти единомышленников. С одним из них я столкнулся, в частности, возле офиса Пьетро, когда услышал два явно итальянских голоса, а не один, как я привык. Вскоре я узнал, что второй принадлежит коллеге-аспиранту, с которым я еще не знаком. Он был высоким, с таким непробиваемым акцентом, что Пьетро практически исчезал в сравнении с ним, и обладал головой с дико вьющимися волосами, которые выделялись на фоне всего помещения. Кроме того, в тот день он куда-то спешил, поэтому первая встреча с ним была не слишком запоминающейся, даже когда Пьетро нас представил. Но это позволило мне назвать имя по голосу: Сильвио.
Присутствие Сильвио на заседаниях нашей лаборатории вскоре привлекло мое внимание. Как и я, он часто начинал свои презентации с обсуждения произведений искусства. Его привлекали такие работы, как "Рука с отражающей сферой" Эшера и "Девушка с жемчужной сережкой" Вермеера. Обе они задерживались на тех аспектах визуального мира, которые он изучал в ходе своих исследований: искривленные контуры кривых отражений, блеск металлических поверхностей и трехмерная природа повседневных предметов. Разумеется, за приятным глазу занятием быстро последовали горы уравнений. Чем больше времени мы проводили вместе, тем больше я понимал, что у нас есть нечто общее: неспособность отключить свое любопытство, независимо от обстоятельств.
"Смотрите! Посмотрите на этот мотоцикл!" Он был настолько взволнован, что полностью испортил то, что начиналось как расслабляющая прогулка по кампусу.
"А что с ним?"
"Так, видите хромированные выхлопные трубы? Видите отражения? В них так много информации. Видите? Как они изгибаются и искривляются?"
"Да, я понимаю, что ты имеешь в виду".
"Но вот в чем загвоздка: что такое отражение? Это просто искаженная картина мира, окружающего поверхность! Это почти противоречие, и все же оно говорит нам достаточно о форме этого мотоцикла , чтобы мы могли представить его в своем воображении без особых усилий. Именно такой алгоритм мы и пытаемся разработать".
Боже мой, какой же он зануда, подумал я. Но он такой же зануда, как и я.
Я учился в двух лабораториях - электротехники у Пьетро и вычислительной нейронауки у Кристофа. Я встречался с каждым из них раз в неделю, посещал журнальные клубы с обзором новейшей литературы по нейронаукам и информатике и, поскольку обе лаборатории предоставляли бесплатную еду, питался лучше, чем мог бы ожидать. Потом был Сильвио. Когда позволяло время - а с учетом наших графиков это случалось нечасто, особенно по меркам головокружительных новых отношений, - мы были друг у друга.
Но по мере того как проходили годы моей работы в Калтехе, во мне укоренялось нечто иное. Я размышлял обо всем, что мы сделали: о нашем эксперименте по психофизике, об исследовании алгоритмов одномоментного обучения, о нашей работе, демонстрирующей мощь набора данных Caltech 101, и о десятилетиях литературы, над которой мы корпели. Несмотря на нестандартный путь моего образования, раздвоенный под руководством двух консультантов, я начинал ценить элегантность нашей работы. То, что мы сделали все это, не было случайностью; я как никогда был убежден, что категоризация - это идея, связывающая их, и что ее роль в понимании зрения - а может быть, и всего человеческого интеллекта - скоро окажется первостепенной.
Так почему же прогресс был таким медленным?
Одним словом, наши алгоритмы "перестраивались", как это называется в науке о данных. Иными словами, независимо от того, насколько продуманным был дизайн - а мы исследовали все возможные варианты, - даже те, которые показали наилучшие результаты во время тестирования, быстро давали сбой при воздействии новых стимулов. Снова и снова алгоритмы, которые, казалось бы, прошли эффективное обучение, оказывались неспособны применить полученные знания - или предполагалось, что они их получили - в реальном мире. По сути, это было противоположно человеческому восприятию, которое определяется способностью к обобщению. Обобщение делает нас гибкими, адаптируемыми и даже творческими, готовыми использовать силу новых идей, а не томиться в рамках прошлого опыта. Любое существо, лишенное такой способности, было бы быстро ошеломлено непредсказуемостью мира природы, что делает ее ключевой характеристикой биологически развитого разума. Но для машин она оставалась недоступной.
В наших попытках разгадать загадку избыточной подгонки естественным местом для начала был сам алгоритм - в частности, способы, с помощью которых он обучался на обучающих данных. Большинство алгоритмов, которые мы исследовали, были настолько сложны, настолько "вычислительно неразрешимы", что их нельзя было настроить вручную. Диапазон перестановок для их бесчисленных параметров был просто слишком велик, как панель управления с ручками и переключателями, простирающаяся за горизонт. Вместо этого автоматизированные технологии позволяли приблизиться к идеальному балансу этих параметров путем долгой итеративной последовательности проб и ошибок. В течение многих лет совершенствование таких методов было основой исследований в области компьютерного зрения.
Но Caltech 101 побудил нас глубже задуматься и о данных, что, в свою очередь, заставило нас задуматься о том, как эта сторона уравнения может способствовать чрезмерной подгонке. В конце концов, без данных к чему относится "обучение" в термине "машинное обучение"? Несмотря на очевидную важность этой темы, ей не хватало точности, которую мы привыкли ожидать от физики, математики или статистики. Такие исследователи, как Пьетро и Джитендра, были одними из немногих, кто изучал эту тему хотя бы номинально глубоко, и они разработали, как мне кажется, лучшие интуиции для ее понимания. Наши публикации свидетельствовали о том, что по мере увеличения массивов данных росли возможности наших алгоритмов - во всяком случае, относительно. Тем не менее, работа с данными больше походила на черное искусство, чем на науку.
Я начал думать, что мы делаем не так. Может быть, учебные изображения должны быть ориентированы по-другому? Нужно ли нам больше разнообразия? Может быть, дело в разрешении или качестве камеры? А может быть, - и я почти не решался допустить такую мысль, не говоря уже о том, чтобы высказать ее вслух, - может быть, даже 101 категории недостаточно? Чем больше я размышлял над этими вопросами, тем более очевидными, даже насущными, они казались. Но, насколько я мог судить, никто другой в нашем сообществе их не задавал.
Даже вопрос о количестве - наша специальность - казался загадочным. Я вынужден был признать, что было разумно задаться вопросом, что делает число 101 таким особенным. Это не был эмпирически подтвержденный результат или даже принципиальная оценка, выведенная из теории. Это был результат игры в салочки с моим консультантом над обеденными подносами, расставленными как картины Хокни. Неужели так удивительно, что это не было прелюдией к прорыву? Я снова вернулась к литературе, на этот раз с остервенением. Если не 101, то что? 200? 500? 1,000? Пожалуйста, только не 1000, подумал я. Я был полон решимости найти разгадку, где-нибудь, как-нибудь.
Пришлось немного покопаться, но в конце концов я кое-что нашел. И даже из знакомого источника - статьи Ирвинга Бидермана, одного из главных авторов нашего современного понимания зрения, опубликованной в 1983 году. Прошли годы с тех пор, как я читал ее, несомненно, пролистав вместе со стопкой другой литературы в два часа ночи. Теперь, после всего, что мы узнали из наших приключений с одномоментным обучением и мечтой о достижении истинной визуальной категоризации, я увидел ее по-новому.
В статье рассматривается интересная, но не имеющая прямого отношения к делу тема: как мы используем наши знания о базовых геометрических формах для распознавания сложных объектов. В процессе построения своего заключения Бидерман попытался ответить на обманчиво простой вопрос: сколько примерно уникальных категорий "вещей" существует в мире? То есть если сложить их все - "кресло-качалку", "пингвина", "спортивный автомобиль", "лабрадора", "гору" и все остальное, - то каково будет общее число?
Это больше похоже на загадку, чем на научную задачу. Но я был впечатлен изобретательностью подхода Бидермана, который он основывает на анализе английского языка. Слова играют основополагающую роль в том, чтобы помочь нам классифицировать то, что мы видим, и он решил, что для начала неплохо было бы подсчитать количество слов, которые мы посвящаем отдельным, поддающимся количественной оценке вещам - известным как "счетные существительные". Затем он представил себе, сколько существует по-настоящему разных вариантов каждого такого существительного, подобно тому, как одна категория предметов, например "чашка", может включать в себя белый чайный сервиз с витиеватыми ручками, ярко раскрашенную кофейную кружку и прозрачный стакан без черт. Поскольку некоторые категории отличаются большим разнообразием, чем другие, он упростил ситуацию, приняв разумное среднее значение. После этого подсчет общей суммы сводился к простому умножению.
Логика была достаточно простой, но именно масштаб его идеи сделал ее настолько разрушительной. Она мгновенно показала, насколько ограниченными были наши исследования, насколько ограниченным было наше воображение и насколько обширным на самом деле был мир за пределами обоих. Бумага была туманной, ксерокопированной реликвией, но мне казалось, что Бидерман обращается непосредственно ко мне: "Хотите прорыва? Вот цена. Вот что для этого нужно.
Тем не менее, число Бидермана - потенциальный план того, что требовали наши амбиции как исследователей, - было большим. Действительно большим. Это была не 1 000, не 2 000 и даже не 5 000. И уж точно не 101, на каталогизацию которых мы потратили несколько месяцев.
Это было 30 000.
Я понятия не имел, что делать с этой цифрой. Создание "Калтеха 101" казалось мне непосильным трудом, а тут я столкнулся с оценкой, которая превосходила ее на целых два порядка. Но теперь от этого было не отмахнуться. Там было что-то - настоящее озарение - его тепло проникало сквозь цифры, напечатанные на странице. Более того, я знал, что, куда бы ни привело меня это число, я буду идти один. Моя сфера деятельности была зациклена на алгоритмах. Но чем больше я думал о данных - особенно о данных в больших, возможно, огромных масштабах, - тем больше понимал, что это совершенно неизведанный рубеж. Мир уже выбрал свое направление. Но моя Полярная звезда вела меня в другом направлении.
Глава 7. Гипотеза
Солнечные лучи, пронзительно-белые, мерцали сквозь зелень, проносясь мимо моей машины по шоссе 206. По двухполосной дороге было легко ехать, делая пологие повороты сквозь полог деревьев, который периодически прорывался, чтобы показать проблески маленьких городков на горизонте. Я почти ничего не замечал. Мои мысли были где-то далеко, и, хотя мне удавалось быть достаточно внимательным, чтобы держаться между полосами разметки, на этом все и заканчивалось.
Хотя прошел всего год с тех пор, как я окончил Калтех с докторской степенью, почти все в моей жизни изменилось. Моя мать снова заболела. Болела сильнее, чем когда бы то ни было, но потом состояние резко стабилизировалось. Я также получила свою первую настоящую работу - должность младшего преподавателя в Университете Иллинойса Урбана-Шампейн - и медицинскую страховку, которая прилагалась к ней. Мы с Сильвио поженились. Потом он тоже нашел работу... в Мичигане. Мне было за что благодарить, но я была ходячим символом турбулентности, столь распространенной в начале академической карьеры. Я была одновременно замужем, одинока и жила с родителями.
Тем не менее мои исследования в области категоризации зрения оставались в центре моего мира, и меня снова пригласили в Принстон, чтобы представить мою последнюю работу на факультете компьютерных наук. К этому моменту я уже привык читать лекции, но уловил намек на то, что это приглашение может быть чем-то большим - первым шагом в процессе найма и, возможно, получения должности преподавателя. Ставки были выше, чем я привык, и я был благодарен своей привычке начинать поездки в Нью-Джерси с визита к Сабеллам. Извилистый маршрут, ведущий из их района в мою альма-матер, дал мне достаточно времени, чтобы все обдумать.
Но больше всего меня волновала не лекция и даже не моя карьера. Моя жизнь просто перестала быть прежней с тех пор, как я наткнулся на число Бидермана - его оценку того, что что-то порядка 30 000 уникальных концепций может обеспечить полную основу для понимания визуального мира. Эти непритязательные пять цифр превратились в черную дыру в центре моего сознания, опутывая мои мысли практически каждый момент бодрствования.
С одной стороны, моя интуиция совпадала с интуицией Бидермана. Его номер выглядел правильным, я чувствовал это нутром. Оно имело вид доказательства, данных, которые я мог бы как-то использовать. В то же время было ясно, что он никогда не рассматривал его как эмпирическую величину. Это был классический расчет "на глазок", скорее иллюстрация, чем гипотеза. И все же по какой-то причине спустя годы после того, как я впервые увидел его, я не мог с ним расстаться.
Она вдохновила меня на изменение мышления в сторону ощущения масштаба, о котором я раньше даже не подозревал, но не дала почти ничего нового. Число 30 000, конечно, интригует, но что именно 30 000? Я был уверен, что ответ не так прост - создать новый набор данных с 30 000 случайно выбранных категорий вместо 101. Конечно, такая коллекция будет гораздо больше, чем набор иллюстрированных понятий из настольного словаря. Она могла бы даже начать целостно моделировать мир, а не просто описывать его особенности, прорисовывать полную картину жизни на Земле, объект за объектом, и намекать на взаимосвязи между ними. Истинный смысл. Но я все еще только догадывался.
Шли минуты, и я начал мечтать. Желто-голубой логотип станции Sunoco привлек мое внимание, вызвав каскад воспоминаний : импрессионистские вспышки предыдущих поездок по этому маршруту. Цвета и настроения. Резкая деталь здесь, более размытая там, и все это в окружении полузабытых оттенков, богатых и выразительных, но навсегда выпавших из фокуса. Я невольно улыбнулся, когда цепочка моих мыслей пришла к чему-то конкретному: к тому, как мистер Сабелла рассказывал о своих ежедневных поездках по этой самой дороге от дома в Бадд-Лейк до школы Парсиппани и как он скрупулезно следил за ценой на бензин, чтобы свести к минимуму расходы на зарплату учителя в школе.
Это может показаться банальным, но именно такие моменты и послужили причиной моей одержимости. Это то, чем на самом деле является зрение. Это не просто "чувство", по крайней мере не так, как "чувствует" термометр или счетчик Гейгера, а скорее катализатор переживаний. Поток информации и эмоций, высвобождаемый цветом вывески автозаправочной станции, проносящейся мимо на скорости пятьдесят миль в час. Это одна из тех способностей, которые определяют разум в его наиболее человеческом проявлении - точка входа в целую вселенную воспоминаний, ассоциаций, концепций и рассуждений, вплетенных в наши визуальные связи с окружающим миром.
Мои мысли вернулись к презентации в Принстоне. По крайней мере, это была проблема, которую у меня был шанс решить.
"Не знаю, как лингвист оказался на конференции по компьютерному зрению, Фей-Фей, но я рад, что он это сделал".
Через стол от меня сидела Кристиана Феллбаум, специалист по вычислительной лингвистике, одна из многих преподавателей Принстона, с которыми я познакомился в последующие дни после лекции. Сама она не присутствовала, но ее коллега оказался в аудитории и, предчувствуя, что она оценит мою работу, сразу после этого связал нас.
Работа Кристианы в области лингвистики имела лишь самое слабое отношение к моей, но то, что нас объединяло, имело решающее значение: сильное влияние когнитивных наук и особый интерес к пониманию - даже к составлению карты - того, как разум концептуализирует свой мир. Понятие, которое так захватило меня во время изучения человеческого зрения, - то, как мы классифицируем содержимое нашего восприятия, - было неотъемлемой частью ее работы, и в чем-то очень похожей на мою. Мы оба считаем, что категории - это точка пересечения между зрением (вещами, которые мы видим) и языком (тем, как мы их описываем). Через двадцать минут разговора меня осенило, что я даже не знаю, предполагалось ли, что мы будем обсуждать предложение о работе. В любом случае это было последнее, о чем я думал, поскольку она собиралась задать вопрос, который навсегда изменит мою карьеру и жизнь.
"Вы слышали о проекте под названием WordNet?"
WordNet, как мне предстояло узнать, был детищем Джорджа Армитажа Миллера, легенды психологии и когнитивной науки. Он родился в 1920 году и был одним из самых влиятельных представителей поколения психологов, которые смотрели на поведение человека сквозь пальцы, пытаясь создать модели ментальных процессов, которые им управляют. Естественно, его внимание привлекла структура языка и роль, которую он играет в мышлении. С помощью WordNet он попытался составить карту языка в поразительных масштабах.
Два вопроса, одинаково амбициозные, вдохновили проект: что, если бы все понятия, которые человек может сформулировать с помощью языка, были организованы в единую, массивную базу данных слов? И что, если бы, в отличие от алфавитной организации словаря, эти слова были связаны друг с другом на основе их значений? Например, вместо того чтобы объединять "яблоко" с "прибором" из-за случайности их написания, "яблоко" можно было бы объединить с целым кластером родственных слов - "еда", "фрукт", "дерево" и так далее. Это было бы похоже на карту всего, что ценят люди, - всего, что мы научились описывать словом, - расположенного в едином пространстве. В двух словах, это и есть WordNet.
С момента своего создания в 1985 году проект разросся до почти непостижимых размеров, включив в себя более 140 000 английских слов и быстро распространяясь на новые языки. Для Кристиана, занимавшего пост президента ассоциации Global WordNet , это была почти постоянная работа. Я был потрясен ее масштабами, ее долговечностью и координацией, которая, должно быть, требовалась, чтобы так точно и на протяжении многих лет направлять ее рост. Я практически краснел, вспоминая, каких усилий стоило уговорить горстку студентов на несколько месяцев, чтобы собрать достаточно снимков для набора данных Caltech 101 - его собственная категориальная глубина более чем в тысячу раз меньше. Но я также был вдохновлен до такой степени, какой не испытывал уже давно.
WordNet стал для меня откровением. Она давала ответ или хотя бы намек на вопросы, которые занимали большую часть моей жизни в течение почти четырех лет с тех пор, как я наткнулся на номер Бидермана. Это была карта человеческих смыслов, бескомпромиссная как по охвату, так и по достоверности содержания. Я еще не знал, как с помощью компьютерного зрения можно достичь масштабов, которые представлял себе Бидерман, но теперь, по крайней мере, у меня было доказательство того, что такая работа вполне осуществима. Впервые передо мной открылся путь, и я мог видеть следующий шаг.
Затем, как будто для того, чтобы еще больше убедить меня в этом, Кристиана упомянула о смежном проекте, целью которого было проиллюстрировать каждое понятие WordNet одним визуальным примером, например фотографией или диаграммой. Хотя эта инициатива была заброшена, я был заинтригован. Даже его название - ImageNet - было почти идеально подходящим. Еще один толчок, и не особенно тонкий.
Точки начали соединяться еще до того, как я покинул кампус в тот день. Сначала была WordNet: лексическая база данных почти неописуемой амбициозности, которая, казалось, охватывала все мировые понятия, организованные в естественную иерархию человеческого смысла. Затем появился ImageNet: попытка присвоить каждому понятию отдельную картинку. Оба проекта казались ответами на зияющее, загадочное пространство, которое число Бидермана создало в моих мыслях.
Я задал себе вопрос, столь же абсурдный, сколь и очевидный: что если создать набор данных, подобный Caltech 101, в масштабах WordNet? Не обращая внимания на невозможную логистику такой затеи - и действительно, "невозможно" было единственным словом, пришедшим на ум, - нельзя было отрицать силу этой идеи. И дело было не только в размерах: хотя набор данных был бы астрономически огромным, конечно, его цифры были бы побочным эффектом чего-то более глубокого: разнообразия в невиданных ранее масштабах, такого же беспорядочного и непредсказуемого, как и мир, который он отражал.
После многих лет, которые я провел, погружаясь в эту область, и десятилетий истории, которую я изучал с Пьетро и Кристофом, это казалось чем-то действительно новым. Дивергентным, даже разрушительным. Следующий шаг в поисках тайны, которая преследовала меня днем и не давала спать по ночам. Если существовал хотя бы номинальный шанс, что это приблизит меня к открытию - любому открытию, - я должен был рассмотреть его.
Мои мысли неслись вскачь, когда я представлял себе богатство визуальных сигналов, которые мог бы усвоить алгоритм, обученный на таком наборе данных. Твердые края пластика, блеск лакированного дерева, текстура шерсти животного, отражение на поверхности глаза и многое другое - возможно, все остальное. Я представлял себе, как наши алгоритмы становятся все более гибкими в своей способности отделять передний план от заднего, определять, где заканчивается один объект и начинается другой, и отделять свет и тень от поверхности и объема.
Что, если секрет распознавания чего бы то ни было заключается в обучающем наборе, включающем в себя все?
Едва прошел год после того, как я стал доцентом в Урбана-Шампейн, Принстон предложил мне работу. Это был самый большой перерыв в моей карьере, и я согласился. Сабеллы были так рады моему возвращению в Нью-Джерси, что пришли помочь распаковать вещи: Мистер Сабелла, Джин и их второй сын Марк, теперь уже сам выпускник колледжа, - все они ждали у входа в жилой комплекс для преподавателей Принстона в день моего приезда. Это было неожиданно красивое место на озере Карнеги с тремя спальнями, которые казались просто роскошными после общежитий, в которых мы с родителями жили с момента приезда в Америку. Это был такой скачок в площади, что вскоре мы поняли, что команда из трех человек для переезда - это перебор. Поскольку Сильвио все еще находился в Энн-Арборе, а мои родители привыкли жить в тесных помещениях, мы едва успели привезти достаточно мебели, чтобы заполнить квартиру. Но было очень приятно воссоединиться с людьми, которые стали значить для меня столько же, сколько моя собственная семья.
"Кстати, я хотел тебя кое о чем спросить", - сказал мистер Сабелла, догнав меня, когда я шел к машине, чтобы взять последнюю коробку. "Когда ты начнешь называть меня "Боб"? Все эти годы вы называли мою жену "Джин". Не пора ли?"
Потребовалась секунда, чтобы понять, что он имеет в виду. Это казалось таким странным обращением к человеку, который так долго был для меня наставником и своего рода вторым отцом. "Боб", как будто он был просто моим знакомым.
"Я больше не твой учитель, Фей-Фей, - сказал он с ухмылкой. "Думаю, мы можем отказаться от формальностей. Если, конечно, вы не хотите, чтобы я называл вас "доктор Ли"".
Я встретился с Кристианой через несколько недель после переезда, желая сообщить ей, какое влияние оказала наша встреча. WordNet, ImageNet и нелепые, но упрямые идеи, которые они вдохновили. Судьба, или что-то вроде этого. И теперь, вступив в ряды преподавателей Принстона, я чувствовал, что меня побуждают сделать шаг к воплощению этих идей в жизнь, организовать их в нечто дерзкое, возможно, до безумия.
Независимо от того, был ли я на пороге прорыва или неудачи, я был взволнован. Может, наука и идет по нарастающей, но в ее развитии случаются внезапные моменты сейсмического перелома - не из-за амбиций какого-то одинокого гения, а благодаря вкладу многих, которых свела вместе удача. Размышляя над всеми нитями возможностей, которые должны были соединиться, чтобы подтолкнуть эту идею, я начал задаваться вопросом, может ли это быть именно таким моментом.
Последняя мысль пришла мне в голову, когда я выходил из кабинета Кристиана.
"Знаешь, я думал об ImageNet, и о том, как ты сказал, что она никогда не будет закончена".
"Да, к сожалению. Слишком скучно для студентов, которых мы наняли. Да и вряд ли это было значимое исследование, так что ни один аспирант не захотел к нему прикоснуться".
Я усмехнулся, когда в голове промелькнули воспоминания о загрузке изображений для наборов данных, которые мы составляли с Пьетро. Она не ошиблась. Но я заговорил об этом не поэтому.
"Так... это значит, что я могу использовать это имя?" спросил я с неловким смешком. "Оно вроде как идеальное".
"Что мы смотрим?" спросил я с дивана, пока Сильвио стоял на коленях над DVD-плеером. Я слышала жужжание сервоприводов, когда он вставлял диск.
"Дикая клубника". Не волнуйтесь, вам понравится. Это классика".
Посещение кампуса Сильвио в Энн-Арборе стало для нас обоих спасением от давления двух внезапно развивающихся карьер. Он готовил еду с нуля и пытался передать мне некоторые из своих знаний киномана. Лучше всего, что у нас была возможность поговорить - или даже просто подумать - о чем-то другом, кроме работы, которая определяла большую часть нашей жизни.
"Эй, мне нужно с тобой кое о чем поговорить", - сказал я, когда фильм закончился. "Идея для исследовательского проекта. Она не дает мне покоя последние несколько недель".
"Значит, вы не обращали внимания на фильм, - сказал он со знающей улыбкой.
Я рассмеялся, но он был не совсем неправ.
"Мне кажется, я никогда не испытывал такой убежденности в чем-то".
"Ну, разве это не хорошо? В чем проблема?"
"Да, просто..." Я тяжело вздохнул. "Боже, это будет авантюра".
Сильвио оказался доверенным лицом, которому нет равных. Мы оба были молодыми доцентами на факультетах с высокой конкуренцией, и нам предстояли годы "опубликуй или погибни", когда мы пытались начать свою карьеру на . Мы оба были готовы к тому, что от нас потребуется безостановочно выдавать качественные и количественные результаты, зная, что в противном случае мы распрощаемся со своими профессорскими званиями вместе с нашими шансами на стабильное существование. Он знал о ставках лучше, чем кто-либо в моей жизни.
Я изложил все с самого начала, несмотря на годы, которые я уже потратил на то, чтобы прожужжать ему все уши об этом. Число Бидермана, WordNet, ImageNet и мечта, которая имела идеальный смысл, пока я не попытался представить себе, как это делается на самом деле.
"Ты потратил годы на то, чтобы попасть сюда, Фей-Фей. У тебя есть диплом, есть работа, и, похоже, у тебя есть вдохновение. И, кстати, ваш муж находится в шестистах милях отсюда, так что у вас точно будет время".
Я хихикнула, оценив его попытку сохранить легкость.
"Да, но тебе не кажется, что все это слишком... за гранью?" спросил я.
Он на мгновение задумался, прежде чем ответить.
"Разве "там" - это не та идея, которую вы искали?"
Что хорошего в наборе данных с десятками тысяч категорий? Большинство моделей все еще пытаются распознать одну или две!
Вы представляете, сколько времени потребуется, чтобы обучить модель на таком количестве изображений? Фей-Фей, ты говоришь о годах.
Как вообще кто-то сможет его скачать? Вы описываете коллекцию изображений размером больше, чем большинство жестких дисков.
У вас есть план, как все это организовать? Кто будет маркировать миллионы изображений? Сколько времени это займет? Как вы будете проверять точность всего этого?
Простите, но в этом нет никакого смысла.
Чем больше я обсуждал идею ImageNet со своими коллегами, тем более одиноким я себя чувствовал. Несмотря на ободряющие беседы Сильвио, почти единодушный отказ был плохим знаком в самом начале начинания, определяемого его огромными размерами; мне могла понадобиться целая армия соавторов, а я не мог найти ни одного. Хуже всего то, что независимо от того, соглашался я с ними или нет, я не мог отрицать обоснованность их критики.
В 2006 году алгоритмы были центром нашей вселенной, а данные не были особенно интересной темой. Если машинный интеллект был аналогом биологического, то алгоритмы были чем-то вроде синапсов, или хитроумных проводков, проложенных по всему мозгу. Что может быть важнее, чем сделать эту проводку лучше, быстрее и способнее? Я вспомнил о том внимании, которым пользовалась наша статья об одномоментном обучении, - о мгновенной способности нового блестящего алгоритма, богато украшенного причудливой математикой, завязать разговор. Данные жили в тени, считаясь не более чем инструментом для обучения, как игрушки, с которыми играет растущий ребенок.
Но именно поэтому я считал, что она заслуживает большего внимания. В конце концов, биологический интеллект не был создан так, как алгоритмы, - он эволюционировал. А что такое эволюция, если не влияние окружающей среды на организмы, живущие в ней? Даже сейчас наше познание несет на себе отпечаток мира, населенного бесчисленными поколениями предков, которые жили, умирали и со временем приспосабливались. Именно это делает выводы Торпа и Бидермана и даже нашей лаборатории в Калтехе столь поразительными: мы распознаем естественные образы почти мгновенно, потому что именно такие сенсорные стимулы - данные, другими словами, - сформировали нас. ImageNet - это шанс дать нашим алгоритмам тот же опыт: ту же широту, ту же глубину, ту же впечатляющую беспорядочность.
Наконец, после множества обескураживающих бесед, которых мне хватило бы на всю жизнь или две, я встретил своего первого сторонника. Профессор Кай Ли, ведущий специалист в области архитектуры микропроцессоров - искусства компоновки миллионов и миллионов транзисторов нанометрового размера в самые сложные устройства в мире, - понимал силу экспоненциального мышления лучше других. Он верил, что я что-то задумал, и, хотя он не мог внести свой вклад напрямую, поскольку наши области были лишь слабо связаны в рамках факультета информатики , он знал, что нам понадобится серьезная вычислительная мощность, чтобы начать работу. Не задумываясь, он пожертвовал нам начальный комплект рабочих станций. Это было именно то проявление поддержки, в котором я нуждался.
Кай был единственным китайским иммигрантом среди преподавателей информатики в Принстоне. Он родился в 1950-х годах и принадлежал к поколению, которое оказалось в числе первых студентов, поступивших в колледж после Культурной революции, и в итоге приехал в Америку, чтобы поступить в аспирантуру в 1980-х годах - в период, когда такая иммиграция была редкостью, а достойных доверия сверстников было мало. Этот опыт оставил в нем колоритную личность, сочетающую в себе интеллектуальную интенсивность моей матери и сдержанный юмор моего отца. Кай выглядел как профессор, с черными волосами, уложенными на бок, и строгим гардеробом. Но у него была теплая улыбка и щедрая душа. Мы быстро сблизились.
Чем больше я узнавал о Кае, тем больше начинал понимать, почему он рассматривал мои идеи в более благоприятном свете, чем другие. Он завоевал репутацию пионера в области эффективного соединения микропроцессоров с огромными хранилищами памяти и стал одним из основателей компании, которая коммерциализировала его исследования и в итоге была продана за более чем 2 миллиарда долларов. Он не только рано поверил в силу больших данных, но и был экспертом по их использованию. К сожалению, он также находился на пороге длительного отпуска по личным обстоятельствам, что прервало мое пребывание в качестве его протеже. Однако положительным моментом в его уходе стала необходимость найти нового советника для необычайно способного студента по имени Цзя Дэн. Кай описывал его как идеального сотрудника: молодой ум с неистощимым инженерным талантом, жаждущий новых испытаний.
Кай и Цзя были полярными противоположностями во многих отношениях. Если Кай был веселым и общительным, то Цзя - сдержанным. Если Кай носил свою страсть на рукаве, то отношение Цзя было настолько безэмоциональным, что я боялась, что не смогу понять, заинтересовала ли его наша работа. Из наших первых разговоров я понял, что он просто гениален - это было бы очевидно даже без рекомендации Кая, - но я никогда не встречал никого, кто мог бы так полностью скрыть накал своего интеллекта.
Если говорить о мозге, то мое внимание привлек статус Цзя как новичка в этой области. Его необычное происхождение не только наделило его инженерными навыками такого уровня, которые вряд ли есть у среднего студента, изучающего компьютерное зрение, но и избавило его от бремени ожиданий. Это был нестандартный, если не сказать рискованный проект, и он далеко не соответствовал тогдашней моде в этой области. Цзя этого не знал.
И вот мы, команда из двух человек, приступили к проекту, который, казалось, должен был потребовать тысячи участников, если не больше, и все это ради гипотезы, которую большинство моих коллег отвергали с порога. На бумаге все это не имело смысла. Но впервые в жизни я почувствовал уверенность, которую не нужно было подвергать сомнению. Неважно, сколько времени это займет, я был уверен, что у нас получилось что-то грандиозное. Возможно, так сложилось исторически.
Я откинулся на спинку кресла и шумно выдохнул, поворачивая стул, чтобы осмотреть голые стены моего нового офиса в здании компьютерных наук в Принстоне. Несмотря на то что я работаю уже почти четыре месяца, большую часть пространства у моих ног по-прежнему занимали частично открытые картонные коробки. Джиа сидела напротив меня на диване, который на данный момент представлял собой все мои усилия по оформлению интерьера.
"Хорошо. Давайте посмотрим, сможем ли мы оценить масштаб этой штуки".
Используя WordNet в качестве отправной точки, мы начали с того, что вычистили из него жир. Несмотря на то, что его преимуществом был невероятный размер и детализация, мы знали, что большая часть его содержимого нам не понадобится. ImageNet предназначался для описания мира вещей, а не действий или описаний, поэтому наши первые отсечения были очевидны: глаголы и прилагательные. Но даже с существительными было сложно: абстрактные понятия, такие как "истина" или "осознание", например, не могут быть сфотографированы. В список попали только существительные, обозначающие физические объекты - вообще говоря, вещи, достаточно осязаемые, чтобы их можно было сосчитать: один предмет, два предмета, сто предметов. Все остальное было вычеркнуто.
В общем, мы вырезали большую часть из 140 000 записей WordNet, оставив визуальное, поддающееся подсчету подмножество чуть больше 22 000. Это все еще было во много раз больше, чем любая коллекция обучающих изображений для машинного обучения, о которой я когда-либо слышал, но это было значительное сокращение по сравнению с тем, с чего мы начали. И это было поразительно близко к оценке Бидермана в 30 000.
"А как насчет разнообразия?" спросила Цзя. "Сколько разных изображений нам нужно для каждой категории?"
А, подумал я. Ну вот, теперь мы куда-то попали.
"Давайте мыслить биологически", - сказал я. "Как растут дети? Как развивался наш вид? Реальный мир - это сплошной беспорядок, верно? Ничто не бывает черно-белым. Все меняется. И все же мы учимся разбираться в нем. Мы живем внутри всех этих деталей и, естественно, становимся экспертами". Я поднял кружку, стоявшую на моем столе. "Но вы спрашивали о числах. Так скажите мне, в скольких вариантах эта кружка может появиться на фотографии?"
Цзя на мгновение задумался. "Во-первых, это размер. Он может выглядеть больше или меньше в зависимости от того, насколько близко он находится к камере".
"Верно. Но мне нужно количество. Сколько разных размеров?"
Он снова задумался, потом пожал плечами. "Ну, это же будет бесконечно, верно? Нет конкретного числа".
"Снова правильно", - сказал я, на этот раз с ухмылкой. Джиа прекрасно понимал, к чему я клоню, но он был готов позволить мне затянуть с этим, чтобы донести до него суть. "Итак, у нас есть бесконечные размеры. Что еще?"
"Освещение? Кружка может быть ярко освещена или находиться в тени. И цвет тоже. Кружки могут быть практически любого оттенка, а на некоторых есть рисунки и слова".
"Хорошо, хорошо. И сколько вариаций для каждого из них?"
"Одно и то же. Оба бесконечны".
"А мы еще только начинаем", - сказал я. "Как насчет перспективы? Куда направлена ручка? Мы смотрим на кружку снизу вверх или сверху вниз? А как насчет окклюзии? Есть ли что-то перед ней? Стопка книг? Кошачий хвост? Другая кружка? А что насчет фона? Кружка стоит перед стеной? Окно? Находится ли она в шкафу?"
"Бесконечно, бесконечно, бесконечно, бесконечно", - подытожила Цзя, довольно точно.
Чем больше я думал об этом, тем больше убеждался в развивающем характере нашей работы - попытке синтезировать восприятие ребенка в годы его становления в виде данных. Я представил себе, как дети играют с вещами - как они тянутся к ним, ощупывают и трогают, тычут и тыкают. Они привыкают к изменениям освещения и перспективы, беря вещи в руки, поворачивая их и рассматривая под разными углами. Они играют в игры вроде "пикабу", узнавая, что предметы сохраняются, даже если их на мгновение спрятать. Все это инстинкты, которых так не хватало нашим алгоритмам.
"Хорошо, но мы так и не пришли к числу", - размышлял Цзя. "Пока что мы просто умножили бесконечность на саму себя. Что же нам с этим делать?"
"Полагаю, в этом и заключается моя мысль", - ответил я. "Никакого количества изображений не будет достаточно. Поэтому, сколько бы мы ни думали о количестве, мы должны думать о большем. А потом еще больше. Мы в любом случае угадываем, так что давайте угадывать по-крупному".
Мы поставили перед собой цель сделать тысячу разных фотографий каждой категории предметов. Тысяча разных фотографий скрипок. Тысяча разных фотографий немецких овчарок. Тысяча разных фотографий брошенных подушек. И так далее, более чем по двадцати двум тысячам категорий. Что-то около двадцати миллионов изображений. И даже эта цифра говорила нам только о готовом продукте; скорее всего, нам придется начать с сотен миллионов, а то и почти миллиарда изображений-кандидатов.
Цзя смотрел скептически. "Я понимаю теорию, но вы говорите об астрономическом объеме работы. Это выходит за рамки нескольких поисков в Google".
Он, конечно, был прав, но нам нужно было принять этот факт, а не прятаться от него. Мы пытались отразить всю полноту реального мира. Цифры должны были нас пугать.
"Цзя, все, что мы хотим, чтобы наши алгоритмы увидели, уже где-то есть. Каждая деталь фотографируется, даже пока мы разговариваем. В наши дни у каждого есть телефон-раскладушка. Каждый получает на Рождество цифровую камеру. Представьте, что вы увидите, если сможете каким-то образом собрать все эти фотографии в одном месте. Это была бы мозаика всего мира! Вся повседневная жизнь, от одного конца до другого".
"При условии, что мы сможем как-то это организовать", - добавил он. "Изображения сами по себе ничего не делают, верно? Все они должны быть помечены, прежде чем мы сможем использовать их для обучения модели. И каждая метка должна быть точной". Цзя сделал паузу, как будто его осенила серьезность собственных слов. "Это уже совсем другой разговор".
"Да, да, да", - ответила я. "По одному чуду за раз".
Мы с Джией наблюдали из угла лаборатории, как ряд студентов-старшекурсников выдает ровный ритм щелчков мыши и нажатий клавиш. Отклик на письмо, которое мы разослали в начале недели, был быстрым. Требуются: Студенты, готовые помочь загрузить и разметить изображения из Интернета. Гибкие смены. 10 долларов в час. Это казалось справедливой сделкой: мы сделаем шаг к новой эре машинного интеллекта, а они получат деньги на пиво. Это был приятный момент, но реальность не заставила себя долго ждать.
"Мне кажется, Цзя, или все это выглядит немного... медленно?"
"Да, я беспокоился об этом. На самом деле, я засекал несколько минут их темпа и делал некоторые экстраполяции".
О-о.
"С такими темпами мы можем ожидать, что ImageNet будет завершен в..."
Я тяжело сглотнула. Он заметил.
"Да: девятнадцать лет, плюс-минус. Фей-Фей, я верю в этот проект - правда верю, но я не могу так долго ждать своей докторской".
Справедливое замечание, Цзя.
"Так что же нам делать?" - спросил он. "Может, просто наймем больше студентов?"
"Это один из вариантов, конечно. Но это будет стоить нам денег, и если наш временной горизонт составляет девятнадцать лет, я не уверен, что бюджет нашей лаборатории будет достаточно велик, чтобы выкупить наш выход".
Так или иначе, было ясно, что для решения проблемы нам понадобится больше, чем горстка подростков. Этого едва хватило для Caltech 101, который был просто ошибкой в сравнении с ImageNet. Казалось, необходимо применить новую тактику.
Я подумал о работе, которой Цзя занимался вместе с Каем Ли до прихода в мою лабораторию. Их мир был миром сложных систем - ошеломляюще сложных - и они жили стремлением к эффективности. Более высокая производительность. Более низкая стоимость. Кратчайший путь. Конечно, протеже одного из лучших в мире разработчиков микропроцессоров мог бы придумать, как повысить производительность некоторых детей.
"Цзя, подожди секунду". Я жестом указал на студентов. "Это ведь все процесс, верно? Разве это не инженерная задача?"
Он на мгновение задумался, а затем бросил на меня взгляд человека, собирающегося засучить рукава.
"Хорошо", - сказал он со слабым намеком на ухмылку. "Давайте поговорим об оптимизации".
Следующие месяцы вошли в ритм, хотя и не слишком изящный. ImageNet был диким зверем, который не поддавался укрощению и вырывался каждый раз, когда мы подходили слишком близко. Мы продолжали бороться, одерживая все новые и новые победы - по крайней мере, маленькие, - а также накапливая царапины и синяки. Но каждый раз, когда нам казалось, что мы наконец загнали его в угол, он издавал более глубокий, более гортанный рев и отправлял нас в бегство.
К счастью для меня, Цзя был из тех партнеров, которые в ответ на досадные проблемы начинают думать еще активнее. Участие людей было самой затратной частью нашего процесса, как с точки зрения времени, так и с точки зрения денег, и именно здесь он начал свою контратаку: сделал своей личной миссией сократить эти затраты до абсолютного минимума. Например, когда один из наших специалистов по наклеиванию этикеток собирал коллекцию фотографий для определенной категории, скажем, "вельш-корги пемброк", мы изначально предполагали, что каждый шаг будет выполняться вручную: вводили запрос в поисковую систему вроде Google Images, прочесывали результаты, чтобы найти четкие примеры, накладывали этикетку на каждую, а затем помещали итоговые подборки в соответствующий каталог. Но большинство этих шагов не требовали человеческого интеллекта.