Первым делом Цзя автоматизировал этап загрузки, написав программу, которая отправляла каждую категорию WordNet в поисковую систему по изображениям, как это делали наши маркировщики. Но поскольку поисковые системы предназначены для людей, а не для машин, они не возвращают набор изображений напрямую; вместо этого они представляют веб-страницу, которая организует полученные результаты в виде прокручивающейся сетки миниатюр, исходный код которых программа Цзя затем разбирала, чтобы извлечь ссылки на полноразмерные изображения. Это было сложное решение, но оно давало нам возможность загружать изображения кандидатов на максимальной скорости, днем и ночью, столько, сколько мы хотели - месяцы, если нужно. А полученные изображения автоматически упорядочивались на наших собственных машинах.

Наше хранилище стало наполняться как по волшебству. Конечно, в широкую сеть, которую мы закинули, попало изрядное количество хлама - низкокачественных фотографий, клип-арта и тому подобного, - но мы накопили и много хорошего. Где-то в сети наших быстро заполняющихся жестких дисков появлялись первые проблески этой мозаики - грубого, но достоверного изображения всего визуального мира. По крайней мере, так было какое-то время.

"Ой-ой", - услышала я голос Джии из другого конца лаборатории.

"В чем дело?"

"Похоже, у нас возникла небольшая заминка. Ага... Google нас забанил".

"Что? Запрещено? Почему?"

"Очевидно, они ограничивают количество запросов, которые может подать один пользователь за определенный период. Около тысячи, насколько я могу судить".

"Как долго длится этот период?"

"Двадцать четыре часа. Он обнуляется в полночь. Это хорошая новость".

"Хорошо, как быстро мы сжигаем дневную норму?"

"Что ж, это плохие новости". Цзя поднял файл журнала и произвел мысленную арифметику. "Около девяти минут".

Уф.

Рост хранилища остановился. И это была не единственная наша проблема. Конвейер был карикатурно однобоким: наша коллекция необработанных изображений взрывалась, тысячи и тысячи добавлялись каждый день, пока Google не заблокировал нас, но лишь малая часть из них была точно промаркирована и организована. Мы с самого начала знали, что процесс маркировки будет узким местом, но по мере того, как проходили недели, нас постоянно удручало то, насколько тяжелым было это бремя.

Мы с Цзя встретились, чтобы обсудить этот вопрос, в столовой Mathey на территории кампуса - месте, на которое я стал полагаться, так как в связи с тем, что ImageNet завладел моим разумом, мысль о том, чтобы отвлечься на приготовление пищи, стала просто невыносимой. Кроме того, после стольких дней и ночей, проведенных в лаборатории, это была желанная смена обстановки: высокие потолки, деревенские люстры и витражи наводили на мысль, что мы нашли убежище в монастыре.

Мы проговорили каждый шаг, который выполняли наши маркировщики, чтобы определить, классифицировать и маркировать каждое изображение, упрощая его, где только можно, с помощью быстрых клавиш и специальных инструментов. Если процесс занимал три клика, Цзя находил способ сделать это за один. Меньше набора текста. Более короткие движения мышью. Все быстрее. Пока мы разговаривали, я поймал себя на том, что изучаю предметы на столе, молча размышляя, есть ли они среди наших двадцати двух тысяч категорий. Несомненно, там будет запись "салфетка", но различаем ли мы тканевые и бумажные салфетки? Что это был за нож? Сколько разновидностей может быть помимо, скажем, "ножа для стейка" и "ножа для масла"? "Мясницкие ножи", - предположил я. "Хлебные ножи"? Может быть. Их действительно было много, если подумать. А у нас они все есть? Я сделал мысленную заметку проверить, когда мы вернемся в лабораторию.

"Кстати, ты знаешь, что такое динамический IP, Фей-Фей?"

Еще один трюк в рукаве Цзя.

"Считайте, что это промежуточный шаг между нашими машинами и серверами Google. Наши лабораторные компьютеры остаются на месте, но динамический IP соединяет нас с посредниками, которые постоянно меняются, поэтому Google думает, что они поступают от разных пользователей".

"И это позволит нам не превысить лимит?"

"Далеко под ним".

Мы снова были в деле, по крайней мере в некоторой степени. Маркировка все еще оставалась проблемой, но мы с облегчением наблюдали за тем, как возобновляется поставка изображений кандидатов. Даже незначительные победы теперь стоило праздновать.

С течением месяцев ImageNet просочилась в мою душу, став линзой, через которую я видел почти все. Будь то работа в лаборатории или прогулка по площади, моя личная игра в визуальную идентификацию продолжалась. Если я видел, что кто-то выгуливает незнакомую мне породу собак, я задавался вопросом, не выделили ли мы для нее подкатегорию. Если бы я увидел студента, катающегося на одноколесном велосипеде, я бы задумался, есть ли вообще такая категория, не говоря уже о разных видах одноколесных велосипедов. Да и вообще, существуют ли разные виды одноколесных велосипедов? Гаражная распродажа, которую любил мой отец, стала моим миром. Все было раздуто до непостижимых масштабов, но дух был тот же - неутолимое любопытство, жажда новизны. Я задавался вопросом, есть ли в нашей семье такой ген.

Борьба продолжалась, каждый шаг делался в ответ на новую загадку. Когда мы обнаруживали, что изображения в той или иной категории слишком похожи друг на друга, тем самым уменьшая искомое разнообразие, мы использовали международные переводы WordNet, чтобы отправить запрос на разных языках в надежде, что изображения со всего мира будут более разнообразными. Когда мы не могли найти достаточно изображений, мы добавляли к поисковому запросу смежные термины, превращая "корги" в "щенок корги" или "собачий парк корги". А когда поисковые системы незаметно меняли макеты своих страниц результатов, тем самым изменяя расположение ссылок на каждое изображение и ломая одну из многочисленных программ автозагрузки Цзя, мы перепрограммировали их, чтобы они соответствовали, и стали регулярно проверять наличие таких изменений.

Для парня, который всего за год до этого занимался проектированием микропроцессорных архитектур, это были ужасно прозаические инженерные задачи. Тем не менее мы оба знали, что наши усилия служат чему-то стоящему. Пусть это были пластыри, упрощенные и зачастую грубые, но каждый из них приближал нас к видению целого мира, обнаженного для того, чтобы машины могли его увидеть, а вскоре, я надеялся, и понять.

"Пенне?" спросил я.

"Очень хорошо!" восхищенно ответил Сильвио, ставя передо мной еще дымящуюся миску с макаронами.

"Но подождите, а что у нас было на прошлой неделе? Он тоже был в форме трубки, но больше, и края не были обрезаны по диагонали".

"Это были ригатони".

"Точно! Да! "Ригатони". Мне тоже понравилось".

"Вы спрашиваете, потому что на самом деле интересуетесь кухней моей страны? Или потому, что вам интересно, достаточно ли в ImageNet видов макарон?"

Я откусила кусочек, чтобы отложить ответ на вопрос, пока он садился и скрещивал руки, явно гордясь своими детективными навыками.

"Это не может быть и то, и другое?" наконец ответила я.

Прошел год работы над ImageNet, и мне казалось, что мы достигли своего успеха. Благодаря работе нашей команды по маркировке и бесконечным усилиям Цзя по оптимизации процесса, я был уверен, что мы, по крайней мере, достигли цели. Мне было интересно, как у нас идут дела, и, как это часто бывает, Цзя понял, о чем я думаю.

"Интересно, сколько времени теперь потребуется для завершения работы над ImageNet? Я пересчитал нашу смету".

Я как раз собиралась спросить. Взволнованная, я поспешила к его столу.

"Итак, принимая во внимание все: все наши оптимизации, короткие пути, плюс изображения, которые мы уже пометили, нам удалось сократить это девятнадцатилетнее ETA до..."

У меня вдруг сдали нервы. Это будет плохо. Я чувствовал это.

"... около восемнадцати лет".

Цзя обладал многими талантами, но смягчение удара от плохих новостей не входило в их число. Впервые за долгое время я не знал, что делать дальше.

Отчаяние вдохновляет на барочную креативность, и по мере того как безрадостность ситуации становилось все труднее игнорировать, мы запустили всю гамму сомнительных идей, включая даже помощь нашим человеческим маркировщикам с помощью... машин. Разумеется, это было связано с круговыми рассуждениями - если бы алгоритмы были способны распознавать объекты достаточно точно, чтобы помочь нам их маркировать, то нам бы вообще не понадобилась сеть ImageNet. Тем не менее мы задались вопросом, можно ли получить какое-то преимущество, позволив им играть второстепенную роль - например, использовать технику одномоментного обучения, которую я разработал вместе с Пьетро, для грубого, но быстрого маркирования больших партий изображений, позволяя нашей человеческой команде больше работать в качестве редакторов или корректоров. В этом был какой-то извращенный, хотя и спорный смысл, но мы так и не смогли найти правильный баланс.

Что еще важнее, реальный аргумент против автоматизации процесса маркировки был не технологическим, а философским. Мы понимали, что даже тонкое алгоритмическое сокращение будет противоречить миссии ImageNet. Наша цель заключалась в том, чтобы вложить в каждое изображение беспристрастное человеческое восприятие в надежде, что модель компьютерного зрения, обученная на полном наборе, будет наделена аналогичной искрой проницательности. Влияние машин грозило размыть эту цель.

Если узким местом были люди, и не было способа уменьшить их участие еще больше, чем мы уже сделали, то единственным оставшимся вариантом была грубая сила: расширить команду маркировщиков настолько, чтобы перенести время прибытия с почти двух десятилетий на гораздо более близкий срок . Увеличение в десять раз могло бы сделать это - учитывая уже проделанную работу, мы могли бы достичь этого всего за полтора года. Но средств на это просто не было. Неприятно было думать, что после стольких эмоциональных вложений все сведется к вопросу о деньгах.

"Хммм", - сказал я, откинувшись на спинку кресла и уставившись в потолок лаборатории. Мне пришла в голову одна мысль. Странная.

"Что?" Цзя поднял взгляд от своего рабочего места.

"Не знаю. Ну, может быть. У меня есть одна идея, как собрать дополнительные средства. Это будет скромно, но хоть что-то. Это абсолютно крайняя мера".

"Я слушаю, - ответил Цзя, наклонившись.

Я еще глубже опустился в кресло и медленно выдохнул. Я не мог поверить в то, что собирался сказать.

"Как много вы знаете о химчистке?"

Откинув козырек, я прищурился на заходящее солнце. На скорости семьдесят миль в час зрение становится более размытым, но не менее насыщенным. Справа от нас пролетали светоотражающие столбики и мильные указатели, окруженные трещинами в асфальте, каменными обломками и случайными пластиковыми бутылками или скомканными пакетами из-под фастфуда. Мимо проносились всевозможные знаки, напоминающие об ограничении скорости, сообщающие о приближении к выезду или о том, что местное отделение унитарианской церкви обязано содержать в порядке следующую милю дороги. Номерные знаки и наклейки на бамперах. Собака, едущая с ружьем.

Мы ехали в Миннеаполис, где проходила конференция CVPR 2007 - конференция по компьютерному зрению и распознаванию образов. ImageNet была на грани краха, а наши денежные запасы сокращались, но ходили слухи, что мир за пределами нашей лаборатории все еще существует - и это было лето. Конференция казалась идеальным поводом для побега, и я с нетерпением ждал двенадцати сотен миль блаженной монотонной езды, которые я мог бы провести, думая о чем угодно - о чем угодно, - кроме нашей работы . Я арендовал фургон и заполнил его несколькими студентами из лаборатории. В течение следующих нескольких дней единственными нашими заботами были еда в закусочной, перерывы на туалет и споры по поводу радиостанции.

К сожалению, невозможно было отключить ту часть меня, которая была одержима визуальным миром. Мы ехали через лес, и я гадала, какие породы деревьев мы проезжаем. Клен? Ясень? Береза? Мы видели города колледжей, такие как Мэдисон, с их неоновыми вывесками и оживленными тротуарами. На скамейке лежал студент в солнечных очках. Трио с акустической гитарой, бас-гитарой и губной гармошкой выступало на улице. Мы проезжали через шумные города, их небоскребы возвышались над нами, отражая геометрические формы. Мы наблюдали, как солнце сверкает на воде, когда ехали вдоль одного из Великих озер - Эри или, может быть, Мичигана. Волны бились о берег. Дети гоняются за приливом и отливом. Пара бросает фрисби.

Я снова вспомнил своего отца, как часто бывало в эти дни, когда он бродил от одной витрины гаражной распродажи к другой, рассматривая подержанную хлебопечку или видеомагнитофон, его увлеченность была неутомимой, а радость - заразительной. Я подумал, не было ли у меня такого же выражения лица.

В жизни так много интересного, подумал я. И многое из этого можно узнать через глаза. Я чувствовал это нутром и сердцем. Возможно, ImageNet была обречена, но ее цель была не менее достойной. Рано или поздно кто-нибудь взломает ее. И когда это произойдет - когда весь наш мир вольется в сознание наших машин, со всеми его красками, хаосом и обыденной магией, - все изменится.

"Фей-Фей, теперь, когда у тебя есть своя лаборатория, над чем ты работаешь в эти дни?"

Это был вопрос, которого я боялся, но он исходил от Джитендры - советника Пьетро и моего "академического дедушки" - человека, с которым я больше всего надеялся встретиться. Прошли годы с тех пор, как мы общались лично, и я знал, что он будет на таком мероприятии, как CVPR. В условиях, когда ImageNet не работает, а мое будущее как ученого туманно как никогда, мне нужно было увидеть знакомое лицо. Это был не первый раз, когда он поднимал мне настроение в таком месте.

"Честно говоря, Джитендра, это немного болезненная тема".

"О-о..."

Я все ему рассказала. Мой разговор с Кристианом. О том, как я впервые увидел WordNet. О решениях, которые мы с Джией принимали, каждое из которых было более опасным, чем предыдущее. И о том, как мы целый год боролись за то, чтобы воплотить в жизнь нечто невозможное.

"Ух ты. Это... неплохая история", - ответил он нехарактерно отстраненным тоном. Если у него и было какое-то мнение по поводу услышанного, то он держал его при себе.

"Да. И самое ужасное, что все это сводится к проблеме логистики, а не науки. Я как никогда уверен, что ImageNet - это именно то, что нужно компьютерному зрению, если бы мы только могли закончить эту чертову штуку".

"Ну, Фей-Фей... - начал он, тщательно подбирая слова. "Все согласны, что данные, конечно, играют свою роль, но..."

Он сделал небольшую паузу, а затем продолжил. "Честно говоря, я думаю, что вы зашли слишком далеко".

Я сделала неглубокий вдох.

"Фокус науки в том, чтобы расти вместе со своей областью. Не прыгать так далеко вперед".

Я этого не ожидал. Слышать, как Джитендра присоединяется к хору недоброжелателей, было ударом, и не только на личном уровне: когда наступит день, когда я буду собирать рекомендательные письма для получения постоянной должности - все более сомнительная перспектива, когда над моей головой висит такой грандиозный провал, - среди них будет и его. По многим причинам его мнение имело значение.

Я почти видел, как тускнеет моя Полярная звезда, а мой путь снова погружается во тьму. Меня начала одолевать пугающая мысль: я рисковал больше, чем осознавал, и теперь уже слишком поздно поворачивать назад.

Я не был уверен, что делать с ImageNet в месяцы после CVPR. Было много поводов для беспокойства, но мои мысли постоянно возвращались к Цзя. Он пришел в мир компьютерного зрения талантливым, но наивным, и доверил мне направлять его. Теперь я чувствовал, как растет его разочарование - вполне обоснованное, - и понимал, что он беспокоится о своем собственном пути к докторской степени. После всех трудностей, с которыми я столкнулся в аспирантуре, мысль о том, что я могу сбить с пути собственного студента, не могла не вывести меня из равновесия.

Конечно, научная боль была не менее мучительной. Когда позади уже было такое долгое путешествие, я не мог смириться с мыслью, что мои инстинкты направили меня так неправильно. Мы вдруг оказались без руля, дрейфуя на черных волнах под пустым небом.

Но это был еще не конец.

"Простите, Фей-Фей?"

Я опаздывал на встречу с преподавателями, когда передо мной появился Мин, студент магистратуры. Он понял, что я тороплюсь, но выглядел настойчивым, даже суетливым, когда говорил.

"Привет, у вас есть минутка?"

Он не стал дожидаться ответа. Я знал его достаточно хорошо, чтобы понять, что он обычно немногословен. У него явно было что-то важное на уме.

"Я вчера общался с Цзя, - продолжил он, - и он рассказал мне о ваших проблемах с этим проектом маркировки. Думаю, у меня есть идея, которую вы еще не пробовали, - например, та, которая действительно может ускорить процесс".

Я тут же забыл о своей поспешности, когда мои уши навострились. У Цзя есть светская жизнь?

"Вы слышали о краудсорсинге?" - спросил он.

Он объяснил, что онлайн-платформы оказываются полезными для организации удаленной, разовой рабочей силы, которая может варьироваться от индивидуальных исполнителей до многомиллионных команд, автоматизируя процесс распределения задач и сбора результатов. "Если вам интересно, Amazon предлагает такую услугу. Она называется Mechanical Turk".

Это было умное название, взятое от оригинального Механического Турка, шахматного автомата XVIII века, который в течение многих лет гастролировал по миру как чудо инженерной мысли и грозный соперник даже для опытных игроков. На самом деле устройство было мистификацией: в его основании был спрятан человек - шахматный мастер, который управлял машиной к восторгу и недоумению зрителей.

Спустя столетия зарождающаяся практика краудсорсинга была основана на той же идее: по-настоящему интеллектуальная автоматизация по-прежнему лучше всего выполняется людьми. Amazon Mechanical Turk, или AMT, построил рынок вокруг этой концепции, позволяя "заказчикам" размещать объявления о "задачах человеческого интеллекта", которые должны были выполнить участники, известные как "туркеры", и которые могли находиться в любой точке мира. Теоретически это имело смысл и, казалось, обещало все, что мы хотели: интеллект человеческой маркировки, но со скоростью и масштабом, сравнимыми с автоматизацией. Забавно - и весьма проницательно - Amazon назвал это "искусственным искусственным интеллектом".

Я помчался по коридорам, чтобы найти Цзя, хотя его энтузиазм не совпадал с моим. После стольких неудач у него были веские причины опасаться еще одного выстрела в темноту. Но после всего, что нам пришлось пережить, он понял, что это действительно может стать тем самым спасательным кругом, которого мы так долго ждали. С равномерной смесью колебаний и облегчения он наконец согласился: AMT стоит того, чтобы сделать еще одну попытку.

Моя Северная звезда снова засияла, и я в очередной раз поразился своевременности. Сама возможность существования ImageNet была обусловлена множеством сходящихся технологических нитей: Интернетом, цифровыми камерами и поисковыми системами. А теперь краудсорсинг, обеспечиваемый платформой, которая едва существовала годом ранее, стал завершающим этапом. Если мне когда-либо требовалось напоминание о том, что стандартной позицией любого ученого должно быть абсолютное смирение - понимание того, что ничей интеллект и вполовину не так могущественен, как случайность, - то это было именно оно.

AMT изменил все. Он превратил наш штат студентов, занимавшихся маркировкой, в международную команду из десятков, потом сотен, потом тысяч человек. По мере расширения нашей поддержки расчетное время выполнения работы Цзя резко сократилось - до пятнадцати лет, затем до десяти, затем до пяти, затем до двух и, наконец, до чуть менее года. И это представило наш бюджет в совершенно новом свете, перевернув экономические расчеты ImageNet. Сумма в долларах, которая когда-то была крайне недостаточной для создания достаточно большой команды маркировщиков под одной крышей, теперь могла быть эффективно потрачена на краудсорсинговую команду, разбросанную по всему миру и связанную через Интернет.

В процессе работы я все больше опирался на свой опыт в области экспериментальной психологии, чтобы помочь Цзя создать систему, которая идеально использовала бы время и внимание наших работников, сводя к минимуму вероятность того, что они будут введены в заблуждение, запутаются или поддадутся искушению обмануть систему. Временами AMT напоминала эксперименты по психофизике человека, которые мы с Кристофом проводили в Калтехе, - попытку извлечь из восприятия незнакомца какую-то тонкую, но важную информацию, - раздутую до глобальных масштабов. В некотором смысле это было проще: вместо того чтобы читать мысли, мне просто нужно было наклеить правильный ярлык на изображение из нашей коллекции массовых загрузок. Но в то же время это было гораздо сложнее: какой бы простой ни казалась маркировка изображения, в конечном итоге она подразумевает точный выбор нужной категории из заранее определенного списка, состоящего из десятков тысяч.

Однако не все проблемы были технологическими. Были и человеческие проблемы, например, опасения, что краудсорсинг может быть эксплуатацией. Хотя эта возможность стала предметом широкого обсуждения лишь много лет спустя, даже тогда было трудно избежать этой мысли. Это побуждало нас платить за каждое изображение столько, сколько позволяли средства, - решение облегчалось тем, что ImageNet был чисто научным проектом, не требующим учета прибыли.

Исследование этого вопроса тоже порадовало, по крайней мере, в то время. Демография AMT 2007 года показала, что большинство участников рассматривают сервис как хобби или побочный заработок, а не как попытку заработать на жизнь. Конечно, с развитием гиг-экономики за прошедшие годы картина значительно усложнилась. Сегодня трудно отделить мощь больших данных от их человеческой стоимости.

И так продолжалось до бесконечности, каждый день маркировались тысячи и тысячи новых изображений. На пике развития ImageNet мы были среди крупнейших работодателей на платформе AMT, и наши ежемесячные счета за услуги отражали это. Это было дорого, но это работало.

Однако на этом наши проблемы с бюджетом не закончились. Каким бы доступным ни был AMT, ImageNet был настолько велик, что вскоре мы снова оказались не в своей тарелке. В самом строгом смысле мы знали, что можем позволить себе закончить работу, но мы не могли исключить возможность сопутствующего ущерба. Возможно, ImageNet был нашим самым крупным и дорогостоящим проектом, но далеко не единственным; мы продолжали исследовать и алгоритмы: аспиранты и постдоки изучали новые методы распознавания объектов на фотографиях и даже идентификации человеческих движений на видео. Каждому исследователю полагалась стипендия на жизнь, которую мы предоставляли наряду с подушкой безопасности на "черный день", которую должна иметь каждая лаборатория. ImageNet был близок к завершению, как никогда раньше, но в процессе работы он подталкивал к краю пропасти все остальное.

После еще двух лет, проведенных на острие финансового ножа - мучительного отрезка времени, когда даже незначительная неровность на дороге могла окончательно нас потопить, - ImageNet наконец-то превратился в исследовательский инструмент, который мы с Цзя всегда себе представляли. Естественно, наша лаборатория первой начала использовать его, и мы все были воодушевлены его влиянием даже в незавершенном состоянии. Когда работа была близка к завершению, нам больше не нужно было использовать свое воображение; впервые для всех стало очевидно, что мы создаем нечто, чем стоит поделиться с миром.

Это был период необычной стабильности и вне моей работы. Здоровье моей матери, как и ожидалось, продолжало ухудшаться, но ее уход из химчистки избавил нас от тех душераздирающих кризисов, которые мы все привыкли предвидеть. Она даже взяла на вооружение несколько хобби, особенно увлекшись фотографией. Мой отец тоже стал вести более активный образ жизни, впервые за долгие годы освободившись от необходимости готовить ради простого удовольствия. Расстояние, разделявшее меня и Сильвио, по-прежнему раздражало, но наши попеременные поездки между Энн-Арбором и Принстоном были отточены до рефлекса. Маршрут Сильвио ко мне был настолько постоянным, что пилоты стали его узнавать.

Я также начал периодически ездить в район залива Сан-Франциско, чтобы посетить группу пионеров машинного обучения и компьютерного зрения, включая Эндрю Нг, Дафну Коллер и Себастьяна Труна, работающих в Стэнфорде. Встречи начинались с дружеского обмена идеями, включая несколько позитивных разговоров об ImageNet - одних из немногих, которые мне довелось вести. Однако, как и в Принстоне за несколько лет до этого, диалог вскоре приобрел более официальный тон. Наконец, мне позвонил Билл Дэлли, заведующий кафедрой информатики, и все стало официально. Он поинтересовался, не хочу ли я перевести свою лабораторию в Калифорнию.

После менее чем трехлетнего пребывания на преподавательской должности в Принстоне переход на другую работу казался немыслимым. Но я никогда не сталкивался с университетом, подобным Стэнфорду, или местом, подобным Кремниевой долине. Выросший в иммигрантском районе Нью-Джерси и проведший все последующие годы в академической среде, я мало что знал о мире бизнеса, кроме китайских ресторанов и химчисток. Стэнфорд, напротив, находился в самом сердце технологической индустрии, где идеи, которые мы исследовали, воплощались в жизнь. Хотя это был не тот мир, в который я стремился попасть сам, я был впечатлен масштабами влияния Стэнфорда на него: такие компании, как Hewlett-Packard, Cisco Systems, Sun Microsystems, Google и многие другие, берут свое начало в этой школе. Все, с кем я встречался, казались лично вдохновленными возможностью затронуть реальные человеческие жизни.

Тем не менее, идея переехать туда вызывала у меня противоречивые чувства. Принстон, как никакое другое учебное заведение, сделал возможной мою карьеру. Он изменил мою жизнь одним днем, предоставив пакет финансовой помощи, когда я был старшеклассником, от воспоминаний о котором у меня до сих пор мурашки по коже, а затем дал второй шанс мне, еще не проявившему себя доценту, снабдив меня моей первой лабораторией и первым докторантом, а также окружив меня коллегами, которых я полюбил и стал уважать.

Нужно было учитывать и людей, причем больше, чем раньше. Потребности моих родителей толкали меня в одну сторону, поскольку жизнь в Пасадене показала, насколько мягче погода Западного побережья для моей матери. Но мысли о Сабеллах тянули меня в другую сторону: они больше не были моей "американской" семьей, а просто моей семьей, без всяких оговорок, и мысль о том, что между нами снова будут тысячи миль - возможно, на этот раз навсегда, - уязвляла. Где-то между ними находился Сильвио. В любом случае он останется в Мичигане, но мой переезд в Калифорнию сделает наши отношения на расстоянии еще более долгими.

Однако мне, как ученому, было гораздо проще принять решение. Я был частью молодой, быстро развивающейся области, способной изменить мир, возможно, уже в течение моей жизни, и люди, которых я встретил в Стэнфорде, верили в это так же искренне, как и я. Принстон казался мне домом, но я не мог отрицать, что Стэнфорд представлялся мне еще более гостеприимным местом для моих исследований. На самом деле, чем больше я думал об этом, тем больше беспокоился, что такое место, как "дом", может оказаться слишком комфортным для таких времен. Переезд в новое место привлекал меня именно потому, что в нем не было комфорта. В нем чувствовалась неопределенность, возможно, даже риск, а мне это было необходимо.

И вот в 2009 году я снова принял решение отправиться на запад, а Цзя и большинство моих студентов перевелись вместе со мной. Мы приехали, чтобы найти новый академический дом на обширном кампусе - достаточно большом, чтобы превзойти Принстон и Калтех вместе взятые, - выполненном в захватывающем архитектурном стиле песчаника, арок и велосипедных дорожек, который почти круглый год печется на солнце. И под всем этим лежали исторически глубокие корни мира, о котором в то время редко говорили, но который был ближе к моей работе, чем даже я еще не успел в полной мере оценить. Больше, чем машинное обучение. Больше, чем компьютерное зрение. Почти забытая область, которая когда-то объединяла их обоих, а также многие другие миры, называлась "искусственный интеллект".

Среди многих людей, с которыми я познакомился, став новым членом Стэнфордского факультета, был Джон Этчеменди, который в то время занимал пост проректора университета. К тому времени я уже был знаком со многими администраторами, но мне сразу стало ясно, что Джон был в своем классе. Он был философом и логиком, который до прихода в администрацию десятилетиями работал профессором, читая лекции на такие темы, как семиотика, логическая истина и философия языка. Как бы умен он ни был - а он, казалось, излучал интеллект, даже не пытаясь этого делать, - он был дружелюбным и хорошим слушателем. И у меня сжалось сердце, когда он вскользь упомянул Джона Маккарти, одного из отцов-основателей ИИ и одного из главных организаторов летнего проекта в Дартмуте, который дал название этой области.

"Знаете, Джон был моим другом, - сказал он.

Я не был уверен, что было более сюрреалистичным: то, что мой новый проректор был лично знаком с такой легендой, или то, что он упомянул об этом так беспечно. В любом случае мне было ясно, что я пришла в нужное место.

К июню 2009 года, во многом благодаря вливанию новых средств на исследования, предоставленных Стэнфордом, первая версия ImageNet была завершена. Несмотря на многочисленные трудности, с которыми мы столкнулись на этом пути, мы действительно сделали это: пятнадцать миллионов изображений, распределенных по двадцати двум тысячам различных категорий, отобранных из почти миллиарда кандидатов в общей сложности и аннотированных глобальной командой из более чем сорока восьми тысяч участников из 167 стран. Это был масштаб и разнообразие, о котором мы мечтали долгие годы, и при этом сохранялся неизменный уровень точности: каждое отдельное изображение не просто маркировалось вручную, а выстраивалось в иерархию и проверялось в трех экземплярах.

С количественной точки зрения мы достигли своей цели, создав на тот момент самый большой набор данных, собранных вручную, в истории ИИ. Но за цифрами скрывалось достижение, которое тронуло меня больше всего: реализация настоящей онтологии мира, как концептуальной, так и визуальной, созданной с нуля людьми для единственной цели - обучения машин.

CVPR 2009 проходила в Майами, и мы прибыли туда не только как участники, но и как докладчики. Город , с его душной жарой и перенасыщенными красками, оправдал свою репутацию с первых же шагов после получения багажа - это было пестрое пятно неоновых купальников, полированных спортивных автомобилей и высотных зданий на фоне природных голубых и зеленых оттенков, скрепленных настойчивой текстурой ритмичных звуков. Энергия окружающей нас обстановки отражала наше собственное нетерпение: после почти трех бурных лет мы с Цзя умирали от желания показать ImageNet миру.

Мы были более чем готовы. Необычайно долгий срок беременности проекта дал нам достаточно времени, чтобы отточить умение обсуждать его, и нам не терпелось применить этот навык на практике. После того как мы так долго жили с поляризующим эффектом даже упоминания о нашей работе, мы были готовы ожидать любопытства, замешательства и конфронтации в равной степени. Мы подготовились соответствующим образом, отрепетировав бесстрастную защиту ее целей, а также наши лучшие ответы на распространенные критические замечания. И хотя мы уже чувствовали себя громоотводами, мы решили, что в полной мере воспользуемся своей известностью, немного растратив последние доллары бюджета проекта.

"Что это?" спросил Цзя, когда я протянул ему белую картонную коробку.

"Откройте!" сказал я.

Он открыл заслонку, закрывающую крышку, и заглянул внутрь.

"А... ручки?"

"Ручки с логотипом ImageNet! Я нашел в интернете место, где это делают".

"В смысле, выглядят они, конечно, круто, но для чего они нужны?"

"Мы можем раздавать их на конференции! Так делают все технологические компании. Ну, знаете, товар. Нам нужно, чтобы люди нас запомнили".

Выражение лица Цзя стало еще более мрачным, чем обычно. Но я не сдавался.

Мы прибыли с уверенностью, на которую только может рассчитывать переутомленная команда ботаников, но настроение с самого начала было странным. Наша первая неудача оказалась и самой значительной: ImageNet отнесли к постерной сессии. На академическом жаргоне это означало, что мы не будем представлять свою работу в лекционном зале перед аудиторией в заранее оговоренное время, а вместо этого нам предоставят место на полу конференции, чтобы повесить широкоформатную печать с кратким описанием проекта - отсюда и "постерная" сессия - в надежде, что прохожие будут останавливаться и задавать вопросы. Конечно, нам, , повезло, что нас вообще включили в число участников, ведь даже это - редкая привилегия на мероприятии такого уровня, как CVPR. Но мы жаждали возможности рассказать о нашем видении больше, чем просто вкратце. После стольких лет усилий это выглядело просто антиклимаксом.

Мы задавали обычные вопросы и наслаждались горсткой приятных бесед, но ушли, не получив практически никаких доказательств своего присутствия. Вскоре стало ясно, что что бы ни ждало ImageNet - примут ли его как ресурс необычайного богатства или сочтут глупостью - на CVPR он не получит поддержки. С другой стороны, людям, похоже, понравились ручки.

Тем временем, пока я привыкал к жизни без вызова ImageNet, сомнения, которые я отказывался признавать в течение многих лет, стали реальнее, чем когда-либо. Неужели скептики были правы? Действительно ли все это было пустой тратой времени? ImageNet был не просто набором данных или даже иерархией визуальных категорий. Это была гипотеза - ставка, вдохновленная нашим собственным биологическим происхождением, - что первым шагом к раскрытию истинного машинного интеллекта станет погружение в полноту визуального мира. Что опыт, соизмеримый с хаосом и сложностью, которые сформировали нашу собственную эволюцию, может оказать аналогичное воздействие на наши алгоритмы. И я был готов к тому, что эта ставка окажется верной, равно как и к тому, что она окажется неверной. В любом случае это будет возможность чему-то научиться. Но я не ожидал, что это будет проигнорировано.

Что я упустил?

Глава 8. Эксперименты


В Киото наступила осень. Полдень был ярким и служил прочным фоном для пульсирующих вспышек зеленого, оранжевого и красного цветов, проносящихся мимо, как живой портрет в окнах поезда-пули. Даже на скорости двести миль в час сельская местность была пышной и великолепной, но, как это часто случалось в моей жизни, я был слишком отвлечен, чтобы оценить ее по достоинству. Это было долгое, утомительное путешествие со всеми сопутствующими тревогами, и месяцы, прошедшие после разочаровывающего дебюта ImageNet на третьем уровне на CVPR, были обескураживающими. Наши критики оставались пренебрежительными, а интерес со стороны других исследовательских лабораторий был скудным. Сползание ImageNet к безвестности стало казаться настолько неизбежным, что я прибег к импровизированному университетскому турне, чтобы противостоять этому, выступая с живыми презентациями везде, где только мог, в аудиториях, заполненных скептически настроенными аспирантами и постдоками. Это было не так уж много, но даже отсрочка неизбежного казалась маленькой победой.

Теперь появилась следующая возможность повысить нашу значимость: Международная конференция по компьютерному зрению, или ICCV, в Киото. Моим попутчиком на этот день был Алекс Берг, доцент университета SUNY Stony Brook и единомышленник в области компьютерного зрения. Алекс был особенно талантливым аспирантом у Джитендры, исследуя проблемы распознавания объектов в духе, схожем с моей работой с Пьетро, а использование им Caltech 101 в своей докторской диссертации сделало его не только естественным ценителем силы наборов данных, но и одним из немногих сторонников ImageNet. Хотя было приятно пообщаться с единомышленником, это лишь подчеркнуло, насколько сложным будет предстоящий путь.

Все это контрастировало с тем волнением, которое мы испытывали в моей лаборатории, недавно переехавшей в Стэнфорд. У нас под рукой был не просто набор данных, а испытательный стенд, на котором наши идеи столкнулись лицом к лицу со всем визуальным миром - наши алгоритмы получили более широкие возможности восприятия, чем они имели раньше, и были проверены с большей строгостью, чем они когда-либо сталкивались. Если наборы данных изображений можно рассматривать как язык исследования компьютерного зрения - набор концепций, которые алгоритм и его разработчики могут изучать, то ImageNet стал внезапным, взрывным ростом нашего словарного запаса.

Все, что мы делали в лаборатории, было наполнено энергией. В одном случае мы использовали ImageNet для быстрого обучения сотен экземпляров алгоритма классификации изображений для распознавания коллекции повседневных вещей, а затем запустили их одновременно на одной фотографии. Вместо того чтобы просто определять наличие отдельных предметов, в эксперименте искали комбинации объектов, которые что-то говорили обо всей сцене. Например, если детекторы замечали человека, лодку, весло и воду, они классифицировали фотографию в целом как изображение "гребли" - более глубокий уровень понимания, который, возможно, граничит с примитивным видом визуального мышления.

Как и во многих других экспериментах той эпохи, точность используемых нами алгоритмов была нестабильной, и многое еще предстояло сделать - ведь даже простое распознавание изображений еще только зарождалось, - но эти неровности только усиливали дух приключений, охвативший нас. Наша работа казалась смелой и перспективной, нерафинированной, но провокационной. Многое в ней было концептуально простым. Но только после появления ImageNet это стало возможным.

Тем временем Цзя вступал в свои права как ученый. Через год или около того после выхода ImageNet он опубликовал работу под названием "Что нам говорит классификация более 10 000 категорий изображений?", в которой он размышлял о том, как фундаментально меняется распознавание изображений в присутствии ImageNet. Несмотря на то, что это была в основном техническая работа, в ней присутствовал философский подтекст, который отличал ее от типичной академической статьи. В ней чувствовалось пророчество, даже экзистенциальность. Его тезис заключался в том, что ImageNet представляет собой не просто увеличение масштаба, а категориальный сдвиг - то, что физики могли бы назвать "фазовым переходом", при котором меняются даже самые основные свойства явления. Он значительно расширяет диапазон возможностей, с которыми могут столкнуться наши алгоритмы, и ставит перед ними задачи, которые не решали меньшие наборы данных.

Говоря более техническим языком, "семантическое пространство" ImageNet расширялось, становясь все более плотным, и все меньше пространства для дыхания отделяло правильные ответы от неправильных. С практической точки зрения это часто означало, что методы, которые хорошо работали при различении небольшого числа широко варьирующихся категорий, плохо работали при работе с десятью тысячами категорий ImageNet, многие из которых можно было отличить только по тонким различиям. Некоторые методы и вовсе ломались. Это был унизительный, но в конечном счете обнадеживающий знак того, что завтрашние алгоритмы будут не просто более эффективными версиями сегодняшних, но и принципиально другими, причем так, как мы и не предполагали.

Знаете, что мне больше всего понравилось в "Калтехе 101"? Слова Алекса вернули меня в тот момент. "Это были не только учебные данные. Это была возможность сравнить результаты моих собственных исследований с вашими, используя те же самые изображения. Яблоки к яблокам".

"Ориентир", - ответил я.

"Именно так. Это позволило легко измерить прогресс. А что может быть более вдохновляющим для исследователя? Это как вызов. Смелость".

Смелость. Мне это нравилось.

"Хорошо, а что если сделать то же самое с ImageNet?" спросил я, все еще размышляя вслух. "А еще лучше, что если мы организуем целый конкурс вокруг этого?"

"Что-то вроде PASCAL, вы имеете в виду?"

Набор данных PASCAL Visual Object Classes, известный как PASCAL VOC, представлял собой коллекцию из примерно десяти тысяч изображений, разбитых на двадцать категорий. Собранный группой исследователей в Европе, он был похож на Caltech 101, но с существенным отличием: он послужил основой для конкурса компьютерного зрения, который проводится ежегодно с 2005 года. Каждый год участники со всего мира представляли алгоритмы, обученные на наборе данных, которые затем подвергались воздействию нового набора ранее не виденных изображений и ранжировались по точности их классификации. Победителем объявлялся алгоритм с наименьшим числом ошибок. Конкурс, в котором одновременно велось сотрудничество и соревнование, привлек внимание к последним достижениям в этой области. И все это с набором данных, лишь в тысячную долю меньшим, чем ImageNet.

"Вот это было бы интересно", - ответил Алекс. "Как это работает в ImageNet? Я могу представить, как исследователи задают друг другу именно такой вопрос о своей последней идее".

Северная звезда для поля, подумал я.

Если дух статьи Цзя верен и ImageNet действительно предвещает скорую перестановку палубы - новые правила, новые интуиции, может быть, даже совершенно новую парадигму, - что может быть лучше для ее изучения, чем конкурс? Коллективная сила сотрудничества, заряженная энергией конкуренции. Исследовательская, но принципиальная. Яростный. Даже после многих лет работы над созданием ImageNet простое представление этой идеи вдохнуло в нее новую жизнь.

Это также означало, что работа по распространению ImageNet в мире еще не закончена.

Подготовка к конкурсу началась сразу после моего возвращения в США, и на первый взгляд предпосылка казалась простой: взять набор алгоритмов, обученных на ImageNet, протестировать их на наборе никогда ранее не виденных изображений, оценить их ответы и проранжировать их по количеству допущенных ошибок. Победит тот, у кого будет наименьший суммарный коэффициент ошибок. Однако на практике превращение набора данных в соревнование - это сложная научная задача.

В таких играх, как шахматы, покер или баскетбол, понятие победы просто и самоочевидно. Однако объявление победителя в научном соревновании сродни принятию на себя обязательств: не только в том, что участник покажет хорошие результаты по каким-то показателям, но и в том, что его разработка внесет вклад в общее дело. Что она может научить нас чему-то новому, проницательному и, возможно, даже преобразующему. Что это следующий шаг к Полярной звезде. Это грандиозное заявление, и очень важно, чтобы оно было сделано с уверенностью.

Это делало строгость и прозрачность основополагающими, заставляя нас составлять обширную документацию, объясняющую, как именно будет анализироваться алгоритм и по каким формулам будет оцениваться его эффективность. Но гибкость тоже была достоинством. Ведь при попытке присвоить фотографии единый ярлык даже человек может не согласиться с тем, какой объект является наиболее значимым. Представьте себе, например, фотографию композиции из фруктов, на которой клубника и яблоко выделяются настолько, что любое из них можно считать центральным элементом. Будет ли "неправильным" обозначить на фотографии одно из них, но не другое?

Чтобы не объявить хорошо работающий алгоритм неправильным, каждому участнику разрешалось предоставить упорядоченный список из пяти меток - в данном случае для "клубники" и "яблока" - метрику оценки, которую мы стали называть "коэффициент ошибок топ-5". Это побуждало участников разумно подстраховывать свои ставки и гарантировало, что мы увидим самую широкую и справедливую картину их возможностей.

Как и при создании самого ImageNet, конкурс преподнес постоянный поток неожиданных проблем. Мы потратили несколько недель на обдумывание логистики предоставления набора данных участникам конкурса и в итоге решили распространить уменьшенное подмножество: примерно десятую часть всех изображений и двадцатую часть всех категорий, или около 1,4 миллиона отдельных фотографий, охватывающих тысячу повседневных объектов, растений и животных. Чтобы убедиться в том, что мы проводим новые тесты для алгоритмов, мы повторили большую часть процесса разработки ImageNet, загрузив и разметив сотни тысяч новых изображений, а также проведя еще один раунд краудсорсинга. В общей сложности на это ушли месяцы работы.

На этом пути усилия Цзя поддерживала растущая команда, в которую входили такие новички, как Ольга Руссаковски, умная, энергичная аспирантка, ищущая что-то интересное, за что можно было бы побороться. Она сразу же выделилась на фоне остальных: пронзительные глаза, вьющиеся волосы до плеч и увлекательный стиль речи. Она понравилась мне с первой же встречи, но особенно меня поразили тихие контрасты, которые определяли ее: хотя она была кипучей и ее легко было принять за коренную калифорнийку, на самом деле она родилась на Украине и часто говорила о бабушке, которая до сих пор живет в Харькове. Она уже была солидным выбором с интеллектуальной точки зрения, но при этом обладала социальной ловкостью, которая была редкостью на нашем факультете. Я мог сказать, что у нее достаточно интеллекта, чтобы внести свой вклад в проект за кулисами, но я начал задумываться, не сможет ли она когда-нибудь использовать свою природную смекалку, чтобы представлять его и на публике.

"Волнуешься?" спросила Ольга.

Так и было. Команда допоздна засиделась в лаборатории, чтобы завершить последние детали, готовясь к следующему дню, когда заработает сайт и будет объявлен наш конкурс.

"Скажите мне, - начал Цзя. "Какова ваша конечная цель здесь?"

Это был вопрос, на который я был более чем готов ответить, поскольку с самых мрачных дней проекта ImageNet я мало о чем еще думал. Учитывая всю проделанную нами работу, я считал, что думать об ImageNet просто как о наборе данных - это редуктивно. Даже сейчас - особенно сейчас, когда конкурс был уже совсем близко, - это была гипотеза. Это была ставка на то, что наша область больше всего нуждается в доступе к разнообразию и вариативности, на которых тысячелетиями воспитывалось человеческое восприятие.

Я был настроен оптимистично, полагая, что на столе лежит нечто вроде прорыва, но опасаясь, что путь к нему будет неблизким. Мы обсудили зверинец алгоритмов, которые сейчас в моде, и мою уверенность в том, что объем ImageNet окажется слишком требовательным, чтобы любой из них смог по-настоящему овладеть им. Векторные машины поддержки, случайные леса, бустинг, даже байесовская сеть, которую мы с Пьетро использовали в нашей статье об одномоментном обучении, прогнется под его весом, и нам придется изобретать что-то действительно новое.

"Я не думаю, что ImageNet сделает сегодняшние алгоритмы лучше", - сказал я. "Я думаю, он сделает их устаревшими".

Официально названный "ImageNet Large Scale Visual Recognition Challenge", этот конкурс был открыт для всех и обещал мгновенное распознавание победителям, а его инаугурационное мероприятие состоялось в 2010 году. Регистрация участников открылась в мае, результаты должны были быть подсчитаны к сентябрю, а победитель объявлен на сессии семинара ECCV - Европейской конференции по компьютерному зрению, которая должна была состояться в конце того же года на Крите. Исследовательскому сообществу казалось, что все прошло гладко. Но за кулисами потребовалась помощь со стороны.

Осознавая недостаток опыта, не говоря уже о все еще слабой узнаваемости ImageNet, мы обратились к Марку Эверингему, организатору-основателю PASCAL VOC. Оксфордский исследователь, Марк был восходящей звездой в мире компьютерного зрения и любезно разрешил ImageNet начать свою жизнь в качестве нового направления в рамках конкурса PASCAL VOC, который в то время проводился уже шестой год. Это было особенно любезное предложение, дававшее нам возможность освоиться в уже сложившихся рамках.

Учитывая относительную редкость конкурсов по компьютерному зрению в то время, создание нового конкурса произвело достаточный фурор, чтобы привлечь к себе внимание. Мы начали работу со 150 первыми регистрациями, которые вылились в тридцать пять заявок от одиннадцати команд. Это не было особенно многолюдным полем, но это было начало.

В каком-то смысле преддверие первого ImageNet Challenge было даже более волнующим, чем запуск самого ImageNet годом ранее. Тогда мы показывали миру то, что создали сами. Теперь мир будет показывать нам, что они создали с его помощью. Это было достойным продолжением биологического влияния, которое двигало всем проектом. В основе ImageNet лежала идея о том, что алгоритмы должны противостоять всей сложности и непредсказуемости окружающей их среды - природы реального мира. Соревнования привнесут в эту среду настоящее конкурентное давление.

Подобно нашим предкам-трилобитам, дрейфующим в древнем глобальном океане, алгоритмы компьютерного зрения современного мира вот-вот должны были попасть в свое собственное горнило. Присланные работы представляли собой первое поколение исследований, проведенных с помощью ImageNet, и мы держали их в руках. Я не мог не задаться вопросом: а вдруг это оно - вдруг мы вот-вот заглянем за новый рубеж?

Мы не были.

Победитель, представляющий совместную команду исследователей из NEC Labs, Rutgers и Университета Иллинойса, был примером машины опорных векторов, или SVM, - одного из алгоритмов, которые, как я предполагал, одолеют ImageNet. Ее довольно загадочное название - это ссылка на особенность геометрии высоких измерений, которую она использует, и символизирует ее абстрактную природу. В предыдущие годы SVM приобрели огромную популярность, и к 2010 году они стали считаться стандартом де-факто для распознавания объектов. Этот участник действительно показал достойные результаты, и мы высоко оценили усилия каждого из них. Но это было лишь небольшое улучшение по сравнению с передовыми работами в нашей области; вряд ли это можно назвать рассветом новой эры.

Это был момент разочарования, один из многих в истории ImageNet. Но если 2010 год был антиклиматическим, то 2011-й стал апокалиптическим. Победителем, на этот раз от исследовательского центра Xerox во Франции, стал другой SVM, и его производительность, хотя и улучшилась по сравнению с предыдущим годом, но номинально составила около 2 процентных пунктов.

Меня начало осенять, что я просчитался. Как я и предполагал, ImageNet оказался слишком сложным для большинства алгоритмов. Но SVM в оказался более надежным, чем я ему доверял, предлагая безопасную гавань для новичков и препятствуя агрессивным инновациям, о которых я мечтал. Два года подряд хорошо зарекомендовавшие себя алгоритмы демонстрировали лишь постепенный рост возможностей, в то время как настоящий прогресс, казалось, практически отсутствовал. Хуже всего то, что число участников уже падало, причем стремительно: за второй год регистрация сократилась со 150 до 96, а число самих заявок - с 35 до всего 15. Неудивительно, что все меньше и меньше людей считали, что усилия того стоят.

Сказать, что это было "унизительно", значит преуменьшить. Мы посвятили годы своей жизни набору данных, который на порядки превосходил все, что когда-либо существовало, организовали международное соревнование для изучения его возможностей и, несмотря на все это, добились не более чем простого подтверждения статус-кво. Если ImageNet был ставкой, то пора задуматься, не проиграли ли мы.

"Сильвио! Смотри! Я хотел показать тебе!"

В коридоре послышался голос отца, который с гордостью звал Сильвио посмотреть на свои последние достижения на гаражной распродаже. Его любимое хобби по-прежнему жило и процветало в Калифорнии, подкрепленное обилием пригородов и круглогодичной умеренной погодой. Он по-прежнему увлекался предметами, в которых был хоть намек на итальянское происхождение, и особенно гордился недавно приобретенным ремнем, на котором стояло его любимое клеймо: MADE IN ITALY. Мне было интересно, осознает ли он по прошествии стольких лет, что его дочь не только превзошла его с находкой итальянского производства, но и вышла за него замуж. И что сейчас он демонстрирует ей ремень.

"Ах", - услышал я ответ Сильвио. Я улыбнулась про себя. Одним словом он уже исчерпал все возможные варианты ответа.

Домом стал таунхаус в факультетском районе неподалеку от кампуса, и хотя это было вполне комфортное место, в котором мы с родителями были благодарны за то, что поселились в нем, опыт оказался раздробленным. Поскольку Сильвио и я так много времени проводили в гостях друг у друга, ни один из нас так и не смог сформировать свою местную идентичность. Перелеты через границу оставались частым явлением, отнимая столько времени на упаковку и распаковку вещей, координацию и поездки, прибытие и отъезд, что мы стали чувствовать себя скорее жителями неба, чем места на земле.

И все же под этой суетой скрывалось необычное спокойствие. Относительная стабильность моей матери сохранялась, и, несмотря на все трудности брака на расстоянии, визиты Сильвио способствовали ускорению его сближения с моими родителями. Конечно, он очаровывал их своей стряпней, когда гостил у нас, но они с удовольствием отвечали ему тем же. Они завели традицию готовить домашнюю китайскую еду, чтобы отпраздновать его первый вечер в городе, возрождая сложные композиции из риса, овощей, тушеного мяса, жареных в воке блюд и супов, которые я помнил по воскресным поездкам к бабушке и дедушке в Чэнду.

В свою очередь, большая часть разговора за ужином, который проходил в основном при моем посредничестве, единственном переводчике, была подстегнута его любопытством к тонкостям китайской кухни. Его восхищение было искренним - гораздо глубже, чем попытка дипломатии зятя, - и уважение было взаимным благодаря их приверженности к аутентичному сервису. Не было сделано ни одной попытки вестернизировать рецепты, и от этого он получал еще большее удовольствие. Это был обеденный стол, полностью населенный иммигрантами, но за которым, казалось, исчезали границы.

Все это было очень мило, пока длилось.

Всего через несколько месяцев я был обездвижен, невидимые якоря усталости пробивали пол и вгрызались в камень. Гири на ногах, гири на руках, гири на веках. Вместо того чтобы решить все проблемы наших отношений на расстоянии, мы с Сильвио приняли вполне рациональное решение усложнить их: мы создавали семью, и беременность стала для меня тяжелым ударом.

Третий триместр протекал особенно медленно, с обычным набором раздражителей, усугубляемых загадочными симптомами, которые беспокоили моих врачей настолько, что они запретили мне все путешествия до родов. Но мир не мог замедлиться. Студенты, исследования, преподаватели, постоянный вопрос ImageNet - все это символизировалось светящимся экраном и вечно вибрирующим телефоном - продолжало захлестывать меня.

Однако одно из этих колебаний показалось мне неуместным. Кто-то звонил в странный поздний час, и знакомое имя, обращенное ко мне, - Жан Сабелла - сбило меня с толку.

"Жан? Что случилось?"

Последовала короткая пауза. "Фей-Фей, Боб упал".

"Что? Что ты имеешь в виду? Он ранен?"

"Нет, нет, я имею в виду, что что-то действительно не так. Кажется, он не может сбалансировать. Он не... Он просто не в себе".

Это не было щелчком. Джин говорила так, словно описывала чьего-то деда, а не Боба. Конечно, он был еще слишком молод для таких вещей.

"Хорошо, вы отвезли его в больницу?"

"Я звоню именно оттуда. Они сделали быстрое сканирование мозга, и, послушайте, мы все еще ждем подробностей, но..." Она медленно вздохнула. "Фей-Фей, все выглядит не очень хорошо".

Я тяжело сглотнул и сел. Я попросила поговорить с ним. Когда она протянула ему телефон, ее голос на мгновение стал приглушенным. "Это Фей-Фей", - еле слышно сказала она.

"... Алло?"

Это не тон Боба.

"Боб? Джин сказала, что ты упал. Ты в порядке? Как ты себя чувствуешь?"

Он не дал мне желаемого заверения. Он говорил отстраненно и, казалось, с трудом выговаривал слова.

"Боб, - сказал я, мой голос становился все мягче по мере того, как до меня доходила серьезность ситуации, - ты хочешь, чтобы я вылетел туда? Я могу вылететь немедленно".

Пауза на линии подсказала мне, что это слишком сильный жест. Боб знал, что до срока родов оставались считанные месяцы. Он знал, что мне запретили путешествовать. Оба факта придали моему предложению серьезность, которую я не оценила, пока слова не сорвались с моих губ.

Тишина. Затем резкий вдох. Слабое, скребущееся и дрожащее. Это не может быть тем, что я подумала. Он... плачет? Боб никогда не плакал в моем присутствии. Я услышала взволнованное бормотание, и Джин вернулась к телефону.

"Что случилось? Фей-Фей, что ты ему сказала?!"

Последовали двадцать четыре рассеянных часа, пока я ждал ответа от Жана с новостями. И вот оно пришло.

Глиобластома. Терминальная стадия. Неоперабельная.

Боб умирал.

Ошеломленная, я начала обзванивать всех знакомых, отчаянно пытаясь найти кого-нибудь, кто мог бы помочь. Он спасал мою семью во время многочисленных проблем со здоровьем, и я была полна решимости сделать то же самое для него. Случайно контакт, который я завела в рамках программы стипендий, связал меня с отделением нейробиологии близлежащей университетской больницы. На следующий день его перевели в одно из самых современных отделений в штате.

Это был достойный жест по отношению к человеку, который так много для меня значил, но сделать было практически ничего нельзя. Состояние Боба ухудшалось с ужасающей быстротой, и уже через несколько дней после обнаружения опухоли он полностью потерял сознание. Врачи делали все возможное, но он так и не очнулся. Через три недели человека, который был для меня третьим родителем со школьной скамьи, членом моей семьи, кроме имени, не стало.

Горе охватило всех моих домашних. Мой отец разрыдался, едва услышав новость. Моя мать, сдержанная, как всегда, отреагировала с торжественностью. Но я знал, что они чувствуют то же самое. У них тоже была особая связь с "большим бородатым учителем математики", как они не переставали называть его на мандарине, и за годы совместной работы они помогли девочке-иммигрантке, склонной к одержимости, выжить в подростковом возрасте. Это затронуло даже Сильвио: он встречался с Бобом всего несколько раз, но уже успел понять его исключительную важность в моей жизни. К тому же семья Боба была родом из Неаполя, как и семья Сильвио. Зная, что я не смогу присутствовать на похоронах - а он боялся, что я буду жалеть об этом вечно, несмотря на предписания врача, - Сильвио бросил все дела, чтобы прилететь через всю страну и присутствовать на похоронах в мое отсутствие.

Я помнил радужные корешки книг, которыми были обклеены стены кабинета Боба в школе Парсиппани - "Математической лаборатории" - и то, как наши разговоры служили мне ежедневным убежищем. Я вспомнил, как он давал отцовские советы, начиная с того, как он без обиняков отругал меня за мои старания на экзамене, и заканчивая его советами по выбору комнаты, когда Калтех предложил мне жилье для выпускников, и как наши еженедельные телефонные разговоры прочертили непрерывную линию через всю мою жизнь. Я вспомнил, как он вытащил нашу семью из затруднительного положения, взяв кредит для химчистки. И я вспомнил свою последнюю поездку в Нью-Джерси на вечеринку по случаю выхода Боба на пенсию, менее чем за год до этого, и то, как трудно было сдержать свои эмоции, когда он встал, чтобы произнести речь, в которой не так тонко упоминалась гордость за "своих двух сыновей... и свою дочь".

Однако кое-что все же осталось. Боб так и не осуществил свою мечту о публикации в научно-фантастическом мире, но продолжал писать так много, что завел привычку в конце каждого месяца отправлять мне по электронной почте записи из своего личного дневника. Мы стали цифровыми друзьями по переписке, переписываясь в мельчайших подробностях, словно деятели ушедшей эпохи. Они стали последними остатками того человека, которого я знал: страницы и страницы его мыслей, от глубоких до прозаических, запечатленные в черно-белом варианте. По сей день они заставляют меня улыбаться, смеяться, а иногда и закатывать глаза. И они всегда заставляют меня задуматься. Я посвятил свою карьеру попыткам понять природу разума; среди величайших наград в моей жизни была возможность лучше узнать природу его разума.

Жизнь не подавала признаков замедления, но даже горе и тяжесть особенно неподвижной беременности не могли отвлечь меня от ImageNet. Это была тройка навязчивых мыслей, которые заставляли меня быть особенно благодарной за визиты Сильвио.

"Итак, - спросил он во время необычно тихого ужина, - что у тебя на уме? Это Боб?"

"О, Боб всегда рядом", - сказала я с тоскливой улыбкой. "Но это нечто большее".

"ImageNet?"

"Да. Не знаю, вся эта идея с конкурсом... Она действительно казалась логичным следующим шагом. Но прошло всего два года, а участие уже падает. Боже, неужели я просто ошибался во всем этом? Неужели все так просто? Ведь в этом и заключается суть гипотез, верно? Иногда они просто... ошибаются".

"Иногда, конечно".

Я подняла взгляд от своей тарелки.

"Но не в этот раз. Знаешь, есть причина, по которой я никогда не пытался отговорить тебя от этого, с того самого первого вечера, когда ты об этом заговорила. Не только потому, что ты моя жена. А потому, что я тоже верю в ImageNet! Может быть, она опередила свое время. Может быть, Джитендра был прав, и вы сделали слишком большой скачок. Но это не делает его неправильным".

Я улыбнулась. Он не решил мою проблему, но его слова меня порадовали.

"И кстати, - продолжил он, - я думаю, что ситуация меняется. Даже в моей собственной лаборатории, где мы работаем над совершенно другими проблемами зрения, знаете, о чем люди начинают говорить? О больших массивах данных. Большее разнообразие. Более широкая картина мира. Это еще одна особенность гипотез - иногда им требуется время, чтобы завоевать всех".

Даже самые теплые заверения Сильвио казались вполне обоснованными. Он был хорош в таких делах. Но надолго его не хватило бы. Наука имеет забавную особенность опровергать ожидания даже тех, кто к ней близок.

К августу 2012 года ImageNet окончательно утратил статус темы, не дающей мне спать по ночам. Я родила ребенка, и новая реальность, состоящая из кормления, подгузников и вечно прерывающегося сна, заняла место в моей жизни. Я планировала пропустить презентацию результатов ImageNet Challenge, на этот раз во Флоренции, Италия, пока мне не позвонила Цзя. Было необычно поздно, и первой моей мыслью было, что что-то не так.

"Алло?"

Он был очень оживлен, но не выглядел расстроенным. Скорее, это было похоже на волнение, хотя и смущенное. Для Цзя этого было достаточно, чтобы привлечь мое внимание.

"Итак... мы просматривали результаты конкурса этого года, и одна из работ просто... я имею в виду..."

Он колебался.

"Что? Что это?" спросил я.

"Хорошо. Ну, во-первых, они используют очень необычный алгоритм. Это нейронная сеть, если вы можете в это поверить".

Мои уши еще больше навострились. Если минуту назад я не была полностью сосредоточена на нем, то теперь точно была.

"Это как... древность".

Мне было смешно. Студент двадцать первого века, использующий слово "древний" для описания работы, выполненной на пару десятилетий раньше, свидетельствовал о том, насколько молода наша область. (Возможно, это также было свидетельством того, что я старею. Я предпочел проигнорировать эту возможность.) Но он не ошибался. Наш мир развивался быстро, и к 2010-м годам большинство из нас воспринимали нейронную сеть - этот биологически вдохновленный массив взаимосвязанных единиц принятия решений, расположенных в иерархической последовательности, - как пыльный артефакт, заключенный в стекло и защищенный бархатными веревками.

"Серьезно? Нейронная сеть?"

"Да. Но это еще не все. Фей-Фей, ты не поверишь, как хорошо работает эта штука".

Даже на взлетной полосе вид из иллюминатора самолета был бы кромешной тьмой, но из среднего ряда мало что можно было разглядеть за креслом передо мной. Не успеешь оглянуться, как окажешься во Флоренции, говорил я себе, прекрасно понимая, что это неправда. Бросив все дела ради участия в ECCV, я ввергла свою домашнюю жизнь в хаос, но новости Цзя не оставили мне выбора. И я вынуждена была признать, что в том, чтобы жить с родителями, когда младенец в последнюю минуту нуждается в няньке, есть немалая польза.

Помня по медовому месяцу с Сильвио, что прямого рейса из международного аэропорта Сан-Франциско в аэропорт Флоренции нет, я рылась в поисках маршрута, который быстрее всего доставит меня домой и обратно к малышу. С неохотой я согласилась на двадцатичасовой перелет, полный недосыпа и тесноты, с единственным запланированным перерывом в монотонности - остановкой в Париже, или Цюрихе, или каком-нибудь другом знаковом городе, который я буду в слишком сильном оцепенении, чтобы узнать из окна аэропорта. Но теперь пути назад не было. Двигатели взревели, когда мы втянулись в медленное такси. За этим синтетическим звуком последовало сообщение по громкой связи. Столики с подносами подняты. Пристегнуть ремни безопасности. Я хотел спать, но мысли не давали мне покоя.

Объектом моего пристального внимания была работа, которая пробила себе путь к вершине таблицы лидеров с поразительным 10-процентным отрывом от победителя предыдущего года, установив мировой рекорд точности в 85 процентов. По моим наблюдениям, точность среднего человека составляет порядка 97 процентов, и это при гораздо более простом бинарном выборе, например, изображено ли на фотографии животное. В отличие от этого, алгоритму приходилось перебирать тысячи вариантов, чтобы найти правильный ответ. Таким образом, хотя он и не был полностью на уровне человека, он был ближе, чем любой алгоритм, и с поразительным отрывом.

Гудок, а затем голос капитана. Мы находились на крейсерской высоте.

Пожалуй, самым поразительным в этой работе было то, как она сделала то, что сделала. Несмотря на десятилетия развития и широкий интерес к современным алгоритмам, таким как машины опорных векторов, которые побеждали в предыдущие два года, авторы решили воскресить нейронную сеть - и с ее помощью абсолютно разгромили конкурентов. Второе место было даже не близко. Победитель был назван AlexNet, в честь как самой техники, так и ведущего автора проекта, исследователя из Университета Торонто Алекса Крижевского.

Самолет тряхнуло, когда мы прошли через волнистый участок.

Скачок на 10 процентов? За один год? И с помощью нейронной сети? Я прокручивал эту идею в голове, пока мы переходили из одного часового пояса в другой. Это все равно что сказать, что рекорд скорости был побит с разницей в сто миль в час на автомобиле Honda Civic. Это просто не сходится. Прогресс не должен выглядеть так.

Или нет? Я вспомнил статью Цзя о том, что он узнал, обучая алгоритмы на ImageNet. Как методы, которые хорошо работали с небольшими наборами данных, вдруг стали плохо работать при обучении на больших - и наоборот. Может быть, все это время нейронные сети лучше подходили для того, чтобы разобраться с большим, более плотно упакованным пространством возможностей ImageNet? Что они могли справиться с огромным увеличением общего числа категорий в сочетании с резким сокращением различий между ними, в то время как их современные конкуренты не могли? В поисках новых подсказок я открыл свой ноутбук и открыл слайд-деск, который команда AlexNet приложила к своей заявке и в котором излагался выбор дизайна, который они сделали.

AlexNet - это пример сверточной нейронной сети, или CNN. Название происходит от графического процесса свертки, в котором серия фильтров проносится по изображению в поисках признаков, соответствующих вещам, которые распознает сеть. Это уникальная органическая конструкция, вдохновленная наблюдением Хьюбела и Визеля о том, что зрение млекопитающих проходит множество стадий. Как и в природе, каждый слой CNN интегрирует все новые и новые детали в более высокие уровни осознания, пока, наконец, реальный объект не становится полностью видимым.

В результате получился алгоритм, который ведет себя как сетчатка глаза, вглядываясь в окружающее пространство. Как и в настоящем глазу, ее внешний слой накладывает тысячи рецептивных полей на пиксели фотографии, каждое из которых настроено на уникальный, крошечный узор и активируется, когда встречает его - диагональный край, наклоненный под определенным углом, нечеткое смешение двух оттенков, узор из полос или чередующихся интенсивностей и так далее. На таком уровне осознания эти фильтры могут реагировать на что угодно - на узор меха на шерсти собаки, край кухонного стола или отблеск по контуру освещенного солнцем лепестка розы. На самом деле AlexNet смог уловить все эти и многие другие вещи не только потому, что был обучен на ImageNet, но и, что очень важно, потому, что он остался верен эволюционному духу биологического зрения. Вместо того чтобы произвольно решать заранее, какие признаки должна искать сеть, авторы позволили каждому из сотен тысяч нейронов постепенно научиться собственной чувствительности, исключительно на основе обучающих данных, без ручного вмешательства. Подобно биологическому интеллекту, AlexNet была естественным продуктом окружающей среды.

Затем сигналы от тысяч рецептивных полей уходят вглубь сети, сливаясь и группируясь в более крупные и четкие подсказки. Каждый новый слой, работающий на более сложном уровне восприятия, чем предыдущий, реагирует, когда чувствует что-то знакомое - то, что его научили распознавать, - загораясь с нарастающей интенсивностью, как нейроны в момент биохимического прилива. Крошечные узоры превращаются в более крупные, которые, в свою очередь, соединяются, как кусочки головоломки, образуя все более узнаваемые фрагменты - полосы тигра, текстура дерева, тень, падающая на землю.

Наконец, немногие оставшиеся сигналы, прошедшие через каждый слой, отфильтрованные и объединенные в детальную картину объекта, сталкиваются с последним этапом работы сети: распознаванием. Мотороллер. Леопард. Абакус. Курица. Телевизор. Или любой из тысячи альтернативных вариантов. Все по единому алгоритму и с точностью, которая все больше конкурировала с нашей собственной.

Конечно, это были не совсем новые идеи. Ян ЛеКун оставался поразительно верен конволюционным нейронным сетям на протяжении многих лет после своего успеха в применении их к рукописным ZIP-кодам в Bell Labs. К моменту появления AlexNet он потратил два десятилетия на совершенствование алгоритма и публикацию своих результатов, даже не имея ресурсов, необходимых для их полной реализации. Теперь же, в одночасье, стремление, которое часто списывали на ошибки, стало казаться прямо-таки прозорливым. Словно реинкарнированный, дух собственной CNN ЛеКуна, получившей соответствующее название "LeNet", был явно жив в AlexNet.

Эта связь особенно интригует команду, создавшую AlexNet, трио исследователей из Университета Торонто. Руководили проектом одноименный Алекс Крижевский и его сотрудник Илья Суцкевер - оба умные, но молодые исследователи, которые еще только создают свою репутацию. Однако третье имя мгновенно привлекло мое внимание: Джеффри Э. Хинтон. Тот самый Хинтон, который прославился как пионер машинного обучения, разработав в середине 1980-х годов метод обратного распространения, впервые позволивший надежно обучать большие нейронные сети. Хинтон, который был наставником Яна ЛеКуна, когда тот еще был студентом в его лаборатории. Хинтон, который, как и его протеже, отказался от изучения нейронных сетей, даже когда это сделало его почти изгоем среди коллег. AlexNet, как оказалось, не был простым участием в конкурсе. Это был момент признания вины, к которому он шел четверть века.

Значение корней этого алгоритма стало еще более очевидным, когда я глубже вник в его архитектуру. Хотя их разделяет более двух десятилетий, основная разница между AlexNet и LeNet оказалась минимальной. Оба были реализацией традиционной парадигмы нейронных сетей. Но одно ключевое отличие сразу бросалось в глаза: новая инкарнация была намного, намного больше.

AlexNet может обрабатывать изображения в десять раз больше, чем LeNet, сканируя их содержимое с помощью сверточного ядра - так сказать, "фокусной точки" сети - примерно вдвое большего размера. Затем выявленные детали фильтровались через более глубокую сеть, которая имела на несколько слоев больше, чем оригинальная LeNet, что позволяло ей более тщательно обрабатывать увиденное и делать более сложные выводы. Наконец, если сеть LeNet была спроектирована таким образом, чтобы направить свой анализ на получение одного из десяти возможных результатов, соответствующих десяти рукописным цифрам, для распознавания которых она была создана, то сеть AlexNet могла идентифицировать тысячу категорий объектов - подмножество ImageNet, выбранное для использования в конкурсе.

Но это были различия степени, а не вида; на уровне теории изменилось поразительно мало. И все же AlexNet работала так, как ни одна другая нейросеть в истории.

Как?

Частично это объясняется аппаратным обеспечением, на котором они работают. Определяющим недостатком нейронных сетей, который долгое время считался фатальным, была сложность их обучения. Даже гораздо более компактные сети прошлых десятилетий часто оказывались непрактичными. Действительно, обучение такой сети, как AlexNet, с помощью самой большой в мире коллекции изображений казалось непостижимым. Но технологии значительно продвинулись вперед, особенно когда речь зашла о дешевом высокопроизводительном вычислительном оборудовании, оптимизированном для конкретных приложений. Как ни смешно, всему этому мир был обязан популярности видеоигр.

Еще один поворот судьбы: стиль обработки чисел, которому отдают предпочтение нейронные сети, функционально схож с тем, который используется для рендеринга графики в видеоиграх - многомиллиардной индустрии, которая с 1990-х годов стимулировала развитие и коммерциализацию специализированного оборудования, способствуя росту таких мегабрендов, как Nvidia, компания, стоящая на переднем крае этой области. К 2012 году такое оборудование - специализированные процессоры, известные как "графические процессоры", или GPU - приобрело статус доступного, потребительского. Для лаборатории Хинтона это означало, что кремний, необходимый для воплощения AlexNet в жизнь, больше не является инвестицией, требующей правительственного гранта и разрешения на строительство. Его можно было купить в магазине Best Buy.

Однако "выполнимо" не обязательно означает "удобно". Даже при наличии такого мощного оборудования, обучение AlexNet на ImageNet требовало использования множества процессоров, работающих двадцать четыре часа в сутки в течение целой недели. Таким образом, в течение семи дней в начале 2012 года, пока миллионы графических процессоров по всему миру работали над визуализацией дрожащих пулеметов, полчищ зомби и взрывов , усыпанных шрапнелью, два из них, где-то в Торонто, оживляли новый вид нейронных сетей.

Однако, как бы ни были значительны эти достижения в производительности, они не были строго новаторскими. Они просто позволяли завершать существующие процессы в более практичные сроки. Если бы можно было указать на что-то действительно отличное от мира 2012 года - то, что категорически отсутствовало во времена LeNet, - то это должно было бы быть обилие данных, используемых для обучения сети. В конце концов, в 1989 году цифровые снимки были еще в зачаточном состоянии, и масштабные библиотеки таких материалов были редкостью. Идея организации обучающего набора для нейронных сетей - не просто коллекции цифровых изображений, а огромной коллекции, предназначенной для конкретного применения, каждое из которых точно маркировано человеком, - казалась бы просто бессмыслицей.

Конечно, было и исключение - отсканированные изображения, использовавшиеся для обучения LeNet считыванию почтовых индексов, и это сравнение было весьма показательным. Но даже в этом случае собрать обучающий набор рукописных цифр было едва ли возможно: в отличие от многомегапиксельных полноцветных фотографий, отсканированные цифры были маленькими, монохромными и занимали относительно мало памяти. К тому же, для того, чтобы набросать необходимый уровень разнообразия для освоения их идиосинкразии, требовались тысячи примеров, а не сотни миллионов, как в естественном мире. Поэтому неудивительно, что единственное приложение, для которого в то время удалось найти обучающий набор, более двадцати лет оставалось единственным достижением алгоритма. Казалось, что данные способны вдохнуть огонь в систему.

Действительно, AlexNet ожила в присутствии ImageNet, жадно впитывая его содержимое, процветая за счет его масштаба и разнообразия. Все это время нейросети не нуждались в более сложной математике и более экзотических абстракциях. Они просто ждали более четкого представления о мире, который, как мы ожидали, они должны были понять. Того, на чем они действительно могли бы учиться. Как большие данные научили LeNet разбираться в тонкостях человеческого почерка, так и AlexNet научилась разбираться во всем.

Позже я узнал, что Хинтон с новой страстью работал над доказательством жизнеспособности нейронных сетей в течение нескольких лет до 2012 года. В 2011 году, полагая, что он как никогда близок к переломному моменту, начал обращаться к своим коллегам в стиле, который был одновременно конфронтационным и совместным, запрашивая совета о том, что ему делать дальше, в форме, которая звучала скорее как вызов, чем как вопрос. Один из таких звонков был адресован Джитендре, давнему другу, который скептически относился к его проекту.

"Что мне нужно сделать, чтобы убедить вас в том, что за нейронными сетями будущее?" спросил Хинтон.

"Ты действительно хочешь произвести на меня впечатление, Джефф? Покажи мне, что они могут справиться с чем-то серьезным".

"Как?"

"Например, распознавание объектов. В реальном мире". Что бы Джитендра ни думал об ImageNet, я еще со времен учебы в Калтехе знал, что он верит в силу визуальной категоризации. "Вы пробовали PASCAL VOC?"

"Да. Не повезло. Она просто слишком маленькая. Примеров недостаточно, поэтому сеть не очень хорошо обобщает, когда мы показываем ей что-то новое".

"Хорошо, значит, вам нужно что-то посерьезнее. Ты, случайно, не следишь за лабораторией Фей-Фей? Когда будешь готов к настоящему испытанию, посмотри, что они затевают".

Независимо от того, действительно ли Джитендра изменил свое мнение о проекте или просто пытался залезть в шкуру старого друга - оба варианта казались правдоподобными, - Хинтон отнесся к совету серьезно.

Как будто каждая вихревая мысль на мгновение выровнялась, вырвав меня из уже наступившей дымки путешественника, и мне пришло в голову: нейронные сети естественным образом подходят для представления мира в ImageNet. Сеть ЛеКуна сделала это с почерком, обнаружив значимые закономерности на всех уровнях анализа, от мельчайших скоплений пикселей до текстуры штрихов пера и полных цифр. Это была своего рода перцептивная беглость, которая возникала из данных сама по себе, естественно организованная в иерархию осознания. Хьюбел и Визель увидели, как та же идея воспроизводится в зрительной коре кошки. В лаборатории Калифорнийского университета в Беркли мы увидели еще глубже. Они всегда были способны это. Но только сейчас у них появились вычислительные мощности для этого.

Теперь, похоже, AlexNet сделал то же самое с мировым масштабом самой сети ImageNet. И в этом, попросту говоря, заключалось главное отличие - огромное увеличение объема данных, которые теперь можно было изучать. Я восхищался мыслью о том, что будет содержаться в слоях AlexNet после завершения процесса обучения: формы, края, узоры и текстуры, покрывающие людей, животных и предметы, которые мы столько лет вылавливали из Интернета. Призрачные фрагменты реального мира, организованные правильным образом, чтобы алгоритм мог их увидеть.

Самолет мягко подпрыгнул, когда его колеса коснулись Флоренции. Мне все еще было трудно поверить в то, что AlexNet - это аванс, которым он казался. Скачок казался слишком большим. Но чем больше я думал об этом, тем больше мне казалось, что это отличительная черта любого великого прорыва: шкура безумия, обернутая вокруг идеи, которая только может иметь смысл.

Слухи распространились к утру следующего дня. Предстояло объявить о чем-то историческом, так говорили, и неясность слухов только разжигала любопытство слушателей. К тому времени, когда я прибыл на семинар, там было так много народу, что самому ЛеКуну пришлось стоять у задней стены, поскольку он пришел с опозданием на несколько минут, чтобы найти свободное место.

Настроение в зале было напряженным с самого начала заседания, толпа разделилась на три фракции. Первую составлял небольшой контингент сторонников ImageNet, включая меня, Алекса Берга и членов лаборатории Хинтона. Вторая, подавляющее большинство, состояла из нейтральных, но заинтригованных наблюдателей. Третья группа, скромная по численности, но воинственная, была наиболее решительной. Это были недоброжелатели, которые выступали против самой идеи ImageNet с самых первых дней ее появления на сайте , и хотя обычно я отмахивался от их мнения, здесь их присутствие было трудно игнорировать.

Хуже того, мы едва ли были единым фронтом. Хинтон не смог присутствовать из-за хронических проблем со спиной, которые делали международные поездки практически невозможными для него, поэтому вместо себя он прислал Алекса Крижевского. Алекс был чрезвычайно талантлив, и его статус ведущего автора делал его подходящей кандидатурой. Но, как и в случае со многими другими гениальными людьми, его личное представление не соответствовало серьезности его работы - я не уверен, что даже он сам это в полной мере оценил. Это проявилось в неловкой взбалмошности, нередкой среди академиков, что проявилось в его очевидной неспособности ответить на мои неоднократные текстовые сообщения с попыткой подтвердить нашу встречу до начала семинара. (К счастью, он прибыл в назначенное время.) Поскольку недоверие аудитории было на пике, ему было еще труднее убедить слушателей в своей правоте.

Когда слово было предоставлено для вопросов, напряжение спало. Мы услышали все обычные жалобы - что ImageNet слишком велик, чтобы быть практичным, что не было необходимости включать столько категорий и что модели распознавания объектов все еще слишком примитивны, чтобы оправдать такой обширный набор данных. Тот факт, что AlexNet демонстрирует обратное, более или менее точечно, был странно неубедителен. Но были и новые критические замечания, некоторые из которых были откровенно странными. Один из участников - восходящая звезда одного из ведущих университетов, не меньше, - зашел так далеко, что предположил, что в категории изображений, изображающих футболки, не хватает разнообразия, необходимого для надежного обучения модели. Меня это больше всего позабавило. Неужели? Футболки - это ахиллесова пята? Остальная часть комнаты была просто озадачена.

Но те, кто слушал, были вознаграждены. На протяжении двадцати семи слайдов, большинство из которых содержали лишь черно-белый текст и диаграммы, природа нейронной сети была продемонстрирована с такой ясностью, какой мы никогда не видели, и это было откровением. После перцептрона Розенблатта, неокогнитрона Фукусимы и LeNet ЛеКуна это был долгожданный следующий шаг, который делался десятилетиями и наконец был реализован в масштабе, соответствующем его потенциалу.

Особого внимания заслуживает процесс обучения AlexNet.

Как и все нейронные сети, AlexNet в исходном состоянии бесформенна и инертна, как гобелен в пустоте. Затем начинается натиск: одна за другой случайным образом выбираются фотографии из библиотеки ImageNet, и перед сетью ставится задача правильно присвоить им одну из тысячи меток. Поначалу это практически невыполнимая задача: десятки миллионов нейронов сети настроены наугад, не имея даже смутного представления о мире, и дают лишь осечки. Изображение гриба с надписью "бутылочная крышка". Неверно. Изображение эвакуатора с надписью "электрогитара". Неверно. Изображение кожистой черепахи с надписью "банное полотенце". Неверно.

Но неудачи не напрасны. Ошибки вызывают корректирующие сигналы, распространяющиеся по десяткам миллионов составных частей сети, каждая из которых оценивает свой вклад в результат и подталкивает, пропорционально, к тому, чтобы в следующий раз вести себя по-другому. Это простейшая форма обучения - делать меньше того, что не получилось, и больше того, что не получилось, - раздутая до гигантских масштабов. Придирчивое внимание уделяется каждой детали каждой ошибки: каждому пятну света и тени, каждому узору и текстуре, каждой мягкой градации и жесткому краю.

На ранних этапах это не так уж и много, и в следующий раз, когда AlexNet увидит фотографию, похожую на ту, которую он неправильно классифицировал, он, скорее всего, снова ошибется. Но это будет уже не такая ошибка. И так до тех пор, пока не получится что-то правильное, пусть даже по счастливой случайности. На этот раз сигнал должен усилиться, а не ослабнуть; он должен подчеркнуть то, что, как оказалось, указывало на правильное направление. Обучение продолжается. Неправильно. Неправильно. Неправильно. Правильно. Неправильно. Неверно. Правильно. Правильно. Неверно.

Обширность ImageNet - даже подмножество из тысячи категорий, выбранных для конкурса, - гарантирует, что это будет долгий процесс. Он охватывает такие разнообразные объекты, как цифровые часы, пикетные ограды, дисковые тормоза, секундомеры, итальянские борзые, микроволновые печи и смородина, каждый из которых имеет тысячу вариаций. Но AlexNet еще и огромен. Его 650 000 отдельных нейронов объединены в сеть посредством 630 миллионов связей, а 60 миллионов крошечных, почти незаметных весов влияют на силу этих связей, делая одни из них сильнее, а другие слабее, по мере того как сигналы поступают с одного конца сети на другой.

Взятые в целом, они представляют собой достаточно большой холст, чтобы нарисовать мир. Вес меняется от раунда к раунду, некоторые становятся сильнее, некоторые слабее, а некоторые просто колеблются, создавая податливую ткань, которая реагирует на тренировки с органичной грацией. Вес этих гигантских объемов несут два графических процессора Nvidia, высокоспециализированный кремний, работающий параллельно, проводя раунд за раундом на максимальной скорости.

Тренировки продолжаются без остановки, с утра до вечера, пока не будет изучен каждый пиксель каждого изображения. Часы превращаются в дни, а дни - в недели. Графический процессор подталкивает. ImageNet бросает вызов. AlexNet приспосабливается. По всей сети возникают все более крупные и экстравагантные структуры по мере того, как десятки миллионов весов снова, и снова, и снова. Кузнечный молот против раскаленной стали. По одному приращению за раз, пока почти невидимые возмущения не превратятся в горы и долины, уходящие в многотысячемерное гиперпространство. Призрачное усреднение бесчисленных деталей мира, отпечатки, оставленные тысячей различных изображений тысячи различных вещей. Тысяча далматинцев скапливается здесь, тысяча корзин для белья - там, тысяча маримб - где-то еще.

Словно что-то из области геологии, эти отпечатки сливаются в единый рельеф, простирающийся от одного конца AlexNet до другого. Точилки для карандашей, мечети, морские звезды, хоккейные шайбы - все они вписаны куда-то в ландшафт. Алгоритм не просто "увидел" эти вещи, он стал ими. Фотографии, которые мы годами гоняли по интернету, сформировали целый спектр машинного сознания, примитивного, но мощного. Единое унифицированное представление всего этого.

После 1,4 миллиона раундов последняя струйка изображений - это не испытание, а коронация. Фокус сети перемещается по пикселям, загорается, когда регистрируются знакомые паттерны, и передается на следующий уровень, где они объединяются с другими, образуя все большие и большие созвездия осознания. Ответы больше не случайны, и большинство из них уже не ошибочны. Койот. Правильно. Настольная лампа. Правильно. Кабриолет. Правильно. Это, по-видимому, волшебное сочетание аппаратных средств, программного обеспечения и данных, и оно ближе, чем все, что когда-либо было создано в нашей области, к тому, чтобы передать дух эволюции, сформировавшей разум млекопитающих, подобных нам.

Теперь в окончательном варианте разнообразие, для создания которого потребовался целый мир добровольцев-краудсорсеров, сформировало топологию, настолько разнообразную и надежную, что это своего рода святой Грааль. Эта нейронная сеть, самая большая из когда-либо существовавших в нашей области, обученная на большем количестве данных, чем любая другая в истории, может обобщать.

Потребуются месяцы, чтобы по-настоящему оценить то, что мы увидели в той комнате, но даже в тот момент было ясно, что мы находимся в присутствии чего-то необычного. После стольких лет надежд на то, что ImageNet даст толчок к созданию чего-то нового, я понял, ради чего все это было сделано: долгожданное признание чего-то вечного. Биологически вдохновленный алгоритм, который десятилетиями смотрел нам в лицо. Ему просто нужен был подходящий вызов.

Вторая половина дня также дала повод поразмышлять о последнем десятилетии работы в нашей области. Моя лаборатория поставила все на многолетнюю погоню за данными в беспрецедентном масштабе, а лаборатория Хинтона поставила свою репутацию на приверженность семейству алгоритмов, от которого область практически отказалась. Оба были азартными играми, и оба могли ошибиться. Но в тот день, когда мы увидели невероятные возможности нейронных сетей, воплощенные в жизнь с помощью обучающих возможностей ImageNet, я понял, что, хотя оба варианта оправдались, это произошло только потому, что они были предприняты в одно и то же время. Не подозревая об этом, мы полагались друг на друга на каждом шагу.

Я провел больше времени в пути до Флоренции и обратно, чем на земле. Но полет домой отличался от того, который привел меня туда. В нем было не менее тесно, а дымка от усталости была еще тяжелее, но мой разум больше не метался - по крайней мере, не так, как раньше. Я видел работу своими глазами. Не было ни ошибок, ни недосмотра, ни канцелярских ошибок. Нейронные сети восстали из мертвых, большие, более сложные и мощные, чем когда-либо. А ImageNet научила их всему, что нужно было знать, за одну попытку поставив их на дистанцию, близкую к человеческим возможностям.

Спустя полмиллиарда лет после того, как возникновение биологического зрения привело к Кембрийскому взрыву под волнами древнего океана, трудно не задуматься, не стоим ли мы на пороге аналогичной точки перегиба. Спровоцирует ли появление машинного зрения новую лавину эволюции, на этот раз в цифровой форме?

На смену маниакальным мыслям и животрепещущим вопросам предыдущего полета пришло нечто неожиданное. Это было не совсем спокойствие, а скорее зарождающееся чувство осознанности. Размышления. На этот раз я сидел в тишине, от взлета до посадки, и в моей голове билась одна-единственная мысль: история только что свершилась, и лишь горстка людей в мире знала об этом.

Глава 9. Что лежит за пределами всего?


"Ну, это немного жутковато".

Студент не ошибся. Когда свет зажегся и тени отступили, мы увидели странную геометрическую картину, окружавшую нас: сетка из вышедших из употребления мониторов с катодно-лучевыми трубками, расставленных на полу, словно запертых на долгие годы в темноте, в каком-то лиминальном состоянии между хранением и утилизацией. Трудно было представить, что это пыльное, забытое помещение когда-то было чем-то большим, чем прославленный антикварный шкаф, которым оно теперь казалось. Но так оно и было. С мешками для мусора и тележкой в руках, в непритязательный полдень в начале 2013 года, мы стояли в бывшем центре всемирно известной SAIL - Стэнфордской лаборатории искусственного интеллекта.

За несколько десятилетий область, когда-то смело называвшая себя "искусственным интеллектом", распалась на множество более узких дисциплин, многие из которых преуменьшали свои когнитивные корни в пользу более механистических терминов вроде "распознавание образов" и "обработка естественного языка". Постепенно необходимость в центральной лаборатории отпала. Под ее эгидой по-прежнему велась важная работа, включая фундаментальные достижения в области самоуправляемых автомобилей и вычислительной биологии, а также взрыв новых идей о вероятности и статистике в моделировании явлений реального мира. Но связь между названием SAIL и исследованиями, которые он поддерживал, больше напоминала формальность, чем общую миссию времен его расцвета.

Однако внезапно зима ИИ пошла на убыль. Тенденции, некогда актуальные только для моих ближайших коллег, становились горячими темами по мере того, как гибкие алгоритмы, такие как нейронные сети, вновь оживали, появлялись по-настоящему масштабные наборы данных, а AlexNet демонстрировал, насколько мощными они могут быть на практике. Казалось, что наша область объединяется, хотя и под знаменем несколько иного названия - и все более популярной фразы - "машинное обучение".

Поначалу изменения были малозаметными, например, я и мои коллеги стали получать больше запросов на интервью для СМИ, чем обычно. Однако самым существенным признаком перемен стало то, что все больше и больше наших коллег стали увлекаться технологической индустрией, а некоторые из них и вовсе покинули академические круги ради карьеры в Кремниевой долине. То, что начиналось как струйка, стало ускоряться, и два увольнения, в частности, изменили мою жизнь в одночасье.

Первое - это чудо, которого мы с Сильвио так долго ждали: шанс, наконец, объединить нашу семью. Какими бы изнурительными ни были пять лет нашего брака на расстоянии, внезапно стало ясно, что мы провели их с пользой; пока я гонялась за ImageNet, он зарекомендовал себя как ведущий исследователь в области разработки алгоритмов трехмерного восприятия - тема, которую наш отдел считал интригующей. Когда Себастьян Трун покинул Стэнфорд, чтобы помочь запустить бурно развивающиеся усилия Google в области самодвижущихся автомобилей, репутация Сильвио сделала его главным претендентом на эту должность.

Хотя по понятным причинам я не участвовал в обсуждении вопроса о приеме на работу, достоинства Сильвио были столь же очевидны для моих коллег, как и для меня, и подавляющим большинством голосов он был утвержден в качестве нового члена нашего факультета. Одним этим решением полдесятка лет еженедельных перелетов через границу, не говоря уже о наших попытках воспитывать малыша в разных штатах, наконец подошли к концу. Конечно, домашняя жизнь была бы более тесной, чем когда-либо, поскольку постоянный вопрос о здоровье моей матери означал, что мои родители, скорее всего, будут постоянно проживать в доме, который мы теперь делили с мужем, но это была небольшая цена, которую нужно было заплатить.

Затем Эндрю Нг, который долгое время совмещал свою роль педагога с руководящими должностями в Кремниевой долине, ушел с поста директора SAIL. Ряд старших коллег поддержали меня в качестве его замены, в результате чего я стала седьмым директором лаборатории и первой женщиной на этом посту. Итак, позвонив специалисту по утилизации электроники и предложив бесплатный обед, чтобы заманить своих коллег-профессоров на новый график встреч, я приступила к восстановлению SAIL - не только как канала финансирования, но и как социального, межличностного и даже культурного центра нашего сообщества.

Моя собственная лаборатория - небольшое подразделение, которым я руководил с момента переезда из Принстона и известное как Стэнфордская лаборатория зрения и обучения, - занимала юго-восточный угол второго этажа здания Gates Computer Science Building, недалеко от дальнего края университета, где окраины кампуса сливаются с холмами Пало-Альто. Это было место, где я любил бродить независимо от того, было ли у меня что-то запланировано. В каждой комнате, казалось, собиралась новая группа студентов, по крайней мере один из которых всегда был свободен, чтобы поболтать несколько минут о своих исследованиях или каких-то шальных идеях.

Особое значение для меня имело окончание первого курса аспирантуры, включая сверхъестественно терпеливого Цзя. Творческий огонь, охвативший его после ImageNet, продолжал гореть и, казалось, только усиливался, когда до защиты докторской диссертации оставались считанные месяцы. Его настроение было характерно для всей лаборатории: освеженное, сосредоточенное и жаждущее исследований.

Это также означало, что он все больше и больше напрягался, выполняя впечатляющий, но обременительный объем работы. По мере того как расширялась широта и нюансы его собственной научной деятельности, стало ясно, что пришло время для преемника в качестве ведущего организатора конкурса. Ольга, уже год работающая в нашей лаборатории, с радостью взяла бразды правления в свои руки, поддерживая многочисленные операционные детали и одновременно зарекомендовав себя как необычайно способный представитель того, что по своей природе было в равной степени как технической задачей, так и общественным мероприятием.

Тем временем прибыло новое поколение студентов, их суетливое нетерпение приятно контрастировало с самообладанием ветеранов. Благодаря успеху ImageNet наша лаборатория стала магнитом для особого типа молодых мыслителей. Будучи первым поколением студентов, достигших академического возраста в эпоху возрождения ИИ, они пользовались редкой привилегией. Они были достаточно взрослыми, чтобы понять, что история только зарождается, но достаточно молодыми, чтобы застать ее на заре своей карьеры.

Каждый из них следил за новостями в Интернете, по телевидению и в разговорах с преподавателями, которые они подслушивали, проходя по коридорам. Все это указывало на будущее, которое, казалось, наступило на десятилетия раньше запланированного срока, и которое предлагало им больше, чем могло ожидать любое предыдущее поколение. Впервые студент, изучающий компьютерное зрение, стремился получить не одну из нескольких желанных преподавательских должностей, разбросанных по всей стране, а путь в технологическую индустрию, будь то работа в стартапе или одном из гигантов.

В таком мире, как наш, это была необычайно захватывающая перспектива и, возможно, даже прибыльная. Но наши действия указывали на более простую мотивацию, даже среди новичков: мы как никогда стремились к исследованиям, неизвестность простиралась далеко за горизонт. Мы были одержимы особенно амбициозной маркой творчества, той, что делает дни маниакальными, а ночи бессонными. И хотя у мировых производителей наверняка были свои планы на ImageNet и множество приложений, которые они, несомненно, из него извлекут, мы знали, что это их путь, а не наш. Полярная звезда была еще далеко. Мы еще не закончили с наукой.

Хихиканье раздавалось по всей лаборатории, пока Цзя щелкал по слайдам. Тема презентации на первый взгляд не казалась особенно смешной - новый подход к устранению сбоев в классификации изображений, - но в попытке изучить вид входных данных, которые сбивают алгоритм с толку, на сайте была собрана коллекция отфотошопленных чудовищ, от причудливых до пугающих. Каждое из них вызывало смех и умиление: кенгуру с полосами зебры и рогами барана, котенок, выныривающий из волн с акульими зубами, и бегемот со шкурой арбуза. Но именно изображение на экране вывело толпу из себя: утиное тело с головой крокодила в натуральную величину, мирно стоящее в парке без малейшего видимого напряжения на крошечных лапках, словно чудовище из греческой мифологии, переделанное для детской книжки. Цзя продолжал стоять, не двигаясь, как будто смех - это частота, которую он не слышит.

Я называю его "уткодилом", - объяснил он, и его тон был таким фактическим, что я даже засомневалась, верит ли он, что это действительно вид. А Джон называет его "крак". Но важнее всего то, как назвала его наша модель". Еще один щелчок - и над гибридом утки и рептилии появилось описание из одного слова: "Животное".

Несмотря на то, что этикетка вызвала очередную порцию смешков со стороны публики, это был, в типичном стиле Цзя, момент сдержанного блеска. Презентация была основана на его последней опубликованной работе "Hedging Your Bets: Optimizing Accuracy-Specificity Trade-Offs in Large Scale Visual Recognition", которую он написал в соавторстве с Джоном Краузе, начинающим аспирантом. В ней они столкнулись с растущей проблемой, с которой сталкиваются даже самые современные классификаторы изображений: принятие разумных решений в условиях двусмысленности. В самом деле, хотя "утконос" не поддавался точной классификации, признаком искушенности было то, что их модель отреагировала на это, не рискнув сделать наверняка неверное предположение, а отступив на более высокий, безопасный уровень своей онтологии - просто заключив, что, если отбросить странные детали, это действительно похоже на какое-то животное.

Эта работа стала напоминанием о том, что, как бы ни были сосредоточены наши исследования на зрении, язык является неизбежной частью картины. ImageNet была бы невозможна без WordNet, ведь именно она обеспечила структуру, которая дает каждой категории не только ярлык, но и место в дереве взаимосвязанных идей. И трудно представить WordNet без работы психолога Элеоноры Рош.

Рош внес значительный вклад в наше современное понимание категоризации и той роли, которую она играет в мышлении, проведя множество экспериментов, изучающих способы концептуализации мира человеком, будь то аспиранты Калифорнийского университета в Беркли или горные племена Папуа - Новой Гвинеи. Хотя изучение категорий восходит к Аристотелю, экспериментальный подход Роша, в котором четкая логика сочеталась с эмпирическими данными, в 1970-х годах вызвал бурный интерес к этой области.

В своей основополагающей работе 1975 года она сформулировала более точный словарь для понимания иерархии - того, как многие понятия могут быть расположены на спектре от общего к конкретному. Возьмем, к примеру, одну из категорий животных Цзя, например "утка". Утки существуют на особом уровне детализации, требуя больше информации для понимания, чем более мелкие категории, такие как "Anatidae" (биологическое семейство, включающее уток, гусей и лебедей), "животное", "живое существо" и, в конечном итоге, "вещь" - то, что Рош назвал "суперординатами" - но меньше информации, чем более глубокие "подчиненные" категории, такие как "кряква", "мандаринка" и "кольчатая чирок". В целом такие иерархии, включая ImageNet, похожи на деревья. Движение к корню означает меньшую специфичность и дифференциацию, а движение к листьям - самым дальним концам каждой ветви - означает больше.

Цзя и Джон перенесли этот принцип в компьютерное зрение. Если у классификатора есть веские основания полагать, что перед ним утка или крокодил, но недостаточно информации, чтобы решить, кто из них кто, то разумнее всего перейти на уровень выше, к более широкой суперординате, обменяв часть специфики более глубокого уровня на безопасность более мелкого.

Покончив со зрелищем акул, гиппомелонов и кенгуру, они продемонстрировали, насколько эффективно их техника работает в более правдоподобных сценариях. Крупный план корги, которого традиционные классификаторы ошибочно обозначили как "золотистый ретривер", теперь можно было смело назвать "собакой"; такси со странной обшивкой и несовпадающей краской, которое ошибочно обозначили как "танк", теперь можно было назвать "автомобилем", и так далее.

Я не мог не отметить, что в очередной раз мощь больших данных была продемонстрирована в полной мере. При всей своей тонкости эта работа была бы просто невозможна без такого гигантского хранилища фотографий, как ImageNet. Он не просто предоставил исходные данные, необходимые для изучения вселенной иерархических концепций, но - что, вероятно, еще важнее - его масштаб и онтологическая организация позволили обнаружить эти концептуальные отношения. Никому не нужно было указывать модели, как перейти с более высокого уровня детализации на более низкий; не нужно было составлять новый список связей или путей, по которым нужно следовать. ImageNet была настолько всеобъемлющей, что все, что нужно было модели, уже было в ней. Просто потребовалась новая тактика, чтобы использовать ее.

Техника "хеджирования" Джиа и Джона - это применение того типа мышления, который меня больше всего вдохновляет. Несмотря на элегантность и интуитивность - даже простоту, если разобраться, - для ее разработки потребовалась настоящая проницательность. Искусная и в то же время точная, она стала ярким примером того, как развивается компьютерное зрение.

Следующая презентация была посвящена более обширному, неординарному вопросу: что нас ждет, если мы двинемся в противоположном направлении и углубимся в ветви? Что сделают наши алгоритмы с более тонким и сложным миром, чем тот, для понимания которого они были созданы?

Джон встал рядом, чтобы ответить. Мягко воспитанный житель Огайо, который, казалось, чувствовал себя как дома в футболке и шортах-карго, он разделял спокойную манеру поведения Цзя, но выражал ее более причудливым образом; например, он быстро стал известен своим увлечением красными пандами и постоянно держал распечатку с изображением этого животного над монитором своего рабочего места. Но он не был назойливым и, как лучшие исследователи в моей лаборатории, твердо отстаивал свое мнение, когда чувствовал необходимость заявить о себе.

Щелчок - и на экране появилось разделенное изображение. На одной стороне была фотография автомобиля, а на другой - его эквивалент, созданный конструкторами с помощью компьютерного проектирования (CAD). Затем второе изображение накладывалось на первое, и цифровые красные линии обрисовывали контуры решетки радиатора, окон и кузовных панелей реального автомобиля, выделяя те особенности, которые классификатор должен был распознать, чтобы определить точную модель.

"Машины?" - спросил кто-то.

"О, просто подождите", - ответил Джон со знающей ухмылкой.

Он не шутил. Это был наш первый взгляд на тему, которая оказалась гораздо серьезнее, чем мы думали.

Я всегда считал, что истинный вклад ImageNet заключается в его двойственной природе. Его гигантский масштаб был мощным благодаря онтологической иерархии, которая его организовывала, а его онтология была мощной, потому что она была такой большой и всеобъемлющей, охватывая такой разнообразный спектр категорий. Ни одно из этих достоинств не было бы достаточным само по себе. Но, как и сам размер, такое понятие, как "категория", является относительным. Как показала техника хеджирования, обоснованные категориальные ответы могут быть найдены на разных уровнях глубины, в зависимости от задаваемого вопроса. Чем глубже уровень, тем ближе друг к другу сползают понятия, разделенные все меньшим количеством деталей. Вещь. Живая вещь. Растение. Дерево. Клен. Acer pseudoplatanus.

Однако ImageNet оказался не таким уж образцом обширности и детализации, каким казался. Хотя некоторые категории были исключительно тонкими - деревья особенно хороший пример, - другие оставались набором удобно различающихся идей, которые все еще были грубыми по своему охвату, отделенные друг от друга широкими пробелами концептуальной дифференциации. Они гарантируют, что во многих областях работа наших классификаторов никогда не будет слишком сложной.

Автомобили - один из многих примеров темы, которая практически стирает эти пробелы, и послеобеденный краш-курс, проведенный Джиа и Джоном, показал нам, насколько лабиринтной она может быть. Например, нам может показаться очевидным, что на фотографии изображена Toyota (хотя, конечно, большинство из нас были совершенно не готовы к разговору об автомобилях). То, что это Toyota Yaris, тоже можно было понять после небольшого изучения. Но была ли это Toyota Yaris 2008 года или Toyota Yaris 2009 года? Внезапно вопрос стал намного сложнее. Был ли это Toyota Yaris 2008 года в цвете "пылающий синий перламутр" или Toyota Yaris 2008 года в цвете "голубой перламутр"? В том году предлагались оба варианта, и оба были... синими. Это была базовая модель 2008 Toyota Yaris цвета "синий жемчуг" или спортивный лифтбек 2008 Toyota Yaris цвета "синий жемчуг"? Удивительно, но на этом вопросы не закончились. И все это для того, чтобы разобраться в одном варианте одной модели одного производителя. И это только автомобили.

Кто-то из аудитории обратил внимание на несколько недавних работ по компьютерному зрению, посвященных видам птиц, из которых ImageNet включает в себя, казалось бы, надежную коллекцию из пятидесяти девяти. Хотя проект Корнельского университета превзошел это число, представив набор фотографий, охватывающий сотни видов, по оценкам, в мире насчитывается более десяти тысяч видов, что оставляет даже самые современные достижения на порядки ниже реальности. Я усмехнулся, вспомнив, как задыхалась пресса о технологиях, когда статья за статьей возвещала о наступлении эры машинного обучения и объявляла классификацию изображений внезапно "решенной проблемой". Клены, журавли-кликуны и "Тойоты" мира говорят об обратном, подумал я.

Это были наши первые предметные уроки того, что стало известно как "мелкозернистая классификация" - исследовательская тема, изучающая все более узкие детали, необходимые для идентификации объектов все более схожих классов. Хотя это может показаться простым продолжением нашей предыдущей работы, от выделения очевидных различий до разбора менее очевидных, это наводило на мысль о чем-то более удивительном и поучительном: даже в самых грандиозных ситуациях мы все еще думали о малом.

Однако среди величайших достоинств науки - ее способность превратить урок смирения в момент возможности. Мы потратили годы на сбор изображений - миллиарды, - привлекая глобальную рабочую силу, чтобы помочь нам разобраться в них, но достаточно было пролистать Kelley Blue Book, чтобы понять, что мы едва поцарапали поверхность. Мы все еще были гораздо ближе к корню дерева, чем к его листьям. Годы усилий и глобальное соревнование между одними из самых ярких умов на земле - и все это ради маленького шага к настоящему визуальному интеллекту.

И все же, оглядев комнату, я не увидел на лицах своих студентов страха или отчаяния. Я видел, как в их глазах начинают вращаться шестеренки. Я не сомневался, что каждый из нас в отдельности думает об одном и том же: путешествие еще не закончено. Нам еще столько всего предстоит узнать.

Число Бидермана действительно было огромным, но оно также было необходимой фикцией - удобным усеченным определением "всего", которое было достаточно удобным для того, чтобы, хотя бы с трудом, обхватить наши умы и алгоритмы. Теперь мы стояли на пороге новых просторов. Нам предстояло узнать, что лежит за пределами всего.

Загрузка...