Египетские папирусы, содержащие рассуждения о природе мозга, датируются концом второго тысячелетия до н. э., с тех пор и на протяжении последующих веков к устройству и работе мозга проявляли интерес философы, и медики. В XX веке этой проблемой вплотную занялись нейрофизиологи, ими была разработана принятая на сегодня теория мозга. Считается, что небольшие нервные сети (neural circuit) объединяются в более крупные мозговые структуры (large-scale brain networks), а из них образуется мозг как единый орган. Обратим внимание на употребление в английском двух близких слов circuit и network, они переводятся на русский одним словом «сеть». Но в данном случае circuit – это сетевая структура меньшего размера, из множества circuit образуются network – сети большего размера. Есть компьютерная терминологическая аналогия, мы обычно переводим integrated circuit как интегральная микросхема, заменяя сеть микросхемой, но computer network переводим как компьютерная сеть. Еще одно терминологическое замечание, оно связано с тем, что, когда Уоррен Мак-Каллок и Уолтер Питтс выдвинули идею о возможности моделирования работы мозга сетью, состоящей из искусственных нейронов, они назвали такой тип сети Artificial neural network (ANN). Слово neural переводится на русский язык как нервный, а neuronal как нейронный, то есть ANN в оригинале искусственная нервная сеть, но по-русски приято переводить ANN как «искусственная нейронная сеть», что возможно точнее соответствует реальности.
Мак-Каллок и Питтс посвятили свою научную деятельность созданию формальных методов моделирования человеческого мозга, одним из ее результатов стало новое направление, обычно называемое коннекционизмом. В контексте AI оно рассматривается как альтернатива символьному подходу, но следует иметь в виду, что существует и более широкая философская трактовка термина коннекционизм. В этом случае под ним понимается одно из направлений в когнитивистике (от cognitio «познание»), науке, объединяющей теорию информационных процессов с теорией познания, когнитивной психологией, нейрофизиологией и когнитивной лингвистикой. Ключевым моментом, отличающим это направление когнитивистики от классической направлений этой науки, является опора на параллельные системы и на статистику, а не на последовательные системы и логические правила. Среди представителей когнитивистики нет единства мнений на сей предмет: одни склоняются к традиционным теориям, считая, что нейронная сеть подобна символическому процессору и для ее моделирования можно использовать программирование, но есть и более радикальные коннекционисты, утверждающие, что классическое программирование их целям не соответствует, они выбирают методы обучения.
Оставим возможность разбираться с этими разногласиями философам, а сами ограничимся тем, что будем считать в узком смысле коннекционизмом теоретический базис для того подхода к созданию AI, названному Тьюрингом «снизу-вверх», а машинное обучение будем рассматривать как альтернативу программированию. Что касается параллельных систем, то современный компьютинг к ним еще не готов, использование кластеров на графических процессорах (GPU) временное решение, по-английски stub, хотя насколько оно временно сказать сложно.
Предтечей коннекционизма был ассоцианизм – учение, рассматривающее мозг как действующий набор элементов, объединенных ассоциативными связями. Ассоцианизм – это совокупность психологических концепций и школ, сформировавшихся в XVIII–XIX веках, его приверженцы считали ассоциации идей главным или даже единственным механизмом, обеспечивающим работу сознания. У человека ассоциация может возникать при обнаружении подобия в предметах, имеющих одинаковые свойства или признаки, в их близости в пространстве и во времени. Впрочем, ассоциации может вызывать не только близость, но и контраст. Первые соображения о значении ассоциаций были выдвинуты Платоном и Аристотелем, но через пару тысяч лет картезианская школа, прежде всего в лице Локка и Гоббса, затормозила развитие ассоцианизма вплоть до начала XVII века. Он возродился в появившихся тогда учениях о психике, где мозг представлялся в виде машины, запечатлевающей следы внешних воздействий, причем так, что стимулирование одного из следов автоматически влечет за собой возникновение следующего. Начало новому этапу в развитии ассоцианизма положил голландский философ Бенедикт Спиноза (Benedictus de Spinoza, 1632–1677), его продолжателями стали англичане Джордж Беркли (George Berkeley, 1685–1753) и Дэвид Гартли (David Hartley, 1705–1757), они создали систему взглядов, называемую материалистическим ассоцианизмом. Последующие успехи в биологии и нейрофизиологии, достигнутые в конце XIX – начале XX века, вызвали взрыв интереса к ассоцианизму в трудах Германа Гельмгольца (Hermann Helmholtz, 1821–1894) – в его исследованиях органов чувств, Чарльза Дарвина – при объяснении эмоций, И. М. Сеченова – в учении о рефлексах головного мозга, И. П. Павлова – в его учении об условных рефлексах. Итогом всестороннего изучения ассоциаций в мозговых процессах стало появление ассоциативной психологии.
Пионерами современной науки, изучающей нейронную природу мозга, стали работавшие независимо друг от друга Александр Бэн (Alexander Bain,1818–1903) и Уильям Джеймс (William James, 1842–1910). Шотландский философ, психолог и педагог Александр Бэн в 80-е годы XIX разработал нейронную модель мозга, считая его состоящим из группировок нейронов (neural groupings). Бэна называют «отцом нейронных сетей», поскольку ему удалось показать то, как ассоциативные структуры, состоящие нейронных группировок, могут осуществлять функцию памяти и, более того, в развитие положений ассоцианизма ему удалось представить вычислительные способности такого рода структур. Американца Уильяма Джеймса (William James, 1842–1910), в большей мере интересовали психологические аспекты работы мозга. Позже существенный вклад в нейрофизиологию мозга внес Чарльз Шеррингтон (Charles Sherrington, 1857–1952), лауреат Нобелевской премии по физиологии и медицине в 1932 году за открытия, касающиеся функций нейронов.
Интересно отметить занятное совпадение, косвенным образом связывающее деятельность Бэна с AI. Оказывается, это он в 1876 году основал альманах Mind, где через три четверти века Тьюринг опубликовал свою статью Computing Machinery and Intelligence.
Новая история коннекционизма делится на два этапа. Они не равны по продолжительности и между ними лежит разрыв по времени, равный двум десятилетиям. Первый, более короткий, продлился всего 20 лет, от середины 40-х годов до середины 60-х, а второй стартовал в начале 80-х годов и продолжается до нашего времени. Главными действующими лицами первого этапа, обеспечившими становление коннекционизм как научного направления, были всего несколько человек. Это вышеупомянутые Уоррен Мак-Каллок и Уолтер Питтс. Еще Фрэнк Розенблатт (Frank Rosenblatt, 1928–1971), он попытался первым реализовать идеи коннекционизма на практике в устройстве, названном им персептроном. И, наконец, канадский физиолог и нейропсихолог Дональд Хебб (Donald Hebb, 1904–1985), он первым предложил работающий алгоритм обучения ANN. Упрощенно их деятельность можно представить в виде последовательности: Мак-Каллок и Питтс, создают модель ANN, Хебб распространяет принципы машинного обучения на ANN, а Розенблатт пытался материализовать коннекционизм.
Совместно эти немногочисленные действующие лица первого этапа заложили фундамент для развития коннекционизма, но в силу ряда обстоятельств они не смогли противостоять наступлению временного спада активности в этом направлении, который по аналогии с «зимой AI» назвали «зимой коннекционизма», продлившейся более 20 лет. Наступление этой зимы обычно связывают с выходом книги Марвина Минского и Сеймура Паперта (о нем в Главе 9) «Персептроны» (Perceptrons: an introduction to computational geometry, 1970), где идеи коннекционизма были подвергнуты серьезной критике. Нельзя сказать, что позиция Минского и Паперта не имела право на существование, дальнейшее показало, что взгляды основоположников коннекционизма изрядно страдали механистичностью, но справедливости ради надо сказать, что главная причина наступления зимы коннекционизма, конечно же, в отсутствии технологий для полноценной материализации их замыслов. Если бы нашлись соответствующие технологии, развитие пошло бы иным путем.
Итак, коннекционизм начался с работ Уоррена Мак-Каллока и Уолтера Питтса, их считают основателями нейрокомпьютинга, поскольку они первыми показали как простые цепочки нейронов, объединенные в группы, оказываются способными к вычислению логических функций. Результатом работы дуэта MCP стала констатация того факта, что таблицы истинности любой сложности могут быть собраны из нейронов, они показали достаточные условия для воспроизведения логических функций средствами ANN. Предложенная ими в 1940 году простая модель нейрона (simple threshold model) реализует функцию, называемую threshold function, или activation function, она воплощается в устройстве threshold gate. На русский язык название функции переводится как функция активации нейрона, она определяет выходной сигнал, а ее значение определяется входным сигналом или набором входных сигналов. Обычно в этом качестве используется нормализуемая сигмоидная функция активации. Нейрон, выполняющий сигмоидную функцию, называют threshold neuron, или пороговый нейрон.
В модели Мак-Каллока и Питтса связи имеют фиксированные веса, а результатом пороговой функции может быть 0 или 1, такой нейрон может быть только пороговым классификатором (classifier). Слабость модели MCP в используемой ими пороговой переходной функции, здесь нейроны имеют состояния 0, 1 и поддерживают пороговую логику перехода из состояния в состояние. Каждый нейрон в сети определяет взвешенную сумму состояний всех других нейронов и сравнивает ее с порогом, чтобы определить свое собственное состояние. Пороговый вид функции ограничивает возможности обучения нейронной сети, к тому же модель не учитывает многих особенностей работы реальных нейронов (импульсного характера активности, нелинейности суммирования входной информации и др.). Несмотря на то, что за прошедшие годы нейроматематика ушла далеко вперед, многие взгляды MCP остаются актуальными и поныне.
Мак-Каллок и Питтс продемонстрировали присущий ANN вычислительный потенциал, но чтобы его реализовать, нужен некоторый механизм для манипуляций с сетью. Каким он может быть? В традиционных компьютерах, ограниченных способностью выполнять последовательность команд, таким механизмом служит программирование. Хотя компьютер и является универсальным инструментом, но сам по себе он остается простым программным автоматом, он может выполнять заложенную в него программу, не более того. В связке компьютерного программного обеспечения с аппаратным «железо» – это постоянная часть, программа – переменная, она обеспечивает адаптацию компьютера к задаче.
В ANN по определению нет специального механизма управления, нет и не может быть отдельно существующей внешней по отношению к сети программы, поэтому здесь нужен иной механизм, каким-то образом меняющий сеть, адаптирующий ее к решаемой задаче, превращающий ANN на время решения задачи из универсального механизма, готового к обучению, в специализированный механизм, и этот процесс и принято называть машинным обучением (ML).
Сегодня машинное обучение (Machine Learnung, ML) связывают исключительно с ANN, что совершенно естественно, но не только ANN обучаемы, есть и иные обучаемые автоматы. Впервые мысль об обучении машины сформулировал автор шашечной программы Артур Самюэль (Arthur Samuel, 1901–1990) в далеком 1959 году! В статье, описывающей эксперимент машинной игры, он дал следующее определение ML: «Машинное обучение это научное направление, изучающее подходы к тому, как побудить компьютеры к полезным действиям, не обращаясь к программированию». Спустя 60 лет не остается ничего иного, как восхититься его прозорливостью, хотя ML по Самюэлю имеет мало общего с тем, как понимается обучение сегодня, когда обучается не программа, работающая на машине, как у него, а нейронная сеть, работа которой поддерживается машиной. Предложенный им алгоритм не делил процесс игры на обучение (training) и исполнение (inference), как это делается при обучении ANN, он использовал дерево поиска игровых позиций, достижимых из текущего состояния, с применением алгоритма альфа-бета-отсечения (alpha-beta pruning). Алгоритм отсечения перебирает и оценивает все ветви дерева поиска до тех пор, пока не найдено значение хуже, чем вычисленное для предыдущих ветвей. Этот подход впоследствии часто использовали для программирования различных антагонистических игр, в том числе очень модной одно время машинной игры в шахматы. Суть обучения в данном случае заключалась в том, что веса оценочной функции изменяются в процессе игры. В начальный период истории AI на метод альфа-бета-отсечения возлагались большие надежды, на него делали ставку такие апостолы того времени Аллен Ньюэлл и Герберт Саймон, Джон Маккарти и Марвин Минский.
Этот же метод независимо от них был открыт отечественным ученым А. Л. Брудно (1918–2009), назвавшим его «методом граней и оценок». Будучи изначально математиком, Александр Львович вел в Математическом институте им. В. А. Стеклова АН СССР семинар, содействовавший тому, что у многих его участников позднее возник интерес к электронным вычислительным машинам и кибернетике. В начале 1950-х годов А. Л. Брудно был привлечен член-корреспондентом АН СССР И. С. Бруком к созданию программ для разрабатывавшейся под его руководством ЭВМ М-2. Позже Брудно работал Институте электронных управляющих машин (ИНЭУМ).
Менее известны работы Михаила Львовича Цетлина в области близкой к ML. Цетлин – один из представителей плеяды выдающихся математиков-кибернетиков 50–70-х годов, ученик одного из крупнейших математиков XX века Израиля Моисеевича Гельфанда. Он работал над созданием устройств, которые могли бы демонстрировать целесообразное поведение в случайных средах. Предпосылками исследований стали прежние работы Цетлина, связанные с изучением поведения подопытных животных. Он интерпретировал поведение автомата как поведение животного, контактирующего со средой, которая в зависимости от его поведения наказывала или поощряла, при этом автомат мог обучаться, то есть стремиться к уменьшению числа наказаний за счет изменения своего внутреннего состояния.
Более полувека эта часть научного наследия Цетлина оставалась известна лишь узкому кругу отечественных специалистов, однако в апреле 2018 года вышла работа Гранно Оле-Кристофера, профессора норвежского Университета Агдера, директора Центра исследований в области искусственного интеллекта, имеющая необычный заголовок «Машина Цетлина. Теоретико-игровой бандитский подход к оптимальному распознаванию образов с пропозициональной логикой» (The Tsetlin Machine – A Game Theoretic Bandit Driven Approach to Optimal Pattern Recognition with Propositional Logic). С бандитизмом этот подход, конечно, не имеет ничего общего – это просто метафора. Работы Цетлина стали импульсом к развитию теории многоруких бандитов, названных так по аналогии с «однорукими бандитами», устанавливаемыми в казино: в теории вероятностей задачей многорукого бандита называют задачу, в которой ограниченный набор ресурсов необходимо распределить между противоборствующими сторонами. В своей статье Оле-Кристофер показал, как можно сконструировать самообучаемую машину на предложенных Цетлиным принципах в сочетании с пропозициональной логикой (раздел символической логики, изучающий образованные из простых сложные высказывания и их взаимоотношения).
В СССР еще несколько ученых занимались вопросами машинного обучения, но не нейронных сетей, а иных автоматов. Среди них киевлянин Алексей Григорьевич Ивахненко. В 1965-м году он опубликовал работу с описанием обучающих алгоритмов. Известный оппортунист и диссидент машинного обучения Юрген Шмидхубер, к которому мы еще вернемся, считает Ивахненко не только отцом глубокого обучения, но и метода обратного распространения ошибки (backpropagation). Впрочем, этот метод настолько очевиден, что его автором признают не менее 10 человек. Среди них американских специалистов в области оптимального управления Артура Брайсона и Генри Келли.
Особое место в этой когорте принадлежит Владимиру Наумовичу Вапнику, автору машины опорных векторов (support vector machines, SVM), впервые предложенной им в 1963 году вместе с Александром Яковлевичем Лернером в статье «Узнавание образов при помощи обобщенных портретов». Эта работа нашла продолжение в совместно статье Вапника с Алексеем Яковлевичем Червоненкисом «Об одном классе персептронов» (1964). SVM реализуют уникальный по сравнению с другими алгоритмами способ реализации машинного обучения. В том же году и в том же журнале «Автоматика и телемеханика» вышла статья трех авторов М. А. Айзерман, Э. М. Браверман и Л. И. Розоноэр «Теоретические основы метода потенциальных функций в задаче об обучении автоматов разделению входных ситуаций на классы». В полном объеме статистическая теория обучения на базе SVM изложена в книгах Вапник В. Н., Червоненкис А. Я. «Теория распознавания образов» (1974) и Вапник В. Н. «Восстановление зависимостей по эмпирическим данным» (1979). Они были переведены на английский и немецкий языки. В. Н. Вапник остается единственным представителем отечественной научной школы среди ученых, получивших признание за их вклад в машинное обучение.
И первые обучаемые шахматные программы, и машина Цетлина, и многое другое из 60–70-х годов для современного исследователя представляет исключительно исторический интерес. То, что мы понимаем под ML сегодня, началось с работы Дональда Хебба, описанной им в книге «Организация поведения: нейропсихологическая теория» (The Organisation of Behaviour, 1949), где он распространил принципы ассоциативного обучения на ANN, его подход называют Hebbian Learning (HL). Предпосылки к HL заимствованы из биологии, и они остаются актуальными вплоть до наших дней. До него нейробиологи в общих чертах понимали, как работают нейроны, однако именно он первым предложил механизм, согласно которому нейроны могут кодировать ассоциации.
Дональд Хебб признан основоположником ассоциативного машинного обучения, в некоторой мере напоминающего ассоциативное обучения человека. В психологии под ассоциативным обучением понимают способность приобретать знание, привычки, умение, навыки, представления, предпочтения и т. д. Для человека оно не является единственным, педагогика насчитывают около двух десятков типов обучения, к которому способен человек, машины же способны только к одному типу обучения – ассоциативному (Associative learning), ограниченному только тем, что в его процессе обучаемый обнаруживает связь (ассоциацию) между двумя стимулами или событиями. В полном смысле этого слова к ассоциативному обучению способен только человек, существенно меньшими способностями обладают животные. В XX веке в этом ряду обучаемых систем появилась машина.
Хебб показал возможность обучения посредством воздействия на синаптическую связь, соединяющую два искусственных нейрона. Она изменяется, если в процессе обучения оба нейрона согласованно испытывают возбуждение, либо торможение, то есть один нейрон может возбуждать другой нейрон, и после повторяющейся активации клетки «нейроны, которые срабатывают вместе, соединяются» и таким образом происходит обучение. При возбуждении одновременно двух соседствующих нейронов вес синаптического соединения между ними возрастает, уменьшается или не изменяется в зависимости от выбора функции активации. Это предположение называют Правилом обучения Хебба. В его книге оно определено так: «Если аксон клетки А находится достаточно близко, чтобы возбуждать клетку B, и неоднократно или постоянно принимает участие в ее возбуждении, то наблюдается некоторый процесс роста или метаболических изменений в одной или обеих клетках, ведущий к увеличению эффективности А, как одной из клеток возбуждающих В». Правило Хебба не обладает прямым действием, из него не следует, как именно строить процесс обучения, оно допускает множество трактовок, как со стороны нейрофизиологов, так и математиков. За прошедшее время правило Хебба стало предметом многочисленных обсуждений, возникли его многочисленные модификации, но по сути оно остается единственным теоретическим основанием ML, поскольку нейрофизиологический постулат, выдвинутый Хеббом, имеет под собой прочное биологическое основание.
Возникают естественные вопросы: «Что задержало развитие машинного обучения как базиса для AI на несколько десятилетий? Почему оно уступило свое место символьному подходу, чтобы потом возродиться и практически полностью его вытеснить?» Ответ довольно прост, он обращает нас в проблеме «mind and body» (тела и души) – машинному обучению нужно тело, нужна система параллельной распределенной обработки данных (Parallel Distributed Processing, PDP), что принципиально невозможно на компьютерах, построенных по фон-неймановской схеме, вполне удовлетворяющей требованиям символического подхода. Как только открылась технологическая возможность материализации альтернативного символическому коннекционистского подхода машинное обучение расцвело бурным цветом.
Первым человеком, попытавшимся доступными ему скудными техническими средствами преодолеть барьер современного ему компьютинга и реализовать какое-то подобие PDP, был Фрэнк Розенблатт. Он ввел понятие персептрон (от латинского perceptio – восприятие) для математической или компьютерной модели восприятия информации мозгом. С тех пор представление о персептроне заметно изменилось, в современных учебниках и энциклопедиях персептрон трактуется и как математическая или кибернетическая модель восприятия информации мозгом, и как виртуальное устройство, состоящее из элементов трех типов: датчиков (тип S), передающих сигналы ассоциативным элементам (тип A) и далее реагирующим элементам (тип R). Собранные в группу такие устройства способны к восприятию (перцепции) в частном случае зрительных образов. Трактовок так много, что появляются статьи с называниями What the Hell (или Heck) is Perceptron?, что можно перевести как «Что за хреновина это персептрон?» Скорее всего, потому, что персептроном можно назвать и модель отдельного нейрона, и нейронную сеть, состоящую из группы нейронов, и стек простых нейронов, образующих многоуровневый персептрон (Multi-Layer Perceptron) и сеть из таких более сложных нейронов. Они объединены способностью к перцепции.
Можно обнаружить огромное множество статей, где в деталях разбирается работа именно той конкретной модели нейрона, которую предложил Розенблатт, анализируется ее возможности и недостатки, хотя сегодня устройство этой модели не имеет большого значения. К работе Розенблатта стоит отнестись примерно так, как к изобретенному Николаусом Отто двигателю внутреннего сгорания. В наше время лишено смысла проводить детальный анализ этого примитивного по современным представлениям двигателя конца XIX века, достаточно знать, что на нем поехал первый автомобиль Даймлера и Бенца, в этом его историческая миссия, с него начитаюсь автомобилизация. То же самое относится к персептрону Розенблатта, по объективным причинам он остался в прошлом, однако сыграл точно такую роль пускового механизма, как двигатель Отто.
Но сам Розенблатт отнесся к нему иначе, он рассматривал персептрон не просто как модель мозга, наделял его большими возможностями, он писал о нем как «первой машине, способной к собственным идеям». Основанием для этого смелого утверждения был удачный эксперимент, результаты которого стали достоянием гласности в июле 1956 года, точно в то же время, когда проводился Дартмутский семинар. Программная модель персептрона была загружена в один из первых серийных мэйнфреймов IBM 704, построенных на лампах, с памятью на линиях задержки, еще даже не с ферритовой. Эксперимент проводился в военно-морской лаборатории Корнельского университета. Эта программа сортировала вводимую колоду перфокарт, деля ее на две с разными кодами перфорации. Программа обладала способностью к обучению и через пятьдесят проходов смогла выполнять задание безошибочно. Скромность результата не помешала Розенблатту сделать в статье «Проектирование умных автоматонов» (The Design of an Intelligent Automaton) следующее амбициозное заявление: «Истории о создании машин с человеческими способностями много лет волновали писателей-фантастов, но теперь мы становимся свидетелями рождения таких машин – машин, способных воспринимать, распознавать и идентифицировать окружающее без вмешательства человека в процесс обучения». Удивительно похоже на ленинское «Революция, о необходимости которой все время говорили большевики, совершилась».
Актуальные сегодня способности «воспринимать, распознавать и идентифицировать» – это те ключевые понятия, которые отличают точку зрения Розенблатта на AI от того, что вкладывали в представление об AI отцы-основатели, ведомые Минским и Маккарти. Розенблатт не пытался возложить на машину свойственные человеку функции, но предложил использовать ее для расширения способностей человека. Информация о достижениях Розенблатта вышла на национальный уровень, The New York Times оценила их как революционные, газета вышла под заголовком «Новое военно-морское устройство обучается в процессе работы», примерно так же отреагировала и остальная пресса. Если учесть практическую ценность исторического наследия персептрона, то мы вправе сказать, что наше нынешнее представление об AI существенно ближе к тому, как понимал его Розенблатт, чем те, кто работал в МТИ. Он считал, что задача AI не в замещении человека при решении тех задач, на которые он способен, а восприятии, распознавании и идентификации потока данных со скоростью и в объемах, на которые человек не способен. Именно так сейчас трактуется AI. Если с этим согласиться, то вопреки сложившейся традиции местом рождения AI следует считать не Дартмутский колледж, а Корнельский университет, поскольку там появился только лишь термин AI, а Розенблатт наполнил его современным содержанием.
На момент создания персептрона его автору было всего 30 лет. Он, как и значительная часть специалистов первого поколения в области AI, по случайному, а может быть и не случайному совпадению родился в семье выходцев из Украины, в пригороде Нью-Йорка называющемся Нью-Рошель с преимущественно еврейским населением. Здесь он окончил Bronx High School of Science и поступил в Корнельский университет. На год позже, заметим, ту же самую школу закончил Марвин Минский, еще один сын эмигрантов из Российской империи, однако избравший МТИ для продолжения образования. По школе оба знакомы, их отношения даже можно назвать дружескими, к тому же и первая научная работа Минского тоже связана с нейронными сетями. Но в последующем научные интересы школьных друзей заметно разошлись, и даже вылились в острую, но сугубо научную полемику, отчего нередко их изображают злобными антагонистами, хотя сам Розенблатт считал своего школьного товарища всего лишь «лояльным оппозиционером».
Розенблатт не только ученый, но и инженер, уже в процессе написания диссертации в 1956 году он разработал специализированное устройство EPAC (Electronic Profile Analyzing Computer). Простейший EPAC получил развитие в созданном в 1960 году Розенблаттом более серьезном устройстве Mark-1, которое обладало в зародыше тем, что сейчас называют компьютерным зрением. Это была электромеханическая машина, снабженная матрицей из фотосенсоров 20х20, моделирующая двухуровневый персептрон и способная обучаться распознаванию алфавитно-цифровых символов. Сегодня она размещена в Смитсоновском музее в Вашингтоне. Машину не стоит путать с ее тезкой Mark I, построенной 1937–39 годах Говардом Айкеном (Howard Aiken, 1900–1973).
В отличие от других первопроходцев, для Розенблатта создание AI не стало самоцелью, он остался нейропсихологом, исследовал вопросы передачи выученных механизмов поведения от одних крыс другим с помощью вытяжек из головного мозга, опубликовал по этой теме немало работ и в конечном итоге доказал невозможность переноса памяти и навыков. У Розенблатта был широкий круг интересов, его увлекала астрономия, он создал собственную обсерваторию, где работал со студентами, и в не меньшей мере парусный спорт. Это опасное хобби привело Розенблатта к гибели во время прогулки по Чесапикскому заливу в возрасте 43 лет. Невольно на память приходит другая трагедия, в 2007 не вернулся из однодневного путешествия на яхте один из крупнейших авторитетов в компьютерной науке Джим Грей.
В том, что Розенблатт оставил работу над персептроном, нередко упрекают Марвина Минского с его книгой «Персептроны». В пользу того, что подобные утверждения ошибочны, говорит хотя бы то, что книга была издана за год до гибели Розенблатта, то есть прошло более пяти лет с того момента, когда тот оставил эту тему. Минский и Папперт математически убедительно показали ограничения, присущие усовершенствованному ими одноуровнему персептрону. Они связывали эти ограничения с существовавшими на тот момент слабостями параллельных вычислений, необходимых для реализации идеи персептрона. Это дало основания говорить о «заказном» характере книги, а также о том, будто она повлияла на пути развития AI, сместив научный и общественный интерес и, что не менее важно, поток субсидий правительственных организаций США на проповедуемый ими символьный подход к AI. На самом деле все проще, успеху символического подхода способствовала потенциальная возможность реализации на существовавших компьютерах, а для персептрона не было аппаратной основы.
Много позже заслуги Розенблатта были должным образом оценены, IEEE (Institute of Electrical and Electronics Engineers) в 2004 году учредил награду его имени за достижения в области коннекционизма и нейронных сетей. Среди удостоенных ею Владимир Вапник и Джеффри Хинтон.
Менее известен работа профессора Стэнфордского университета Бернарда Уидроу (Bernard Widrow, 1929) и его аспиранта Тэда Хоффа (Edward Hoff, 1937), попытавшихся перенести функционал персептрона на устройства, названные мемисторами и создать из них ANN. Они не были ни нейропсихологами, ни математиками, а всего лишь инженерами, специалистами в области электротехники, поэтому исследования в области ANN не заняли главного места в их жизни. Уидроу был и остается специалистом в области адаптивных фильтров, а Хофф позже вошел в историю как один из создателей первого микропроцессора Intel 4004. В 1968 году он перешел в Intel, став двенадцатым в списке сотрудников начинающей компании, а много позже первым почетным сотрудником (Intel Fellow).
Но ранее в своей диссертации Хофф предложил LMS-алгоритм адаптивной фильтрации, основанный на методе наименьшего квадрата. Этот алгоритм широко используется в различных устройствах до настоящего времени и он стал основой для метода обучения по Уидроу и Хоффу (Widrow-Hoff Learning) и реализован на устройствах, изобретенных Уидроу и названных им мемистром (memistor). Мемистор представляет собой резистор с памятью, его не следует путать с близком по названию устройством мемристор (memristor, memory resistor), изобретенным на 10 лет позднее. Мемистор похож на триод, он тоже имеет три контакта, на два подается питающее напряжение, а на третий управляющий сигнал, а у мемристора всего два контакта, он способен запоминать свое состояние после прохождения по нему тока. Широкого распространения мемисторы не получили, но Уидроу и Хофф в 1960 году смогли реализовать на них одноуровневый нейрон по модели MCP, названный ими ADALINE (Adaptive Linear Neuron), а через два года и многоуровневый MADALINE (Many ADALINE).
Backpropagation (backward propagation of errors) переводится буквально как обратное распространение ошибок. Сегодня так называют наиболее популярный метод обучения многослойных персептронов, то есть нейронных сетей с прямой связью (feedforward neural network). Такие сети отличаются возможностью реализовать в них обратную связь, этот необходимый компонент практически любого самообучения.
В данном случае использование обратной связи в процессе обучения предполагает два прохода по всем слоям сети: прямого и обратного. При прямом проходе входной поток данных подается на входной слой нейронной сети, после чего он распространяется по сети от слоя к слою. В результате генерируется набор выходных сигналов, который и является фактической реакцией сети на данный входной образ. Во время прямого прохода все синаптические веса сети фиксированы. Во время обратного прохода все синаптические веса настраиваются в соответствии с правилом коррекции ошибок, а именно: фактический выход сети вычитается из желаемого, в результате чего формируется сигнал ошибки. Этот сигнал впоследствии распространяется по сети в направлении, обратном направлению синаптических связей. Отсюда и название – алгоритм обратного распространения ошибки. Синаптические веса настраиваются с целью максимального приближения выходного сигнала сети к желаемому.
У этого термина на удивление сложная история, backpropagation был впервые предложен Розенблаттом в 1961 году, а в 1974 году метод backpropagation описал в своей диссертации Пол Вербос (1947), но тогда на его алгоритмы научное сообщество не обратило внимание. В 1990 году Вербос опубликовал обзорную статью «Backpropagation сквозь время: на что оно способно и как оно это делает» (Backpropagation Through Time: What It Does and How to Do It), где отдает должное ряду ученых, в том числе Хинтону и Лекуну, и подчеркивает, что метод backpropagation может быть использован не только в приложении к ANN, но и к другим динамическим системам.
В последнее время странным образом возник интерес к проблеме приоритета. Такое бывает, когда наступает время какой-то идеи и она приходит на ум многим одновременно, дискутировать о приоритете в таких случаях лишено какого-либо смысла. Тем не менее полемику за право считать определенного ученого первооткрывателем backpropagation активно навязывает швейцарец Юрген Шмидхубер. Он работает в альтернативном направлении, которое называется долгой краткосрочной памятью LSTM (Long short-term memory), связываемого рекуррентными нейронными сетями. Шмидхубер отдает приоритет финну Сеппо Линнаймма, но при этом находит предпосылки к этому методу даже у Леонарда Эйлера, Огюстена Коши и еще у полутора десятка математиков, работавших в XX веке. Сильнейший гнев у Шмидхубера вызвало присуждение Honda Prize 2019 Джеффри Хинтону с формулировкой «… за достижения в области AI, включая алгоритм Backpropagation…» И в самом деле, непонятно чем руководствовалось жюри, вручающее награды за достижения в области экологических технологий, но оно допустило очевидный ляп! Что же касается скандала, устроенного Шмидхубером, то, скорее всего, поводом для него стал тот факт, что его обошли при награждении Тьюринговской премией 2018 за достижения в области глубокого обучения. Премия тогда досталась троим – Джефри Хинтону, Джошуа Бенджо и Яну Лекуну, но не ему, что на самом деле не вполне справедливо, учитывая и его достижения. Сложившаяся ситуация вынудила Хинтона прилюдно оправдываться за явную оплошность со стороны жюри Honda Prize, впрочем, что мешало ему заранее ознакомиться с формулой награждения? На фоне этой полемики особенно удивительно выглядит статья «Метод обратного распространения ошибки» в русскоязычной википедии, она явно выдержана в духе одиозных доказательств российского приоритета на любые изобретения, характерных для сталинских времен. Разногласия относительно приоритета естественны, они возникают по той причине, что сама по себе идея обратной связи в обучении очевидна, к ней пришли многие исследователи независимо друг от друга.
Очередным шагом в развитии прикладного коннекционизма стало создание иерархической многослойной ANN сверточного типа (Convolutional Neural Network, CNN) в 1980 году. Японский исследователь Кунихика Фукусима (Kunihiko Fukushima) назвал ее неокогнитрон. Он занимался распознаванием рукописных текстов и взял в качестве прототипа идею когнитрона, ранее выдвинутую шведом Торстеном Визелем (Torsten Wiesel, 1924) и канадцем Дэвидом Хьюбелом (David Hubel, 1926–2013). В 1981 году Визель и Хьюбел стали лауреатами Нобелевской премии по физиологии и медицине «за открытия, касающиеся принципов переработки информации в нейронных структурах». Фундаментальные работы Визеля и Хьюбела по нейрофизиологии зрения заложили основы организации и развития нейронных цепей, ответственных за зрительное распознавание объектов. Иногда, например в той же русскоязычной википедии, открытие CNN ошибочно приписывают Яну Лекуну.
В начале 80-х существенный вклад в развитие ANN сделал финский ученый Теуво Кохонен (Teuvo Kohonen, 1934 года). В течение многих лет он руководил Исследовательским центром нейронных сетей Технологического университета в Хельсинки, созданным специально для проведения научных исследований, связанных с его разработками. Этот класс ANN так и назван нейронными сетями Кохонена, он отличается наличием слоя, состоящего из адаптивных линейных сумматоров. «Самоорганизующаяся карта Кохонена», так их еще называют, применяется для решения задач моделирования, прогнозирования, выявления наборов независимых признаков, поиска закономерностей в больших массивах данных. Символично, что Теуво Кохонену была вручена награда имени Фрэнка Розенблатта.
К началу восьмидесятых годов, когда появились достаточно мощные компьютеры, открылась возможность для перехода от теории коннекционизма к практике, недоставало методов, позволяющих создавать компьютерными средствами некоторое подобие мозга, моделируя нейронные сети. Движение в этом направлении началось с взаимодополняющих работ двух американцев – физика Уильяма Литтла (William Little) из Стэнфордского университета и нейрофизиолога Джона Хопфилда (John Hopfield, 1933), получившего известность благодаря открытию в 1982 году ассоциативных нейронных сетей (Associative Neural Network, ASNN). Литтл смог найти параллель между мозгом и определенным классом физических систем, значение этого открытия состоит в том, он показал как известные методы моделирования, разработанные для физических систем, могут быть распространены и на нейронные сети. Эти наблюдения описаны в двух статях: в перовой «Существование устойчивых состояний в мозгу» (The existence of persistent states in the brain, 1974) показана теоретическая возможность моделирования деятельности мозга, а во второй «Модели Изинга в приложении к нейронным сетям» (An Ising model of a neural network, 1980), где показано почему именно эта физическая модель может быть адаптирована к моделированию ANN. В 1982 году Хопфилд сделал следующий шаг, доказав изоморфизм выбранной Литтлом модели Изинга и рекуррентных моделей нейронных сетей. С тех пор модель Изинга является фундаментальной основой современных работ в области ANN, хотя для большинства специалистов в этой области сам факт ее существования остается неизвестным.
Возникает естественный вопрос: «Почему модель Изинга, разработанная в 20-х годах прошлого века и используемая для моделирования в физике, химии, биологии и даже социологии, вдруг оказалась так важна еще и для воспроизведения нейронных сетей на компьютере?» Для того, чтобы ответить на этот вопрос надо развести два понятия: одно – собственно модель с тем или иным приближением отражающая свойства реального объекта, а другое – математический шаблон этой модели, который может быть запрограммирован или обучен.
В природе случается, что моделируемым объектам, имеющим совершенно разную природу, могут соответствовать одни и те же математические шаблоны. Приведем простейший пример. При замыкании одного заряженного конденсатора другим равным по емкости незаряженным заряд остается тем же, но напряжение падает вдвое и происходит неизбежная потеря накопленной энергии в виде электромагнитного и светового излучения. Точно также теряется накопленная кинетическая энергия при неупругом соударении движущегося тела с равным по массе неподвижным – в данном случае сохраняется масса, а скорость уменьшается тоже, и половина кинетической энергии уходит на нагрев. В этих двух опытах физика совершенно разная, но происходящее и в том и в другом случае описывается одним и тем же математическим шаблоном, различие лишь в том, что в первом случае на два делится произведение величины заряда и квадрата напряжения, а во втором величины массы и квадрата скорости.
Существует огромное число разнообразных природных процессов, которые описываются одними и теми же дифференциальными, интегральными уравнениями или иными уравнениями, играющими роль шаблона. Лет 70 назад обнаружилось, что шаблоны удобно воспроизвести при помощи операционных усилителей – относительно простых электронных устройств, из которых собирали специальные моделирующие аналоговые вычислительные машины (АВМ). Для имитации могут быть использованы не только электронные устройства, но и пневматические, было даже такое направление, называвшееся пневмоникой, а гидравлические интеграторы позволяли решать дифференциальные уравнения в частных производных.
Возвращаясь к модели Изинга надо сказать, что область ее действия распространяется на кооперативные системы, которые невозможно описать уравнениями. Кооперативные системы отличаются тем, что представляют собой совокупность элементов, взаимодействующих между собой, и подчиняются одновременно двум законам: по одному подчиняются отдельные элементы, а второй управляет поведением всей системы в целом. Такая сложная системная организация не позволяет объяснить свойства системы в целом через совокупность свойств отдельных компонентов.
Автор модели Эрнст Изинг (Ernst Ising, 1900–1998) предложил ее в 1920 году будучи аспирантом в Гамбургском университете. Там он изучал магнитные свойства спинового стекла – материала, имеющего магнитные свойства, но непохожего на обычные магниты. В обычных материалах, таких как железо, спины электронов обычно выстраиваются в одном направлении: если электрон со спином «вниз» окружен электронами со спином «вверх», перевертывается и, когда большинство спинов в куске железа таким образом выстраиваются, он превращается в магнит. Такое происходит в обычных магнитах потому, что сила взаимодействия между соседними спинами одинакова, в отличие от них в спиновом стекле эта сила может отличаться и даже бывает отрицательной, из-за чего расположенные рядом спины ведет себя произвольно и могут принимать противоположные направления. Единообразие частиц обычного магнита приводит к тому, что его энергия обычного магнита минимальна, если все спины выровнены. Со спиновым стеклом дело сложнее, его частицы имеют свободу воли, они не ведут себя единообразно и невозможно заранее определить его состояние, что позволяет отнести его к кооперативным системам.
Изучение кооперативных систем началось со статистической физики, где квантовая модель Изинга стала одной из стандартных, продолжилось в химии (молекулярные модели Изинга), а позже она распространилась на биологические, социально-экономические науки и даже на геологию, на одно из новейших приложений – лингвистика. И что удивительно, при столь большом природном разнообразии, для моделирования всех этих систем в качестве меташаблона можно использовать одну и ту же модель Изинга. В 2010 году наш соотечественник Станислав Смирнов стал лауреатом Филдсовской премии (2010) «за доказательство конформной инвариантности двумерной перколяции и модели Изинга в статистической физике».
Для общего знакомства с моделью Изинга и ее автором стоит прочесть статью Евгения Залмановича Мейлихова «Трагическая и счастливая жизнь Эрнста Изинга», опубликованную в журнале «Природа», он к тому же и автор весьма познавательной книги «А. С. Пушкин и физика. Кто, как и какой физике учил Пушкина». Есть интереснейшая статья группы авторов, один из которых сын Эрнста Изинга «Судьба Эрнста Изинга и судьба его модели» (The Fate of Ernst Ising and the Fate of his Model, 2017), где изложена чрезвычайно необычная биография ученого и содержится популярное введение. Тем, кого глубже заинтересует историческое значение модели Изинга, можно порекомендовать цикла статей Мартина Нисса «История модели Изинга» (History of the Lenz-Ising Model 1920–1950: From Ferromagnetic to Cooperative Phenomena и History of the Lenz—Ising Model 1950–1965).
Фундаментально роль модели Изинга в нейронауке была переосмыслена совсем недавно, в методологической статье австрийских философов Тарья Кнууттила и Андреа Лоттгерс, опубликованной в одном из старейших американских философских ежеквартальных изданий The Monist в 2015 году. Ее название «Магниты, спины и нейроны. О родственности шаблонов моделей в разных дисциплинах» (Magnets, Spins, and Neurons: The Dissemination of Model Templates Across Disciplines). Название отражает желание авторов показать логическую связь нейрофизиологии и физики. Кнууттила и Лоттгерс анализируют цепочку от Изинга к Литтлу и от Литтла к Хопфилду. Для нас статья представляет интерес в связи с тем, что ее авторы дают расширенную трактовку модели-шаблона Изинга, вышедшую из физики, но распространившую свое влияние на широкий круг дисциплин.
Кнууттила и Лоттгерс подчеркивают важность разделения двух понятий – собственно модели (физической или нейронной) и общего для них обеих математического шаблона. Они начинают статью со следующего наблюдения: «Одним из самых бросающихся в глаза фактов, обнаруживаемых при использовании современных средств моделирования, является известный феномен, суть которого в том, что одни и те же математические шаблоны соответствуют моделям, относящимся к совершенно разным областям».
У Джона Хопфилда, как и у многих исследователей AI, российские корни, его родители эмигрировали в конце XIX века из Российской Империи и получили в США физическое образование. Возможно, эта семейная близость психолога к физике позволила ему развить соображения, высказанные Литтлом. В статье «Нейронные сети и физические системы, обнаруживающие коллективные вычислительные способности» (Neural networks and physical systems with emergent collective computational abilities, 1982) он описал устройство полносвязной сети с симметричной матрицей связей более известий как сеть Хопфилда. Наравне с этим названием такие сети еще называют сетями, использующими модель Изинга (Ising model of a neural network).
Объединив нейронную и физическую модели, Хопфилд сумел перевести коннекционизм с уровня абстрактных рассуждений на прагматический уровень с возможными в будущем практическими приложениями. Таким образом он положил начало новой эре, той в которой мы живем сейчас, когда машинное обучение вытеснило с положения доминирующей парадигмы в науке об искусственном интеллекте символический подход.
По Хопфилду, нейронная сеть, которая изменяется во времени, подобна спиновому стеклу. Эта аналогия открыла возможность применить к машинному обучению математику, заимствованную из статистической физики! Сеть Хопфилда получила развитие в сети Хемминга предложенной Ричардом Липпманном в 1987 году. Сети Хопфилда и Хемминга остаются до нашего времени предметом изучения, наличие в них элементов ассоциативной памяти делает их полезными в задачах распознавания, но главное достижение Джона Хопфилда в том, что его работа стала первым камнем, вызвавшим лавину нынешнего массового распространения нейронных сетей и машинного обучения.
Открытие Хопфилда прорвало плотину, с его работы начался активный поиск других шаблонов для моделей нейронных сетей. В 1985 году трое – математик Дэвид Окли, психолог Джеффри Хинтон и биолог Терри Сейновски опубликовали статью «Обучающий алгоритм для машины Больцмана» (A Learning Algorithm for Boltzmann Machines), они начали ее с замечания о том, что их работа служит развитием трудов Хопфилда. Статья начинается со слов: «Соответствие современных технологий сверхбольших интегральных схем VLSI архитектуре мозга стала источником возобновления интереса к коннекционизму. Такие схемы способны к долговременному хранению данных и обеспечению связей между элементами, подобными нейронам». В качестве средства для моделирования работы мозга, в идеале они видят некую многопроцессорную структуру, объединенную коммуникационной сетью, для нее они предложили название «Машина Больцмана», обратим внимание на слово машина. Оно было выбрано в честь австрийского физика Людвига Больцмана, одного из создателей статистической физики. Машина Больцмана может рассматриваться как стохастический генеративный вариант сети Хопфилда. Вероятность нахождения сети в конкретном состоянии соответствует известному в термодинамике распределению Больцмана.
Импульс, приданный Хопфилдом работам в области ANN, позволил последующим событиям развиваться с калейдоскопической быстротой. Многие из них были непосредственно связаны с Джеффри Хинтоном, что сделало его признанным лидером новой волны коннекционизма, которую можно назвать мэйнстримом. Старт состоялся в 1986 году, вместе с выходом в журнале Nature ставшей широко известной статьи «Представление обучения посредством метода обратного распространения ошибок» (Learning representations by backpropagating errors). Ее первым и основным автором был психолог-математик и видный представитель коннекционистского подхода Дэвид Румельхарт, а соавторами Джеффри Хинтон и Рональд Уилсон. В ней изложен алгоритм обратного распространения ошибки в приложении к многослойному персептрону Румельхарта, являющемуся частным случаем персептрона Розенблатта. Публикация статьи во всемирно известном журнале без упоминания предыстории backpropagating была неодобрительно встречена многим специалистами. Поскольку Румельхарт вскоре ушел из жизни, за это невольное упущение пришлось оправдываться Хинтону, это было впервые, другой случай описан выше. Но, если по существу, оппонентам не стоило поднимать волну, им следовало бы смириться с тем, что в истории науки и техники подобные прецеденты повторных открытий и изобретений далеко не редкость. Хорошо известны так называемые затяжные «патентные войны» между индивидуальными изобретателями или корпорациями.
В том же 1986 году Полом Смоленским (нельзя не обратить внимание на сходство фамилий с Минским, и у него тоже российские корни) была разработана собственная версия машины Больцмана, названная ограниченной (Restricted Boltzmann machine, RBM). RBM отличается способностью проходить обучение как без учителя, так и с учителем. В 2000-х годах RBM приобрела большую популярность и стала рассматриваться не как вариации машины Больцмана, а как особые компоненты в архитектуре сетей глубинного обучения. Дальнейшее развитие машина Больцмана получила в 2006 году в совместной работе Хинтона с его аспирантом Русланом Салахутдиновым, новую версию она назвали глубокой (Deep Boltzmann machine) в связи с тем, что она содержит множество уровней со скрытыми переменными. В 1989–90 годы отмечены активным вхождением Яна Лекуна в область ANN и глубокого обучения, он стал вторым после Хинтона лидером этого мэйнстрима. Работая в Bell Labs, он вместе с коллегами смог материализовать метод backpropagation на сверточной нейронной сети LeNet (Convolutional Neural Network, CNN) в приложении для распознавания рукописного текста на банковских чеках и на почтовых отправлениях. Ошибки при распознавании не превысили 1 %.
Ближе к середине прошлого десятилетия была накоплена критическая масса знаний в части глубокого обучения ANN. В таких случаях всегда, образно говоря, кто-то отрывается от пелотона и зарабатывает майку лидера, так было и, видимо, будет в науке всегда. В данном случае в роли лидера оказался Джеффри Хинтон, британский ученый, продолживший свою карьеру в Канаде. С 2006 года он сам и вместе с коллегами начал публиковать многочисленные статьи, посвященные ANN, в том числе и в научно-популярном журнале Nature, чем заслужил себе прижизненную славу классика. Вокруг него образовалось сильное и сплоченное сообщество, которое несколько лет работало, как теперь говорят, «в невидимом режиме». Его члены сами называют себя «заговорщиками глубокого обучения» (Deep Learning Conspiracy) или даже «канадской мафией» (Canadian mafia). Образовалось ведущее трио: Ян Лекун, Иешуа Бенджо и Джеффри Хинтон, их еще называют LBH (LeCun & Bengio & Hinton). Выход LBH из подполья был хорошо подготовлен и поддержан компаниями Google, Facebook и Microsoft. С LBH активно сотрудничал Эндрю Ын, работавший в МТИ и в Беркли, а теперь возглавляющий исследования в области искусственного интеллекта в лаборатории Baidu. Он связал глубинное обучение с графическими процессорами.
Сегодня машинное обучение ассоциируется с глубоким машинным обучением, то есть с одним из методов реализации машинного обучения, где средствами искусственных нейронных сетей имитируются структуры и функции мозга, поэтому его иногда еще называют структурным или иерархическим обучением. Термин Deep Learning раньше других использовали Рина Дехтер (1986) и Игорь Айзенберг (2000). Между тем японские специалисты утверждают, что именно они выдвинули идею, которую можно считать основой глубинного обучения, при этом называются имена Фукусимы Кунихико и Амари Сюнъити, также занимавшегося исследованием нейросетей.
Были и другие предшественники глубокого обучения, но оно «заработало» и смогло занять свое нынешнее место только после того, как было дополнено еще методом backpropagation. Этот метод применим для сверточных нейронных сетей CNN (Convolutional Neural Network), которые можно рассматривать как подобие зрительной коры, работа которой связана с активацией определённого набора простых клеток. Такие сети являются многослойными и однонаправленными (feedforward neural network).
Как любую новацию, глубокое машинное обучение, ставшее основой нынешнего AI-бума, не обошли раздоры, связанные с приоритетом. Так уж сложилось, что авторами всего того технологического богатства, которым располагает человечество, были тысячи и тысячи людей, но только избранных называют первыми. Любой приоритет условен, изобретения появляются в благоприятное для них время, когда возникают необходимые условия и предпосылки. Вот и сейчас вся публичная слава создателей глубокого обучения, а заодно и «отцов современного AI», досталась трио Хинтон-Лекун-Бенджо, но в тени остался швейцарец Юрген Шмидхубер, работающий в альтернативном направлении, которое называется долгая краткосрочная память LSTM (Long Memory).
В марте 2019 Тьюринговская награда 2018 года, аналог Нобелевской премии в компьютинге, была присуждена Джеффри Хинтону, Янну Лекуну и Джошуа Бенджо. В отличие от подавляющего большинства других тьюринговских и тем более нобелевских лауреатов, остающихся после получения наград в своих лабораториях, эти трое и их ближайшие сотрудники вышли в мир бизнеса, продолжая свои исследования в сотрудничестве с крупнейшими компаниями Google, Facebook, другими крупными вендорами, многие создали свои собственные предприятия.
Нельзя исключать, что восхождение ко всемирной славе, по своей стремительности сравнимое с превращением Золушки, стало неожиданностью для них самих, ничто из того, чем они занимались 20 лет назад, не могло этого предвещать. В роли феи оказалась совсем небольшая по численности канадская благотворительная организация CIFAR (Canadian Institute for Advanced Research), выступающая в роли распорядителя средств, выделяемых правительством Канады и провинции Квебек с 1982 года. Свою миссию CIFAR видит в периодической концентрации средств и внимания на какой-то актуальной программе, привлекая для этой цели временные немногочисленные коллективы специалистов из разных стран. Время жизни каждой из программ составляет 10–15 лет, их было порядка полутора десятков, но самой известной из них, принесшей известность CIFAR, стала Neural Computation & Adaptive Perception program, открытая в 2004. К ней были привлечены нынешние тьюринговские лауреаты, а также специалисты по смежным специальностям: в том числе биологи, психологи, физики. Не будь этого импульса, на подиуме могли бы оказаться иные люди.
Спонсирование со стороны CIFAR позволило Хинтону, создававшему «временный трудовой коллектив», привлечь Лекуна и Бенджо с которыми он был связан общими научными интересами с конца 80-х. Сейчас трудно представить, что тогда исследования в области нейронных сетей представляли интерес только для чрезвычайно узкого круга, как их тогда называли, заговорщиков (cabal-like group), а их проекты вероотступническими (renegade). В те скудные времена (lean times) никто не верил будущее нейронных сетей.
Лекун вспоминает: «Период между серединой 90-х и серединой 00-х был мрачным, невозможно было опубликовать ни одной статьи по нейронным сетям, все потеряли интерес к ним. Сети имели плохую репутацию, и на них практически распространялось своего рода табу». Ситуация стала меняться по результатам очередного конкурса по распознаванию изображений ILSVRC (ImageNet ImageNet Large Scale Visual Recognition Challenge), прошедшего в 2012. Основателем этого соревнования стала профессор Стэнфордского университета Фей-Фей Ли, которой в голову пришла оригинальная идея переноса центра тяжести исследований в области AI с моделей и алгоритмов на распознавание изображений сетевыми средствами. Для того чтобы их обучать, потребовалась большая база изображений, названная ImageNet, в качестве прототипа для нее Ли использовала разработанную в Принстонском университете лексическую базу данных английского языка WordNet, представляющую собой тезаурус и набор семантических сетей для английского языка. Вторым идейным источником для ILSVRC стал конкурс PASCAL VOC challenge, учрежденный в 2005, из названия которого следует, что он был нацелен на деление изображений на классы VOC (visual object classes).
С каждым очередным конкурсом ILSVRC точность распознавания возрастала и переломный момент произошел в 2012 году, когда конволюционная нейронная сеть CNN, названная AlexNet, показала результат, равный 16 %. В последующие годы он регулярно повышался, и вскоре сеть могла распознавать изображения лучше человека. Но при этом надо учитывать условность этого сравнения, сеть способна распознавать только определенные, заданные ей типы объектов, в то время восприятие человека этим не ограничено и он способен выносить суждения о распознанных объектах. В создании AlexNet ведущую роль сыграли двое – Алекс Крыжевский, его имя вошло в название сети, и его коллега Илья Сутскевер, оба на тот момент они были аспирантами Джеффри Хинтона в Торонтском университете. Любопытно то, что работа была сделана вопреки сомнениям Хинтона в возможности ее практической реализации. Сеть AlexNet написана на CUDA и работала на кластере, состоявшем из GPU, а ее теоретической основой была работа Яна Лекуна, написанная еще в 1989 году.
Нередко общественное сознание переоценивает роль лидеров и, как следствие, может создаться ложное впечатление, будто кроме возглавляемого ими мэйнстрима ничего не существует. В области ANN, где сейчас работают тысячи исследователей и еще большее число разработчиков, как и в любом ином научно-технологическом направлении, есть многочленные близкие по отношению к мэйнстриму, но есть и отдаленные, а порой и вообще альтернативные направления. О соотношении между ними можно судить разнообразным рейтингам экспертов, входящих в элиту машинного обучения и нейронных сетей. Это самые разнообразные списки типа Top 5, 10 или 25 и т. п.
В большинстве из них на первой позиции лидер мэйнстрима Джеффри Хинтон, он абсолютный лидер, но на втором или на третьем стоит профессор Майкл Джордан, иногда он опережает Лекуна и Бенджо. Джордан преподает в университета Беркли, он обладает колоссальным научным авторитетом. В списках наиболее влиятельных ученых в Computer Science, составляемом журналом Science или порталом Guide2Research, Майкл Джордан существенно опережает Хинтона и других членов канадского ганга. С начала 80-х он разрабатывал когнитивные модели, основанные на рекуррентных нейронных сетях. Будучи статистиком, Джордан способствовал внедрению в машинное обучение байесовских сетей, представляющих собой множество переменных и их вероятностных зависимостей по Байесу.
В качестве постоянного оппонента Хинтону выступает немецко-швейцарский ученый Юрген Шмидхубер, профессор в Университете Лугано. В 1997 году Шмидхубер вместе со своим научным руководителем Сепплом Хохрайтером опубликовали статью Long short-term memory с описанием варианта рекуррентной нейронной сети (RNN), который они на несколько лет раннее назвали «Долгая краткосрочная память» (LSTM). Такое, на первый взгляд, нелогичное название не игра слов, оно имеет глубокие корни, идущие из психологии, где память делят на долговременную (long-term) и кратковременную рабочую (short-term). При объединении двух типов памяти в одной LSTM программа извлекает из short-term структуры, используемые для долговременного запоминания. Этот подход делает LSTM удобным для работы с последовательными данными, например текстами на естественных языках.
Более глубоким идейным оппонентом мэйнстриму является Хаим Самполинский, профессор Еврейского университета в Иерусалиме и профессор Гарвардского университета. Он автор множества работ, но наиболее доступно его позиция изложена вы статье «Глубокое обучение и альтернативные обучающие стратегии при ретроспективном анализе реальных клинических данных» (Deep learning and alternative learning strategies for retrospective real-world clinical data), написанной в соавторстве с коллегами. В ней признается, что в последние годы сочетание достижений в области машинного обучения в сочетании с доступной и недорогой электроникой позволили автоматизировать решение целого ряда сложных когнитивных задач.
Всё нынешнее глубокое обучение относится к категории обучения с учителем (supervised DL), ставшего новой классикой. Оно обладает несколькими врожденными недостатками. По определению для него требуются чрезвычайно большие объемы данных на этапе обучения и соответственно большие вычислительные мощности. В ряде случаев требуется такая вычислительная мощность, что решение сопряженно с существенными энергетическими затратами, но полученная при этом модель способна решать только одну задачу, что снижает эффективность. То есть модель, обученная для решения одной задачи настолько специальна, что не может быть полезной для решения другой задачи, для нового решения потребуются новые данные для обучения и новые затраты на обучение. Избавлением от этого врожденного недостатка станет модифицированный тип DL, который получил название transfer learning (TL), его можно перевести как «обучение с переносом», но чаще используют кальку английского термина «трансферное обучение». TL отличается тем, что «знание», полученное при тренировке модели, сохраняется для последующего повторного использования, чем напоминает обучение человека, с той разницей, что машинное знание не имеет ничего общего с человеческим, оно не может служить источником для самостоятельной деятельности. Знание в данном случае сводится к возможности полного или частичного использования ранее обученной модели для решения новой задачи. TL повышает эффективность DL при условии родственности решаемых задач. Если модель обучена на распознавание кошек, то она окажется бесполезной для распознавания собак.
Общие идеи относительно возможностей TL и сам термин предложила известная специалист в этой области Лорин Пратт еще в 1993 году, но путевку в жизнь этому направлению в DL дал Эндрю Ын в своем ставшем широко известным выступлении на конференции Neural Information Processing Systems (NIPS) 2016. По его мнению, TL должно стать следующим стимулом для коммерческого успеха после обучения с учителем.
На данный момент видится несколько стратегий внедрения TL. Это может быть прямое использование заранее обученной модели (pre-trained models) для определенной области приложений, например NLP. Пользователям уже доступны такие специализированные как BERT, YOLO, GloVe, UnsupervisedMT и другие. Или же можно тем или иным способом воспользоваться обученной моделью для частичного экстрагирования сведений из ранее натренированного набора данных с тем, чтобы потом перенести их другую модель.
В конце октября 2018 года на аукционе Кристи за 432 тысячи долларов был продан живописный портрет вымышленного художника Эдмона Белами из серии «Семейство Белами». Но кисть мастера этого холста не касалась, он представлял собой распечатку, созданную средствами AI. Этот успех подтвердил описанный в главе 1 Эффект AI: «Любое поражающее воображение достижение из области AI, при ближайшем рассмотрении оказывается рутинным результатом трудов математиков, инженеров и других специалистов, лишенным какого-либо собственного разума». Творцами портрета оказалась трое французов, составляющие группу Obvious, название которой переводится как «очевидно» и даже «тривиально», а их инструментом креативно-состязательная сеть (Creative Adversarial Network, CAN). Такая сеть способна создавать изображения, внешне неотличимые от созданий художников. Произведенные посредством CAN картины вполне можно признать формально прошедшими графическую версию теста Тьюринга, разумеется, это не означает, что машина научилась рисовать в полном смысле этого слова.
Сети CAN служат дальнейшим развитием генеративно-состязательных сетей (Generative adversarial network, GAN), о них говорят, что CAN – это GAN, способные мыслить креативно. Однако участники Obvious не склонны наделять их разумом, на их сайте мы находим: «… мы используем машинное обучение с тем, чтобы воспроизводить действия человека алгоритмами, основанными на статистических методах. Мы используем эти алгоритмы либо для оптимизации, выполняя сложные вычисления, либо для масштабирования, например, в чатботах, либо то и другое совместно. Алгоритмы могут быть обучены посредством идентификации общих свойств, присущих данным, со скоростью, превышающей человеческие возможности. Мы называем это Augmented Intelligence (AuI) и это совсем не похоже на то, что представляется в фантазиях».
GAN придумал в 2014 Ян Гудфеллоу будучи аспирантом, после чего моментально превратился в культовую фигуру AI (AI celebrity), теперь его именуют не иначе как GANfather (отец GAN). Ключевая мысль, заложенная Гудфеллоу в GAN, заключается в том, что в них не одна, как принято, а сразу две сети тренируются на одном и том же наборе данных. Первую называют генератором, она создает по возможности реалистичные изображения, в то время как вторая – дискриминатор – сравнивает их с исходными и фильтрует неудачные. Полученные дискриминатором результаты далее используются для обучения генератора. Очень важно, чтобы усилия обеих сетей были сбалансированы. Такое единство креативного и критического начала очень типично для творческих партнеров, например, автора и редактора, художника и критика. Можно сказать, что GAN добавила к распознавательным способностям машин еще способность, условно говоря, к воображению. Сети GAN переводят машинное обучение на новый уровень, сегодня сети обучаются с учителем (supervised learning) на колоссальном объеме учебных данных, а создание GAN стало серьезным шагом к обучению без учителя (unsupervised learning).
Уже сегодня GAN используют в крупнейших ядерных центрах для прогнозирования поведения частиц. Есть еще множество иных серьезных направлений, но на данный начальный момент популярны два: улучшение качества изображений, что критично в тех случаях, когда сложно получить требуемое качество в процессе съемки, например, в медицине (Photo-Realistic Single Image Super-Resolution), и создание изображений по текстовым описаниям (Text to Image Synthesis).