Но этих цифр недостаточно. Чтобы сделать правильный вывод, согласно правилу, нам нужно объединить их с дополнительной информацией. В частности, нужно умножить эти числа на общую вероятность того, что кубик будет взвешен или нет.

Допустим, в этом случае ваш партнер по азартным играм - ваш самый близкий друг с многолетним стажем. Вы бы оценили вероятность того, что он использует взвешенный кубик, как 1 к 100. Умножив вероятность выпадения трех двоек при использовании взвешенного кубика на низкую вероятность того, что кубик взвешен, мы получим 1/27 x 1/100 = 1/2 700 или 0,00037. Проделав это для другой гипотезы - о том, что кубик невзвешенный, - мы получим 1/216 x 99/100 = 0,0045. Если второе число больше первого, то вы справедливо заключите, что ваш друг на самом деле не мошенник.

Этот пример демонстрирует силу предварительной оценки. Приор" - это название вероятности гипотезы, в данном случае вероятности того, что ваш друг подменил кубик. Если выполнить те же уравнения, но предположить, что вы играете с незнакомцем, который с такой же вероятностью может обмануть, как и нет (то есть вероятность обмана равна 0,5), результат будет другим: 0,019 против 0,0023 в пользу взвешенного кубика. Таким образом, сильная предварительная оценка может стать решающим фактором.

Другой термин - вероятность рулонов с учетом гипотезы - называется "вероятностью". Она показывает, насколько вероятно, что вы увидите то, что увидели, если ваша гипотезао мире окажется верной. Его роль в обратной вероятности отражает тот факт, что для определения причины любого следствия необходимо сначала узнать вероятные следствия каждой причины.

И вероятность, и предшествующее значение сами по себе неполны. Они представляют собой разные источники знаний: доказательства, которые вы имеете здесь и сейчас, и понимание, накопленное со временем. Когда они согласны, результат прост. В противном случае они оказывают свое влияние пропорционально своей уверенности. При отсутствии четких предварительных знаний вероятность доминирует над решением. Когда влияние предшественника сильно, он может заставить вас не верить собственным глазам. При наличии сильного предшествующего фактора в экстраординарные утверждения можно поверить только при наличии экстраординарных доказательств.

"Когда вы слышите стук копыт, думайте о лошадях, а не о зебрах" - этот совет часто дают студентам-медикам. Он призван напомнить им, что из двух заболеваний со схожими симптомами первым следует предположить более распространенное. Это также отличный пример правила обратной вероятности в действии. Независимо от того, находитесь ли вы в присутствии лошади или зебры, у вас одинаковые шансы услышать стук копыт; говоря техническим языком, вероятность в этих двух случаях одинакова. При таких неоднозначных данных решение принимается на основе предварительных знаний, и в данном случае предварительные знания говорят, что лошади встречаются чаще, а значит, это лучшее предположение.

Рисунок 22

За 200 лет, прошедших с момента публикации его работы, в газетах, учебниках и на классных досках уравнение для обратной вероятности, которое записал Лаплас, стало называться "правилом Байеса". Томас Байес был пресвитерианским священником в Англии XVIII века. Будучи также математиком-любителем, Байес проделал работу над проблемой обратной вероятности и смог решить ее конкретную версию. Но все его размышления и вычисления так и не привели его к той форме правила Байеса, которую мы знаем сегодня. Более того, сам Байес так и не опубликовал эту работу. Эссе, содержащее его мысли о "проблеме в учении о шансах", было в конце концов отправлено в Королевское общество его другом, другим священником по имени Ричард Прайс, в 1763 году, через два года после смерти Байеса. Прайс приложил значительные усилия, чтобы превратить заметки Байеса в полноценное эссе; он написал введение, мотивирующее проблему, и добавил обширное техническое приложение (к сожалению, все эти усилия не помешали назвать эссе "одной из самых трудных для чтения работ в истории статистики"). Несмотря на то что Лаплас был жив во время публикации эссе Байеса, он, похоже, узнал о нем только после того, как сам добился значительного прогресса.

Можно сказать, что преподобный Байес не вполне заслужил посмертно подаренную ему империю. Не факт, что он вообще хотел бы ее получить. Правило Байеса не всегда пользовалось успехом среди ученых и философов. Подобно работе Гельмгольца о бессознательном умозаключении, это уравнение в разной степени недоиспользовалось и неправильно понималось. Изначально это было связано с трудностью его применения. Сам Лаплас смог использовать это правило для решения некоторых задач по измерению в астрономии, а также для поддержки давней гипотезы о том, что в среднем рождается чуть больше детей мужского пола, чем женского. Однако, в зависимости от задачи, применение правила Байеса могло включать в себя сложные вычисления, что делало этот подход обременительным до появления современных компьютеров.

Но настоящая борьба за правило Байеса началась позже - и была более глубокой. В то время как достоверность уравнения Лапласа не вызывала сомнений, вопрос о том, как интерпретировать это уравнение, занимал и разделял статистиков на протяжении десятилетий. По словам философа науки Дональда Гиллиса: "Спор между байесовцами и антибайесовцами был одним из главных интеллектуальных противоречий двадцатого века". Самой большой мишенью в прицеле антибайесовцев был предшественник. Откуда, - хотели они знать, - берется эта информация? Теоретически, это мировое знание. На практике - это чьи-то знания. Как сказал гигант статистики двадцатого века Рональд Фишер, предположения, которые используются при выборе предшественника, "совершенно произвольны, и не было предложено ни одного метода, с помощью которого такие предположения могли бы быть сделаны даже с последовательной уникальностью". Не предоставляя беспристрастной, повторяемой процедуры для получения заключения, правило Байеса не было правилом вообще. Из-за этого метод был отброшен в сторону и заклеймен - так, чтобы наверняка отпугнуть серьезных ученых, - как "субъективный".

Однако концептуальные проблемы имеют обыкновение меркнуть, когда их выставляют на свет практических доказательств. И во второй половине двадцатого века правило Байеса доказало свою состоятельность. Актуарии, например, осознали, что их ставки лучше рассчитывать, используя принципы обратной вероятности. В эпидемиологии Байес помог разобраться между курением и раком легких. А в борьбе с нацистами специалист по взлому кодов Алан Тьюринг использовал принципы Байеса, чтобы раскрыть сообщения, записанные с помощью "несокрушимой" машины Enigma. Правило Байеса становилось укротителем неопределенности везде, где она появлялась. С практической точки зрения, предварительная оценка представляла собой лишь небольшую проблему. Его можно инициализировать с помощью обоснованной догадки и обновлять в свете новых доказательств (или, при отсутствии каких-либо знаний вообще, каждой гипотезе просто дается равный шанс). Благодаря своему постоянному успеху, несмотря на активное движение против него, правило Байеса, безусловно, заслуживает титула, присвоенного ему в книге Шэрон МакгрэйнТеория, которая не умирает".

* * *

Когда правило Байеса вошло в психологию, это произошло не на ура, а наперегонки. Ни одна публикация не принесла его в психологию. Напротив, начиная с теории принятия решений в 1960-х годах, множество различных направлений исследований использовали и изучали его, пока в конце концов на рубеже XXI века не расцвела идея о том, что мозг - это Байес.

Некоторые из первых работ по изучению байесовских принципов в мозге появились в маловероятном месте: в космосе. Выполняя свою миссию по запуску космических путешествий, Национальное управление по аэронавтике и исследованию космического пространства (NASA) знало, что ему придется разрабатывать не только летные костюмы и реактивные двигатели. Оно также изучало "человеческие факторы" полета - например, как пилоты читают бортовое оборудование, чувствуют окружающую обстановку и взаимодействуют с органами управления. Исследуя эту проблему в 1972 году, инженер-авиаконструктор Ренвик Карри написал одну из первых работ, в которой человеческое восприятие рассматривалось в байесовских терминах. В частности, он использовал правило Байеса для объяснения закономерностей в восприятии человеком движения. Однако академические границы таковы, каковы они есть, что мало кто из психологов услышал об этом.

Экономика предложила еще один способ проникновения Байеса. Стремясь отразить человеческое поведение в компактной математической форме, экономисты обратились к правилу Байеса еще в 1980-х годах. В работе "Принимают ли люди решения по Байесу?", написанной Уильямом Вискоуси в 1985 году, было показано, что работники либо переоценивают, либо недооценивают рискованность конкретной работы, поскольку полагаются на свои предварительные убеждения о том, насколько рискованна работа в целом.

Психологи также заметили появление Байеса на горизонте через один из своих прежних источников вдохновения. Как мы видели в главе 3, на изучение мозга оказала влияние область формальной логики. К концу двадцатого века вероятность во многих отношениях стала новой логикой - усовершенствованным способом оценки мышления человека. Вместо жесткой дихотомии "истина-ложь", свойственной булевой логике, вероятность предлагает оттенки серого. Таким образом, она лучше согласуется с нашими собственными интуитивными представлениями о наших убеждениях. Как писал сам Лаплас: "Теория вероятностей - это не что иное, как здравый смысл, сведенный к вычислениям".

Конечно, вероятность немного лучше, чем это, потому что математически выработанные правила являются лучшей формой здравого смысла - и правило Байеса, в частности, является рецептом того, как лучше рассуждать.

Именно на этих основаниях Джон Андерсон официально представил байесовский подход к психологии в рамках метода, который он назвал "рациональным анализом". Эта идея пришла к нему в 1987 году, когда он находился в Австралииотпуске от работы в качестве профессора психологии и информатики в Университете Карнеги-Меллон. Рациональный анализ, по мнению Андерсона, основан на вере в то, что "существует причина того, как устроен разум". В частности, он утверждает, что понимание того, как работает разум, лучше всего вырастает из понимания того, откуда он взялся. Когда речь заходит о Байесе, рассуждения начинаются с того, что люди живут в беспорядочном, неопределенном мире. Тем не менее, - утверждает Андерсон, - люди эволюционировали в этом мире, чтобы вести себя как можно более рационально. Правило Байеса - это описание того, как рационально рассуждать в условиях неопределенности. Следовательно, люди должны использовать правило Байеса. Проще говоря, если эволюция выполнила свою работу, мы должны увидеть правило Байеса в мозге.

Детали того, как правило будет применяться и к каким проблемам, зависят от более конкретных особенностей окружающей среды. В качестве примера Андерсон предлагает байесовскую теорию запоминания. Она гласит, что вероятность того, что конкретное воспоминание окажется полезным в определенной ситуации, определяется путем комбинирования: 1) вероятности того, что вы окажетесь в этой ситуации, если это воспоминание окажется полезным; и 2) предварительного условия, которое предполагает, что более недавние воспоминания с большей вероятностью окажутся полезными. Такой выбор приоритета призван отразить тот факт, что люди живут в мире, где информация имеет срок годности; поэтому более свежие воспоминания с большей вероятностью будут иметь ценность.

Важно отметить, что в рамках рационального анализа "рациональное" может быть далеко не идеальным. Например, память, конечно, может нас подвести. Но, согласно этой точке зрения, если мы забываем факт из начальной школы спустя 20 лет, мы не поступаем нерационально. Учитывая ограниченные возможности памяти и постоянно меняющийся мир, в котором мы живем, имеет смысл забыть старую и малоиспользуемую информацию. Таким образом, приоритет в байесовской модели можно рассматривать как хранилище коротких путей. Это кодировка основных статистических данных о мире, которая позволяет принимать решения быстрее, проще и - в большинстве случаев - точнее. Однако если мы оказываемся в мире, который отличается от того, в котором мы развивались и эволюционировали, наши предубеждения могут ввести в заблуждение. Совет "Думай о лошадях" хорош только там, где лошадей больше, чем зебр.

* * *

В начале 1993 года группа исследователей встретилась в гостинице Chatham Bars Inn в Чатеме, штат Массачусетс. В группу входили психологи Дэвид Книлл (профессор Пенсильванского университета, выступавший в роли организатора) и Уитман Ричардс (профессор Массачусетского технологического института, входивший в первую группу аспирантов факультета психологии в 1960-х годах). На встрече также присутствовали ученые, занимавшиеся физиологией и неврологией, такие как Генрих Бюльтхофф, работавший над зрительной системой плодовых мушек, а также инженеры и математики, такие как Алан Юилль, ученик Стивена Хокинга.

На повестке дня этой эклектичной группы стоял поиск новой формальной теории восприятия - в идеале такой, которая могла бы отразить всю сложность органов чувств и одновременно предложить новые, проверяемые гипотезы. Особую озабоченность вызывало то, что на органы чувств влияет не только то, что бросается в глаза, уши или нос. То есть поступающая сенсорная информация сочетается с богатым набором фоновых знаний, прежде чем восприятие будет завершено. По словам Книлла, ни одна теория в то время не могла точно сказать, "как предварительные знания должны быть использованы при интерпретации сенсорных данных".

На этой встрече была написана книга, опубликованная в 1996 году, название которой раскрывает решение, к которому пришли участники: "Восприятие как байесовское умозаключение". Семена этой идеи, как мы видели, были разбросаны по всему миру в течение некоторого времени, прорастая разными способами в разных областях. Это была возможность собрать их воедино. В книге представлен единый и ясный подход к байесовскому исследованию восприятия, сфокусированный в основном на зрении. Ее успех породил бесчисленное количество исследовательских работ в последующие годы. Если работа Андерсона по "рациональному анализу" нанесла Байеса на карту психологии, то эта книга дала ему собственную страну.

Чтобы понять основы байесовского восприятия, рассмотрим пример. Свет отражается от цветка и попадает в глаз. Длина волны света составляет около 670 нанометров (нм). Задача мозга, учитывая длину волны, которую он получает, определить, что представляет собой "вещь в себе" или что на самом деле происходит в мире. В байесовских терминах это будет вероятность гипотезы о наличии определенного цветка, учитывая, что на глаз падает волна длиной 670 нм.

Правило Байеса подсказывает нам, что делать. Сначала нужно выяснить, насколько вероятно увидеть эту длину волны в разных условиях. Вероятность увидеть свет длиной 670 нм, если цветок синий и освещен белым светом, очень мала (синий свет находится в диапазоне 450-480 нм). Вероятность увидеть свет 670 нм, если цветок красный и освещен белым светом, довольно высока: 670 нм находится в середине красного спектра. Однако вероятность увидеть свет 670 нм, если цветок белый и освещен красным светом, также достаточно высока. Поскольку оба эти сценария с одинаковой вероятностью дают 670-нм свет, если мы остановимся на этом, мы можем не знать, какая из интерпретаций лучше.

Но, как хорошие байесианцы, мы помним о важности предварительной оценки. Вероятность того, что мир освещен красным светом, по большинству показателей довольно мала. Однако белый свет встречается очень часто. Поэтому сценарии, предполагающие белый свет, гораздо более вероятны. Умножив предварительную вероятность различных сценариев на вероятность увидеть свет длиной 670 нм в этом сценарии, мы видим, что только один из них имеет высокие показатели по обоим этим параметрам. Поэтому мы делаем вывод, что перед нами находится красный цветок, освещенный обычным белым светом.

Конечно, на самом деле "мы" не приходим к такому выводу. Этот процесс, как и предполагал Гельмгольц, происходит бессознательно. Шансы взвешиваются вне нашего поля зрения, и мы знаем только конечный результат. Таким образом, это бесконечная процедура производства восприятия - подземная производственная линия в сознании. В каждый момент времени вероятности вычисляются и сравниваются, каждое восприятие - это вычисление по правилу Байеса.

Учитывая всю ту работу, которая проделывается над восприятием, неудивительно, что мозг иногда выдает странные результаты. В 2002 году группа исследователей из США и Израиля составила каталог ряда распространенных иллюзий, которые возникают у людей при попытке оценить движение объекта . В их числе - тот факт, что форма объекта влияет на направление, в котором, как нам кажется, он движется, что два предмета, движущиеся в разных направлениях, могут казаться одним и что более тусклые объекты движутся медленнее.

Это может показаться простым перечислением наших недостатков, но исследователи обнаружили, что все эти промахи можно объяснить с помощью простой байесовской модели. В частности, эти привычки выпадают из расчета, если мы принимаем определенное предварительное предположение: что движение с большей вероятностью будет медленным, чем быстрым. Возьмем, к примеру, последнюю иллюзию. Когда объект трудно разглядеть, доказательства, которые он дает о своем движении, слабы. В отсутствие доказательств правило Байеса опирается на предварительное суждение, а оно говорит, что предметы движутся медленно. Этот математический прием может объяснить, почему водители склонны превышать скорость в тумане: имея слабую информацию о собственном движении, они полагают, что их скорость слишком мала. Важно, что байесовский подход переосмысливает эти уловки разума как черты рационального расчета. Он показывает, что некоторые ошибки на самом деле являются разумными предположениями в неопределенном мире.

Однако в процессе восприятия есть и другая сторона. До сих пор мы просто предполагали, что восприятие, которое мы испытываем, должно быть тем, которое имеет наибольшую вероятность. Это разумный выбор, но тем не менее это выбор, и его можно сделать по-другому.

Рисунок 23

Рассмотрим кубик Неккера. Эта знаменитая иллюзия (см. рис. 23) допускает более одной интерпретации: нижний квадрат может быть виден выходящим вперед, как у коробки, обращенной немного вниз, или он может быть позади плоскости страницы, что предполагает коробку, наклоненную вверх. Вероятность того, что оба ящика дают такой рисунок линий, одинакова, поэтому решение о том, какое состояние является истинным, будет сильно зависеть от предшествующего. Скажем, коробки, наклоненные вниз, в целом более вероятны. Таким образом, после применения правила Байеса вероятность того, что при виде этих линий мы увидим коробку, наклоненную вниз, равна 0,51, а коробку, наклоненную вверх, - 0,49. Применяя стандартный подход к отображению этого на восприятие, мы бы сказали, что побеждает большая из двух вероятностей - мы видим коробку, наклоненную вниз, и точка.

С другой стороны, вместо того чтобы выбирать одну интерпретацию и придерживаться ее, мозг может чередовать их. В один момент коробка может оказаться внизу, а в другой - вверху, неоднократно переключаясь туда-сюда. В этом случае вероятности говорят нам не о том, какой интерпретации придерживаться, а о том, сколько времени проводить в каждой из них.

Именно такое переключение наблюдали исследователи из Рочестерского университета (в том числе Дэвид Книлл) в ходе эксперимента, проведенного в 2011 году. Экспериментаторы наложили два визуальных паттерна таким образом, что было непонятно, находится ли первый поверх второго или наоборот - то есть изображение можно было интерпретировать двумя разными способами. Попросив людей указать, когда их восприятие изображения переключается с одного вида на другой, они смогли определить количество времени, потраченного на восприятие каждого из них. Если предположить, что любой из узоров с одинаковой вероятностью окажется наверху (то есть предварительные вероятности одинаковы), то, согласно правилу Байеса, люди должны тратить 50 процентов своего времени на восприятие каждого из вариантов. Именно это и было обнаружено. Но чтобы действительно проверить предсказательную силу правила Байеса, ученым нужно было отойти от сценария 50 на 50. Для этого они изменили изображение так, чтобы один узор оказался немного выше другого. Это изменило вероятность - то есть вероятность увидеть это изображение, учитывая, что один или другой узор действительно находится сверху. Чем больше они изменяли изображение в этом направлении, тем больше времени зрители тратили на то, чтобы увидеть предпочитаемый узор сверху - в точном соответствии с правилом Байеса.

Как показывает это исследование, набор вероятностей может быть сопоставлен с восприятием интересным образом - такое сопоставление ученые называют функцией принятия решения. Само правило Байеса не говорит нам, какую функцию принятия решения использовать; оно лишь предоставляет вероятности. Восприятие может быть сведено к интерпретации с наибольшей вероятностью, а может и нет. Восприятие может быть выборкой из различных интерпретаций с течением времени в соответствии с их вероятностями, а может и не быть. В целом, восприятие может быть результатом любой сложной комбинации вероятностей. Таким образом, вывод правила Байеса обеспечивает богатое представление сенсорной информации, которое мозг может использовать любым способом, который кажется наиболее разумным. Таким образом, вероятности означают возможности.

Еще одно преимущество представления о разуме как об оперировании вероятностями заключается в том, что оно открывает возможность количественно оценить потенциально неуловимое понятие: уверенность. Уверенность интуитивно связана с доказательствами и уверенностью. Когда мы идем по темной комнате, где визуальные свидетельства слабы, мы двигаемся медленно, потому что не уверены, что не наткнемся на стену или стол. Однако в ярко освещенной комнате сильное влияние четких визуальных свидетельств устраняет подобные сомнения. Гипотеза уверенности Байеса формализует эту интуицию, утверждая, что степень уверенности человека в своей интерпретации мира напрямую связана с вероятностью этой интерпретации с учетом имеющихся доказательств - то есть с результатом правила Байеса. В темной комнате, где доказательств мало, вероятность любой интерпретации комнаты низка, а значит, и уверенность тоже.

В 2015 году исследователи из Великобритании проверили, насколько хорошо эта байесовская гипотеза соответствует данным. Для этого они попросили людей искать определенный паттерн в двух разных изображениях, которые быстро мелькали одно за другим. Затем испытуемые сообщали, на каком из двух изображений был узор, и, что немаловажно, насколько они были уверены в своем решении. Решения и уверенность испытуемых сравнивались с предсказаниями байесовской модели и с предсказаниями двух более простых математических моделей. Правило Байеса обеспечило лучшее соответствие для большинства данных, что подтверждает гипотезу уверенности Байеса.

* * *

В лаборатории нам нравится упрощать огромную задачу - понять, как работает мозг", - сказала Дора Ангелаки в интервью в 2014 году. Традиционно нейронаука изучает по одной сенсорной системе за раз. Но в реальном мире все происходит иначе".


Ангелаки, родом с Крита, является профессором нейронаук в Нью-Йоркском университете. Своим желанием докопаться до глубинных принципов работы вещей она объясняет свое образование в области электротехники. В рамках своих исследований она исправляет предубеждение нейронауки к простоте, изучая взаимодействие органов чувств.

Ангелаки стремится объединить зрительные и вестибулярные органы чувств. Вестибулярная система обеспечивает малоизвестное шестое чувство равновесия. Расположенная глубоко в ухе, она состоит из множества крошечных трубок и заполненных камнями мешочков. Благодаря движению жидкостей в трубках и перемещению камней система, подобно жидкости в уровне, измеряет наклон и ускорение головы. Эта система работает в тандеме со зрительной системой, обеспечивая общее ощущение места, ориентации и движения. Когда эти две системы не работают, могут возникнуть неприятные ощущения, такие как укачивание.

Пытаясь понять работу вестибулярной системы, Ангелаки заимствовала методы из необычного источника: обучения пилотов. Испытуемые в ее экспериментах пристегиваются к сиденью на движущейся платформе, подобной тем, что используются в летных симуляторах. Платформа может давать им короткие импульсы ускорения в разных направлениях. В то же время экран перед ними дает визуальное ощущение движения в виде точек света, проносящихся мимо них - визуальное ощущение, не похожее на прыжок со скоростью света в "Звездных войнах". В то время как при обучении пилотов физические и визуальные движения обычно согласовываются, Ангелаки использует эту установку, чтобы посмотреть, что делает мозг, когда они расходятся.

Правило Байеса позволяет догадаться об этом. Если рассматривать зрительные и вестибулярные сигналы как отдельные потоки данных об одном и том же внешнем мире, то математика вероятности дает простое средство для их объединения. Вместо одного члена вероятности - как в стандартном правиле Байеса - две вероятности (по одной от каждого чувства) умножаются вместе. Допустим, ваша задача - определить, движетесь ли вы влево или вправо. Чтобы рассчитать вероятность того, что вы действительно двигаетесь вправо, учитывая некоторые вестибулярные и зрительные сигналы, вы умножите вероятность того, что вы увидите этот зрительный сигнал, если будете двигаться вправо на вероятность того, что вы получите этот вестибулярный сигнал, если будете двигаться вправо. Чтобы завершить процесс, это значение затем умножается на предварительную вероятность движения вправо. То же самое можно сделать и для движения влево, после чего эти два показателя сравниваются.

Подобно тому как слух превращается в факт, когда вы слышите его от разных людей, в правиле Байеса получение одной и той же информации от нескольких органов чувств усиливает веру в эту информацию. Если движущаяся платформа и экран дисплея соответствуют правостороннему движению, то и визуальная, и вестибулярная вероятности будут высокими, а значит, и результат их перемножения будет выше. Это способствует уверенному выводу о правостороннем движении. Если же они противоречат друг другу - платформа движется вправо, а точки говорят, что влево, - то вестибулярное правдоподобие по-прежнему будет говорить о высокой вероятности движения вправо, а зрительное - о низкой. Умножение этих показателей приводит к среднему результату и лишь к умеренной уверенности в том или ином случае.

Но, как и в случае со слухами, надежность источника имеет значение. В своих экспериментах Ангелаки может снизить степень доверия испытуемых к тому или иному сенсорному входу. Чтобы сделать визуальные данные менее надежными, она просто делает их более беспорядочными. То есть вместо того, чтобы все точки двигались вместе, создавая сильное ощущение направленного движения, некоторые точки двигаются беспорядочно. Чем больше случайных точек, тем менее надежной становится визуальная информация.

Если посмотреть, как это происходит с вероятностями, мы увидим, что правило Байеса естественным образом определяет, насколько следует полагаться на источник в зависимости от его надежности. Если бы точки двигались совершенно случайно, визуальный сигнал не давал бы никакой информации о направлении движения. В этом случае вероятность того, что визуальный сигнал будет выдавать движение вправо, была бы равна вероятности того, что он будет выдавать движение влево. При равной вероятности с обеих сторон визуальный сигнал не будет влиять на решение в ту или иную сторону. Решение будет приниматься вестибулярными сигналами (и предварительными). Если же 90 % точек двигались случайным образом, а 10 % указывали на движение вправо, то вероятность того, что зрительный сигнал поддержит движение вправо, будет немного выше, чем вероятность того, что движение влево. Теперь зрительный сигнал действительно влияет на принятие решения - но лишь незначительно. По мере того как зрительный сигнал становится все более надежным, его вес в принятии решения растет. Таким образом, правило Байеса автоматически увеличивает долю источника в зависимости от степени его достоверности.

Исследуя выводы, которые люди делают о своем движении в этих экспериментах, Ангелаки и ее лаборатория еще раз показали, что в большинстве случаев люди ведут себя как хорошие байесовцы. Когда визуальные данные слабы, они больше полагаются на свою вестибулярную систему. Но есть одна оговорка: хотя визуальная информация становится более надежной, они все равно используют ее не так часто, как предсказывает правило Байеса. Вестибулярная информация постоянно переоценивается - эффект, обнаруженный и у обезьян. Это может быть результатом того, что визуальный вход всегда немного неоднозначен: если вы видите точки, движущиеся мимо, это может быть эффектом вашего собственного движения, или это могут быть просто движущиеся точки. Таким образом, вестибулярный сигнал в целом является более надежным источником и поэтому заслуживает большего внимания.

* * *

Как только байесовский подход к восприятию был обнародован, он быстро распространился по всем уголкам психологии. Подобно иллюзии волшебного глаза, если долго смотреть на любые данные, из них может выплыть структура правила Байеса. В результате в изучении разума появилось множество приор и вероятностей.

Как мы уже видели, правило Байеса было использовано для объяснения восприятия движения, переключения двусмысленных иллюзий, таких как кубик Неккера, уверенности и сочетания зрительных и вестибулярных сигналов. Оно также было адаптировано для объяснения того, как нас могут обмануть чревовещатели, нашего ощущения хода времени и нашей способности замечать аномалии. Ее можно даже растянуть и расширить, чтобы охватить такие задачи, как обучение двигательным навыкам, понимание языка и способность к обобщению. Такая объединяющая основа для описания столь значительной части умственной деятельности кажется безусловным успехом. Действительно, по словам философа ума Майкла Рескорла, байесовский подход - это "наша лучшая современная наука о восприятии".

Однако не все психологи могут считаться преданными учениками преподобного Байеса.

По мнению некоторых, теория, которая объясняет все, рискует не объяснить вообще ничего. Оборотной стороной гибкостибайесовского подхода является то, что его также можно обвинить в том, что у него слишком много свободных параметров. Свободные параметры модели - это все ее подвижные части - все варианты, которые исследователь может выбрать при ее использовании. Точно так же, как при достаточном количестве ударов даже самый плохой гольфист может в конце концов попасть мячом в чашку, при достаточном количестве свободных параметров любая модель может соответствовать любым данным. Например, если результаты нового эксперимента противоречат результатам старого, то модель с избыточными параметрами легко подстроится под них. Если заставить модель соответствовать данным так же просто, как банку внести изменения, ее успех не очень интересен. Модель, которая может сказать все, что угодно, никогда не может ошибаться. Как пишут психологи Джеффри Бауэрс и Колин Дэвис в своей критике байесовского подхода в 2012 году: "Эта способность точно описывать данные достается ценой фальсифицируемости".

Действительно, существует множество способов втиснуть части восприятия в байесовский пакет. Возьмем, к примеру, вычисление вероятности. Вычисление такой величины, как "вероятность увидеть свет длиной 670 нм при наличии красного цветка", требует определенных знаний и предположений о том, как свет отражается от различных материалов и как глаз его поглощает. Не обладая совершенным пониманием физического мира, создатель модели должен внести в нее некоторые собственные предположения. Поэтому они могут немного вилять этими предположениями, чтобы соответствовать данным. Еще одним источником выбора является функция принятия решений. Как мы видели ранее, вывод правила Байеса может быть сопоставлен с восприятием и принятием решения животным любым количеством способов. Этот вариант тоже способен сделать любое действие теоретически байесовским. И, конечно же, есть эти досадные приор.


Подобно тому, как в двадцатом веке они не давали покоя статистикам, в двадцать первом приоры стали вызовом для психологов. Если предположение об определенном приоритете - например, о том, что движение, скорее всего, будет медленным, - помогает объяснить психологические явления, это можно считать хорошим доказательством того, что мозг действительно использует этот приоритет. Но что, если другое явление лучше всего объясняется другим приоритетом - скажем, тем, который предполагает, что движение быстрое? Следует ли считать, что приоритеты в нашем сознании постоянны в зависимости от времени и задачи? Или они гибкие и изменчивые? И как мы можем это узнать?

В результате этих опасений некоторые исследователи занялись изучением свойств суждений. Французский когнитивист Паскаль Мамассиан работал над исследованием особенно распространенного из них: предположения о том, что свет приходит сверху. На протяжении более двух столетий эксперименты и иллюзии показали, что люди держат в уме это неявное убеждение об источнике освещения, когда разбираются с тенями в сцене. Это разумное предположение, учитывая расположение нашего основного источника света - солнца. Недавно в ходе экспериментов этот вывод был несколько изменен, и выяснилось, что люди на самом деле считают, что свет исходит сверху и немного слева. Мамассиан провел тесты, выявившие это предубеждение в лаборатории, но он также нашел более творческий способ его исследовать. Проанализировав 659 картин из парижского музея Лувр, он обнаружил, что в 84 процентах портретов и 67 процентах непортретных картин источник света действительно смещен в левую сторону. Возможно, художники предпочитают такое положение именно потому, что оно соответствует нашей интуиции, создавая более приятную и легко интерпретируемую картину.


Еще один открытый вопрос, связанный с примерами, - их происхождение. Приоры могут служить эффективным способом запечатления фактов о мире в нашем сознании; но передаются ли эти факты нам от предыдущих поколений через наши гены, или же мы сами развиваем их в течение жизни? Чтобы проверить это, в исследовании, проведенном в 1970 году, цыплят выращивали в условиях, когда весь свет падал снизу. Если бы предположение о том, что свет падает сверху, было усвоено в течение жизни, то у этих птиц его бы не было. Однако то, как животные взаимодействовали с визуальными стимулами, показало, что они все же считали, что свет должен быть сверху. Это говорит в пользу наследственного предположения.

Люди, конечно, не цыплята, и развитие нашей нервной системы может позволить нам быть немного более гибкими. Исследуя предубеждения детей разного возраста, психолог Джеймс Стоун в 2010 году обнаружил, что дети в возрасте четырех лет проявляют предубеждение к верхнему свету, хотя оно слабее, чем у взрослых. С годами это предубеждение неуклонно растет и достигает взрослой силы, что говорит о том, что частично врожденное предубеждение может быть откорректировано опытом. В поддержку этой гибкости в 2004 году команда из Великобритании и Германии показала, что наше представление о том, откуда должен исходить свет, может быть ослаблено. С помощью тренировки участники смогли изменить свои предварительные убеждения об источнике света на несколько градусов.

Выбор конкретного приоритета и его изучение с разных сторон в ходе множества экспериментов помогает проверить его как устойчивый и надежный эффект. Каждое такое предварительное условие становится менее свободным параметром в модели и более фиксированным.


Другой вопрос, который должны решить сторонники байесовской гипотезы мозга, - это "как?".

Хотя есть основания полагать, что мозг должен использовать правило Байеса, и есть доказательства того, что он это делает, вопрос о том, как это происходит в нейронах, остается оживленной областью исследований.

Когда речь заходит о суждениях, ученые ищут, в каком шкафу мозга хранятся эти кусочки фоновых знаний и как они попадают в нейронный процесс принятия решений. Согласно одной из гипотез, это простая игра с числами. Если группе нейронов поручено представлять что-то об окружающем мире - скажем, откуда доносится звук, - то каждый нейрон может иметь свое собственное предпочтительное местоположение. Это означает, что он больше всего реагирует на звук, исходящий оттуда. Если мозг определяет местоположение звука путем суммирования активности всех нейронов, предпочитающих одно и то же место, то места с большим количеством нейронов будут иметь преимущество. Таким образом, если заранее известно, что звук с большей вероятностью будет исходить из центральных мест, чем с периферии, это можно реализовать, просто увеличив количество нейронов, предпочитающих центр. Как выяснилось, в 2011 году нейробиологи Брайан Фишер и Хосе Луис Пенья обнаружили именно такую схему в мозге сов. Выявление нейронных признаков приоритетов таким образом может дать представление о том, откуда они берутся и как работают.

Теоретики строят - а экспериментаторы проверяют - все новые гипотезы о том, как правило Байеса работает в мозге. Существует множество способов, с помощью которых нейроны могут объединять вероятности и приоритеты. Эти различные гипотезы не следует рассматривать в соревновании, как и не следует ожидать, что в конце будет выявлен какой-то один победитель. Напротив, если правило Байеса может быть универсальным для отражения результатов восприятия, то физические основы этого правила могут иметь самые разные формы и стили.

Глава 11. Как вознаграждение руководит действиями.

Временные различия и обучение под креплением

Большую часть своей жизни Иван Петрович Павлов был ученым и имел одну страсть - пищеварение. Он начал свою научную деятельность в 1870 году с диссертации о нервах поджелудочной железы. В течение 10 лет, будучи профессором фармакологии в Санкт-Петербурге, он разрабатывал способы измерения желудочного сока у животных в процессе их жизнедеятельности, чтобы показать, как изменяется секреция различных органов в ответ на пищу или голод. А в 1904 году ему была присуждена Нобелевская премия "в знак признания его работ по физиологии пищеварения, благодаря которым знания о жизненно важных аспектах этого предмета были преобразованы и расширены".

Неудивительно, что, учитывая все его успехи в изучении кишечника, Павлов вошел в историю как одна из самых влиятельных фигур в психологии.

Переход Павлова к изучению разума был в некотором роде случайным. В ходе эксперимента, призванного измерить слюноотделение у собак в ответ на различные виды пищи, он заметил, что их рты разинуты еще до появления еды - достаточно было услышать звук шагов помощника, вносящего миски. В этом не было ничего необычного. Большая часть предыдущих работ Павлова была посвящена изучению влияния нервной системы на пищеварительную систему, но обычно это были более очевидные взаимодействия, такие как влияние запаха пищи на секрецию желудка - взаимодействия, которые, как можно предположить, были врожденными для животного. Слюнотечение при звуке шагов - это не реакция, жестко заложенная в генах. Этому нужно научиться.

Павлов был строгим и неумолимым ученым. Когда из-за публичных расстрелов, связанных с русской революцией, один из коллег опоздал на встречу, Павлов ответил: "Какая разница, какая революция, когда у вас есть эксперименты, которые нужно делать в лаборатории? Однако такая интенсивность способствовала кропотливой работе, и когда он решил продолжить наблюдения за слюноотделением, то сделал это тщательно и исчерпывающе.

Павлов неоднократно подавал собаке нейтральный сигнал - например, тиканье метронома или звук зуммера (но не колокольчика, как принято считать; Павлов полагался только на стимулы, которые можно было точно контролировать). За нейтральным сигналом следовала еда. После этих пар он наблюдал за тем, как сильно у собак выделяется слюна в ответ на один только сигнал. Он писал в характерных деталях: "Когда звуки бьющего метронома попадают на ухо, через девять секунд начинается выделение слюны, а в течение 45 секунд выделяется 11 капель".

Варьируя специфику этой процедуры, Павлов каталогизировал многие особенности процесса обучения. Он задавал такие вопросы, как: "Сколько пар "сигнал - пища" требуется для надежного обучения?" (около 20); "Имеет ли значение время между сигналом и пищей?" (да, сигнал должен начинаться до появления пищи, но не слишком сильно); "Должен ли сигнал быть нейтральным?" (нет, животные могли научиться выделять слюну в ответ на слегка негативные сигналы, например, на раздражение кожи); и многое другое.


Этот процесс - многократное сопряжение предстоящего вознаграждения с чем-то, обычно не связанным с ним, до тех пор, пока эти два фактора не становятся связанными - известен как классическое или (что неудивительно) "павловское" обусловливание, и он стал основным в ранних исследованиях в области психологии. Рецензенты книги Павлова, вышедшей в 1927 году и описывающей его методологию и результаты, назвали его работу "представляющей жизненный интерес для всех, кто изучает разум и мозг" и "замечательной как с точки зрения точности его методов, так и научной проницательности, проявившейся в масштабном характере его выводов".

Работы Павлова в конечном итоге стали основой одного из крупнейших течений в науке XX века - бихевиоризма. Согласно бихевиоризму, психологию следует определять не как изучение разума, а скорее как изучение поведения. Поэтому бихевиористы предпочитают описания наблюдаемой внешней активности любому теоретизированию о внутренней психической активности, такой как мысли, убеждения или эмоции. Для них поведение людей и животных может быть понято как сложный набор рефлексов - то есть сопоставлений между входными сигналами из мира и выходными сигналами, производимыми животным. Эксперименты по обусловливанию, такие как эксперимент Павлова, предложили чистый способ количественной оценки этих входов и выходов, что послужило толчком для развития бихевиоризма.

Поэтому после публикации его книги многие ученые стремились повторить и развить работу Павлова. Американский психолог Б. Ф. Скиннер, например, узнал о Павлове из рецензии на книгу известного писателя-фантаста Г. Г. Уэллса. Чтение этой статьи пробудило интерес Скиннера к психологии и направило его на путь становления ведущей фигурой бихевиористского движения, проведя бесчисленное количество точных исследований поведения крыс, голубей и людей.1

Когда в какой-либо области науки накапливается достаточно количественных данных, она в конце концов обращается к математическому моделированию, чтобы придать им смысл. Модели находят структуру в грудах цифр; они могут объединить разрозненные результаты и показать, как они возникают в результате единого процесса. В течение десятилетий после Павлова количество данных, получаемых в ходе поведенческих экспериментов по обучению, сделало их готовыми для моделирования. Как писал в 1950 году Уильям Эстес, выдающийся американский психолог, работавший над математикой обучения, данные по обучению "достаточно упорядочены и воспроизводимы, чтобы поддерживать точные количественные предсказания поведения".

В другой работе, опубликованной в 1951 году, говорится: "Среди отраслей психологии немногие так богаты количеством и разнообразием доступных данных, необходимых для построения моделей, как обучение". Эта работа, "Математическая модель простого обучения", была написана Робертом Бушем и Фредериком Мостеллером в Лаборатории социальных отношений Гарвардского университета. Буш был физиком, ставшим психологом, а Мостеллер - статистиком. Вместе, под влиянием работ Эстеса, они вывели формулу обучения ассоциациям между сигналами и вознаграждением, которая стала отправной точкой для целого ряда все более сложных моделей. В течение десятилетий обучение, которое отражают эти модели, стало известно как "обучение под креплением". Обучение с подкреплением - это объяснение того, как возникает сложное поведение, когда единственными сигналами обучения являются простые вознаграждения и наказания. Это, во многом, искусство учиться делать то, что нужно, без подсказок.

* * *

В своей модели Буш и Мостеллер сосредоточились на конкретной мере выученной ассоциации между сигналом и вознаграждением: вероятности реакции. Для собак Павлова это вероятность слюноотделения в ответ на звуковой сигнал. Буш и Мостеллер использовали простое уравнение, чтобы объяснить, как эта вероятность меняется каждый раз, когда награда дается - или не дается - после сигнала.

Допустим, вы берете любую случайную собаку с улицы (ходят слухи, что Павлов получал своих подопытных, воруя их на улицах). Вероятность того, что эта собака пустит слюну при звуке зуммера, равна нулю; у нее нет причин подозревать, что зуммер означает еду. Теперь вы нажимаете на зуммер, а затем даете собаке кусок мяса. Согласно модели Буша-Мостеллера, после этой встречи вероятность того, что собака пустит слюну в ответ на зуммер, возрастает (см. рис. 24). Точная величина этого увеличения зависит от параметра в формуле, называемого скоростью обучения. Скорость обучения контролирует скорость всего процесса. Если скорость обучения очень высока, одной пары может быть достаточно, чтобы закрепить в сознании собаки связь между звуковым сигналом и едой. Однако при более разумных показателях вероятность появления слюноотделения остается низкой после первого сопряжения - возможно, она достигает 10 процентов - и повышается каждый раз, когда за звуковым сигналом следует пища.


Однако независимо от значения скорости обучения, когда во второй раз после звукового сигнала подается пища, вероятность появления слюноотделения возрастает меньше, чем в первый раз. Так, если после первой пары она увеличилась с 0 до 10 процентов, то после второй пары она увеличится еще на девять процентных пунктов, до 19 процентов. И только на восемь процентных пунктов после третьего. Это говорит о том, что в модели Буша-Мостеллера (и в модели собак) изменение вероятности при каждом спаривании зависит от значения самой вероятности. Другими словами, обучение зависит от того, что уже усвоено.

С определенной точки зрения это интуитивно понятно. Нет ничего нового в том, чтобы каждый день видеть восход солнца. В той степени, в какой мы верим, что что-то произойдет, его фактическое наступление мало на нас влияет. Ожидаемое вознаграждение ничем не отличается от этого. Например, мы не изменим своего мнения о начальнике, если получим ту же самую премию к празднику, которую получали последние пять лет. А собаки меняют свою реакцию на звуковой сигнал только в той степени, в какой последующая еда отличается от того, что они ожидают. Изменить ожидания можно только нарушив их.

Рисунок 24

Это нарушение может быть как к лучшему, так и к худшему. Для собаки первый кусок мяса после "жужжания" - это приятный сюрприз, который сильно влияет на ее ожидания. Однако после многократных спариваний ожидания меняются, и слюнотечение при звуке зуммера становится второй натурой. В этот момент самое неприятное, что может произойти, - это услышать звуковой сигнал и не получить еду. Такое лишение привело бы к значительному снижению вероятности слюноотделения в будущем - такому же значительному, как и увеличение, произошедшее при первой паре. Эта обратная сторона обучения на основе вознаграждения, когда животное учится не связывать сигнал с вознаграждением, называется угасанием. С каждым предъявлением сигнала без ожидаемой награды процесс угасания разрушает ассоциацию, в итоге полностью уничтожая выученную реакцию. Буш и Мостеллер постарались показать, что их модель точно отражает этот процесс.

В то время как Буш и Мостеллер превращали информацию о слюноотделении в уравнения, другой человек на противоположном конце страны работал над применением математики для решения самых сложных проблем в бизнесе и промышленности. Глубокие и важные связи между этими работами не были осознаны еще несколько десятилетий.

* * *

Корпорация RAND - американский аналитический центр, основанный в 1948 году. Некоммерческое подразделение компании Douglas Aircraft Company, главной целью которого было расширение сотрудничества между наукой и военными, расцветшего в результате необходимости во время Второй мировой войны. Название корпорации является уместно общим (RAND буквально означает Research ANd Development)спектра исследовательских проектов, которыми она занимается. За годы своего существования сотрудники RAND внесли значительный вклад в такие области, как освоение космоса, экономика, вычислительная техника и даже внешние отношения.

Ричард Беллман работал в RAND в качестве математика-исследователя с 1952 по 1965 год. Будучи поклонником этого предмета еще в подростковом возрасте, Беллман неоднократно прерывал свой путь к профессии математика из-за Второй мировой войны. Сначала, чтобы поддержать военные действия, он оставил аспирантуру в Университете Джона Хопкинса, чтобы преподавать военную электронику в Университете Висконсина. Позже он перешел в Принстонский университет, где преподавал в рамках программы специализированной подготовки армии и занимался собственными исследованиями. В конце концов он защитил докторскую диссертацию в Принстоне, но не раньше, чем его призвали на работу в Лос-Аламос в качестве физика-теоретика для Манхэттенского проекта. Эти вторжения, похоже, не сильно повлияли на его карьеру. Уже через три года после войны, в возрасте всего 28 лет, он стал профессором Стэнфордского университета.

Уход из академического мира в RAND в 32 года стал, по словам Беллмана, разницей между "традиционным интеллектуалом или современным интеллектуалом, использующим результаты своих исследований для решения проблем современного общества". В RAND его математические навыки применялись для решения реальных проблем. К таким проблемам, как составление расписания приема пациентов, организация производственных линий, разработка долгосрочных инвестиционных стратегий или определение плана закупок для универмагов. Однако Беллману не нужно было ступать в больницу или на заводской цех, чтобы помочь в решении этих проблем. Все эти проблемы - и многие другие - объединены под одним абстрактным математическим зонтиком. И в глазах математика решить любую из них - значит решить их все.

Все эти проблемы объединяет то, что все они представляют собой "последовательные процессы принятия решений". В последовательном процессе принятия решений есть что-то, что нужно максимизировать: прием пациентов, производство товаров, получение денег, отправка заказов. И для этого можно предпринять различные шаги. Задача состоит в том, чтобы определить, какой набор шагов следует предпринять. Как достичь максимума? Как лучше всего подняться на гору?

Не имея особых наработок в этой области, Беллман обратился к проверенной стратегии в математике: он формализовал интуицию.2 Математический вывод, к которому он пришел, теперь известен как уравнение Беллмана, а простая интуиция, которую оно отражает, заключается в том, что лучший план действий - это тот, в котором все шаги являются наилучшими из возможных. Как бы очевидно это ни казалось, но, будучи сформулированным в математике, даже банальные утверждения могут иметь силу.

Чтобы понять, как Беллман использовал эту интуицию, нам нужно понять, как он сформулировал проблему. Сначала Беллман решил определить, насколько хорош тот или иной план, с точки зрения того, какое вознаграждение - деньги, виджеты, поставки и т. д. - он, скорее всего, принесет. Допустим, у вас есть план из пяти шагов. Общее вознаграждение - это сумма вознаграждений, которые вы получаете на каждом из этих пяти шагов. Но после того как вы сделали первый шаг, у вас теперь есть план из четырех шагов. Поэтому можно сказать, что общее вознаграждение по первоначальному пятишаговому плану - это вознаграждение, полученное за первый шаг, плюс общее вознаграждение по четырехшаговому плану. А общая награда от четырехшагового плана - это награда от первого шага плюс награда от результирующего трехшагового плана. И так далее, и так далее.

Определяя вознаграждение одного плана в терминах вознаграждения другого, Беллман сделал свое определение рекурсивным. Рекурсивный процесс - это процесс, который содержит сам себя. Рассмотрим, например, алфавитную систему. Если вы хотите составить список имен в алфавитном порядке, то начните с сортировки всех имен по первой букве. После этого вам нужно будет снова применить тот же процесс сортировки ко всем именам, начинающимся на одну и ту же букву, чтобы отсортировать их по второй букве, и так далее. Таким образом, алфавитная система становится рекурсивной.

Рекурсия - распространенный прием в математике и информатике отчасти потому, что рекурсивные определения гибкие: их можно сделать длинными или короткими, как это необходимо. Например, формулу для расчета общего вознаграждения по плану можно с одинаковым успехом применить как к плану из пяти шагов, так и к плану из 500 шагов. Рекурсия - это еще и концептуально простой способ добиться чего-то потенциально сложного. Подобно поворотам винтовой лестницы, каждый шаг в рекурсивном определении знаком, но не идентичен, и нам нужно только следовать по ним один за другим до конца.

В формулировке Беллмана есть еще две идеи, которые помогли сделать его стратегию эффективной для применения в реальных проблемах. Первая заключается в том, что он включил в свою стратегию тот весьма убедительный факт, что вознаграждение, которое вы получаете немедленно, стоит больше, чем вознаграждение, которое вы получаете позже. Для этого он ввел в рекурсивное определение коэффициент дисконтирования. Таким образом, если в первоначальной формуле вознаграждение от пятишагового плана было равно вознаграждению от первого шага плюс полное вознаграждение от четырехшагового плана, то в уравнении с дисконтированием оно будет равно вознаграждению от первого шага плюс, возможно, 80 процентов от вознаграждения от четырехшагового плана. Дисконтирование - это способ соизмерять немедленное удовлетворение с отложенным; это "птица в руке стоит двух в кустах", кодифицированное в математике.

Второе понимание было более концептуальным и более радикальным. Это был переход от фокусировки на вознаграждениях к фокусировке на ценностях.

Чтобы понять эту подмену, давайте рассмотрим владельца малого бизнеса - очень малого бизнеса. Анжела - бродяга в нью-йоркском метро. Она знает, что может играть на своей электрической скрипке в течение 20 минут на определенных станциях метро, прежде чем ее прогонят власти, и тогда ей не разрешат вернуться. На разных станциях, однако, выплачиваются разные суммы. Туристические районы могут быть очень прибыльными, в то время как остановки для коренных ньюйоркцев приносят гораздо меньше пожертвований. Она выходит из своего дома на Гринпойнт-авеню в Бруклине и хочет оказаться рядом с домом подруги на Бликер-стрит. Какой путь ей выбрать, чтобы заработать больше всего денег по дороге к месту назначения?

До сих пор мы замечали, что, начав с одной позиции и сделав шаг по плану, мы оказываемся в обстоятельствах, в целом схожих с теми, с которых начинали, - только начинаем мы с другой позиции и имеем другой план. В последовательном принятии решений различные позиции, через которые мы можем пройти, называются состояниями, а шаги в плане часто называют действиями. В случае с Анжелой состояния - это различные станции метро , на которых она может оказаться. Каждый раз, когда Анжела совершает действие (например, переходит со станции А на станцию Б), она оказывается в новом состоянии (станция Б), которое одновременно приносит ей определенное вознаграждение (количество пожертвований, которые получает ее игра) и предоставляет ей новый набор возможных действий (другие станции, на которые можно перейти). Таким образом, состояния определяют, какие действия доступны (например, вы не можете сразу отправиться с Гринпойнт-авеню на Таймс-сквер), а действия определяют, какими будут следующие состояния.

Это взаимодействие - когда действия, предпринятые в рамках плана, влияют на то, какие действия будут доступны в будущем, - является частью того, что делает последовательные процессы принятия решений такими сложными. Что сделал Беллман, так это взял это созвездие состояний, действий и вознаграждений и перевернул его с ног на голову. Вместо того чтобы говорить о вознаграждении, ожидаемом от серии действий, он сосредоточился на ценности, которую имеет любое данное состояние.

Ценность, в разговорном смысле, - понятие туманное. Оно вызывает мысли о деньгах и стоимости, а также о более глубоких понятиях смысла и пользы, которые бывает трудно определить. Уравнение Беллмана, однако, дает точное определение ценности. Используя ту же рекурсивную структуру, которая была представлена ранее, Беллман определил ценность состояния как вознаграждение, которое вы получаете в этом состоянии, плюс дисконтированная стоимость следующего состояния. Заметьте, в этом определении нет явного понятия плана; ценность определяется другими ценностями.

Тем не менее, это уравнение опирается на знание следующего состояния. Без плана, в котором указано, какое действие будет предпринято, как мы узнаем, каким будет следующее состояние? Именно здесь в игру вступает первоначальная интуиция - идея о том, что лучший план складывается из лучших действий. Чтобы рассчитать стоимость в следующем состоянии, достаточно предположить, что будет предпринято наилучшее возможное действие. А наилучшее возможное действие - это то, которое ведет к состоянию с наибольшей ценностью! Если говорить языком ценности, то сам план исчезает.

Как же это поможет Анжеле? Учитывая карту возможных станций метро (см. рис. 25) и соответствующие пожертвования, которые она ожидает получить от каждой из них, мы можем рассчитать "функцию ценности". Функция ценности - это просто ценность, связанная с каждым состоянием (в данном случае с каждой станцией). Мы можем рассчитать ее, начав с конца и работая в обратном направлении. Как только Анжела дойдет до Бликер-стрит, она сразу же отправится домой к своему другу и не будет заниматься букингом, поэтому вознаграждение, которое она получит в конечном пункте назначения, составит 0 долларов. Поскольку с этой точки не существует других состояний, ценность Бликер-стрит также равна нулю. Возвращаясь назад, можно вычислить ценности Юнион-сквер и 34-й улицы в терминах ожидаемого там вознаграждения и ценности Бликер-стрит. Этот процесс продолжается до тех пор, пока не будет вычислена стоимость каждой станции.

Рисунок 25

Имея на руках эти значения, Анжела теперь может планировать свое путешествие. Отправившись с Гринпойнт-авеню, она может сесть на поезд до Корт-Сквер или Метрополитен-авеню. Что ей выбрать? Если смотреть только на возможное вознаграждение от каждого из них, то Метрополитен-авеню кажется более выгодным выбором, поскольку предлагает 10 долларов против 5 долларов на Корт-Сквер. Но если посмотреть на функцию ценности, то Корт-Сквер - правильный выбор. Это происходит потому, что функция ценности заботится о том, в какие состояния вы можете попасть в будущем, а с Корт-Сквер Анджела может попасть прямо в джекпот, на Таймс-сквер. С Корт-сквер Анжела также может отправиться на Квинс-плаза, но это не имеет значения, потому что функция ценности предполагает, что Анжела умна.Она предполагает, что с Корт-сквер она пойдет на Таймс-сквер, потому что Таймс-сквер - лучший выбор. В целом, следуя функции ценности, Анжела пройдет через Корт-Сквер на Таймс-сквер, затем на 34-ю улицу и, наконец, доберется до места назначения на Бликер-стрит. В общей сложности она заработает 65 долларов - больше, чем может предложить любой путь на этой карте.

Переход Беллмана на функцию ценности был важен, потому что он исправил недостаток в первоначальной постановке задачи. Мы начали с того, что пытались вычислить общее вознаграждение, которое мы могли бы получить от данного плана. На самом деле, план - это именно то, что мы пытаемся найти! Как только мы узнаем функцию ценности, план становится простым: следуйте ему. Подобно хлебным крошкам, оставленным на лесной тропинке, функция ценности указывает вам, куда идти. Тому, кто ищет наибольшую награду, нужно лишь жадно искать следующее состояние с наибольшей ценностью. Все действия могут быть выбраны на основе этого простого правила.

В результате дисконтирования, которое является частью определения стоимости, происходят интересные вещи. Например, посмотрите на варианты, которые есть у Анжелы с Таймс-сквер. Она может либо пойти на 34-ю улицу, получить 20 долларов и закончить на Бликер-стрит, либо пойти на 14-ю улицу, получить 8 долларов, затем пойти на Юнион-сквер, получить 12 долларов и закончить на Бликер-стрит. Оба маршрута принесут ей в общей сложности 20 долларов. Но ценность 34-й улицы равна 20, в то время как ценность 14-й улицы равна 17,6 (вычисляется как 8 + 0,8 x 12), что указывает на то, что 34-я улица - лучший вариант. Это демонстрирует, как дисконтирование будущих вознаграждений может привести к планам с меньшим количеством шагов; если есть только столько вознаграждений, которые можно получить, лучше получить их быстрее, чем медленнее. Дисконтирование также означает, что даже большие вознаграждения будут игнорироваться, если они слишком далеки. Если на железнодорожной станции в Нью-Джерси Анжела получит 75 долларов, это все равно не повлияет на ее выбор, когда она будет выходить из дома. Влияние вознаграждения на функцию ценности подобно ряби от камня, упавшего в воду. Сильнее всего она ощущается в близлежащих штатах, но ее сила ослабевает, чем дальше вы удаляетесь.3


Это техническое определение стоимости - с учетом состояний, рекурсии и коэффициентов дисконтирования - может показаться далеким от того, что мы используем в повседневном языке. Но эти разговорные коннотации в значительной степени присутствуют в этом уравнении. Почему мы ценим деньги? Не потому, что бумажка или монета доставляют нам удовольствие, а потому, что мы можем представить себе будущее, когда у нас будет эта бумажка или монета. Деньги стоят только того, что они могут дать нам позже, а то, что мы можем получить позже, заложено в определении стоимости Беллмана.

Работа Беллмана по формулированию последовательных процессов принятия решений таким образом действительно позволила ему стать "современным интеллектуалом", которым он стремился стать, перейдя в RAND. В годы после его первых публикаций, описывающих это решение, бесчисленные компании и правительственные организации начали применять его в мире. К 1970-м годам идеи Беллмана использовались для решения таких разнообразных задач, как проектирование канализационных систем, составление расписания авиаперевозок и даже управление исследовательскими отделами в таких крупных компаниях, как Monsanto. Техника получила название "динамическое программирование" - довольно банальное словосочетание, которое Беллман придумал для того, чтобы отгородиться от некоторых математически фобизированных военных. 1950-е годы были не самыми удачными для математических исследований", - написал Беллман в своей автобиографии. Корпорация RAND работала на ВВС, а начальником ВВС был [Чарльз] Уилсон. Поэтому я чувствовал, что должен сделать что-то, чтобы оградить Уилсона и ВВС от того факта, что я действительно занимаюсь математикой в корпорации RAND. ... Таким образом, я решил, что динамическое программирование - это хорошее название. Это было то, против чего не мог возразить даже конгрессмен. Поэтому я использовал его как зонтик для своей деятельности".

Применяя метод в каждой из этих ситуаций, инженеры должны были найти способ вычислить функцию стоимости. В некоторых случаях, как в примере с метро, приведенном выше, ландшафт проблемы достаточно прост, и расчеты не представляют сложности. Но простые проблемы редко бывают реалистичными. Реальный мир имеет большое количество потенциальных состояний; эти состояния могут соединяться друг с другом сложными и даже неопределенными способами; и они могут делать это посредством множества возможных действий. Много усилий было потрачено на поиск функции стоимости в этих сложных ситуациях. Однако даже при использовании хитроумных методов применение динамического программирования обычно упиралось в предел вычислительных мощностей того времени. Вычисление функции ценности всегда было узким местом в процессе. А без способа нахождения функции стоимости весь потенциал вклада Беллмана оставался бы нераскрытым.

* * *

В наследии Павлова есть своя ирония. Его непосредственным следствием стало возникновение бихевиоризма - религиозного движения, стремящегося игнорировать разум и сосредоточиться только на непосредственно измеряемом поведении. Однако порожденная им линия математических моделей добилась успеха в другом направлении, все больше углубляясь в сознание; чтобы отразить обучение с подкреплением в уравнениях, потребовалось использовать термины, обозначающие скрытые ментальные понятия.

Одно из известных расширений модели Буша-Мостеллера появилось 20 лет спустя, в 1972 году, и было разработано другим дуэтом, психологами из Йельского университета Робертом Рескорлой и Алланом Вагнером. Рескорла и Вагнер обобщили модель Буша-Мостеллера, сделав ее применимой к более широкому кругу экспериментальных условий и способной охватить большее количество результатов. Первое изменение, которое они внесли, касалось самого показателя, который модель пыталась объяснить.

Вероятность реакции" Буша и Мостеллера была слишком конкретной и ограниченной. Рескорла и Вагнер вместо этого стремились зафиксировать более абстрактную величину, которую они назвали "ассоциативной силой". Сила ассоциации между подсказкой и вознаграждением - это то, что существует в сознании участника, что не позволяет измерить ее напрямую, но в разных экспериментах ее можно попытаться определить разными способами. Это может включать измерение вероятности ответа, например, вероятности слюноотделения, а также другие показатели, такие как количество слюны или поведение, например, лай или движение. Таким образом, Рескорла и Вагнер включили модель Буша-Мостеллера в более широкую структуру.

Модель Рескорла-Вагнера также расширилась, включив в себя известную особенность экспериментов по обучению, называемую "блокированием". Блокирование происходит, когда первоначальная подсказка сопряжена с вознаграждением, а затем вместе с первой подсказкой дается вторая, и обе они сопряжены с вознаграждением. Например, после того как собака научилась ассоциировать звук зуммера с едой, экспериментатор одновременно со звуком зуммера включал свет, а затем давал еду. В модели Буша и Мостеллера сигналы рассматривались совершенно отдельно. Таким образом, если свет и зуммер были сопряжены с едой достаточное количество раз, собака должна была ассоциировать свет с едой так же, как она усвоила ассоциацию со зуммером. Тогда можно было бы ожидать, что показ одного только света вызовет у собаки слюноотделение. На самом деле все обстоит иначе: у собак не возникает слюноотделения в ответ на один только свет. Присутствие зуммера блокирует способность света ассоциироваться с едой.

Это служит еще одним доказательством того, что обучение происходит благодаря ошибкам. В частности, ошибки, связанные с прогнозируемым вознаграждением. Когда животное слышит звуковой сигнал, оно знает, что скоро будет еда. Поэтому, когда пища прибывает, нет никакой ошибки в предсказании вознаграждения. Как мы уже видели, это означает, что животное не обновляет свои убеждения относительно зуммера. Но это также означает, что он не обновляет свои убеждения ни о чем другом. Был ли свет включен одновременно со звуковым сигналом или нет, не имеет значения. Свет никак не влияет на предсказанное вознаграждение, полученное вознаграждение или разницу между ними, которая определяет ошибку предсказания - а без ошибки все остается как есть. Ошибка предсказания - это смазка, которая смазывает колеса обучения.

Таким образом, Рескорла и Вагнер сделали так, что обновление ассоциативной силы между одной подсказкой и вознаграждением зависело не только от текущей ассоциативной силы этой подсказки, но и от суммы ассоциативных сил всех присутствующих подсказок. Если одна из этих ассоциаций имеет высокую силу (например, если присутствует зуммер), то присутствие награды не изменит ни одну из них (ассоциация со светом не будет усвоена). Такое суммирование по нескольким сигналам также должно происходить внутри животного, что еще больше отражает отказ от бихевиоризма и переход к разуму.

Но переломный момент в обучении с подкреплением наступил в середине 1980-х годов благодаря работе канадского компьютерщика с хвостиком по имени Ричарди его советника по докторской диссертации Эндрю Барто. Саттон получил образование в области психологии и информатики, а Барто проводил много времени за чтением литературы по психологии. Это оказалось мощной комбинацией, так как их совместная работа использовала достижения обеих областей и приносила пользу.

В работе Саттона был удален последний материальный элемент модели - само вознаграждение. До этого момента момент обучения был связан с моментом получения или отказа от вознаграждения. Если вы почувствуете запах дыма от затушенной свечи, а затем вам вручат кусок праздничного торта, то ассоциация между этими двумя понятиями усилится. Но свеча, погасшая в конце религиозной церемонии, скорее всего, не сопровождается тортом, и поэтому ассоциация ослабевает. Однако в любом случае важной переменной является сам торт. Его присутствие или отсутствие является ключевым фактором. В качестве сигнала может выступать что угодно, но награда должна быть первобытной - еда, вода, секс. Но как только мы начинаем ассоциировать дым с праздничным тортом, мы можем заметить и другие закономерности. Например, дыму обычно предшествует пение, а пению могут предшествовать люди, надевающие глупые шляпы. Ни одна из этих вещей сама по себе не является вознаграждением (особенно пение, на большинстве вечеринок), но они образуют цепочку, которая в той или иной степени связывает каждую из них с основным вознаграждением. Знание этой информации может быть полезным: если мы хотим торт, то, возможно, нам помогут глупые шляпы.

Рескорла и Вагнер никак не могли допустить такого подкрепления ассоциаций - по сути, не было способа, чтобы подсказка, связанная с вознаграждением в одних обстоятельствах, играла роль вознаграждения в других. Но Саттону это удалось. В алгоритме Саттона, известном как "обучение временной разницей", убеждения обновляются в ответ на любое нарушение ожиданий. Например, когда вы идете по офисному коридору к своему столу, ожидания относительно вознаграждения могут быть довольно низкими. Но когда вы слышите, как ваши коллеги в конференц-зале начинают первый куплет песни "С днем рождения", это означает, что произошло нарушение. Убеждения должны быть обновлены; теперь вы находитесь в состоянии, когда вознаграждение уже на горизонте. Именно здесь происходит обучение временным различиям. Вы можете выбрать войти в конференц-зал, допеть песню, понюхать свечи и съесть торт. При выполнении этих действий не произойдет никаких дальнейших нарушений, а значит, не произойдет и дальнейшего обучения. Таким образом, не само получение вознаграждения вызывает какие-либо изменения. Единственное обучение произошло в коридоре, за много шагов до награды.

Чему именно здесь учат? Какая ментальная концепция была обновлена в коридоре? Это не ассоциация подсказки с вознаграждением - по крайней мере, не напрямую. Скорее, это сигнал, указывающий вам путь к вознаграждению, если вы сделаете правильные шаги в этом направлении.

Это может показаться знакомым, потому что обучение временным различиям помогает вам узнать функцию ценности. В каждый момент времени, согласно этой функции, у нас есть ожидания - по сути, ощущение того, как далеко мы находимся от вознаграждения, - которые определяют ценность состояния, в котором мы находимся. По мере того, как проходит время или мы совершаем действия в мире, мы можем оказаться в новых состояниях, которые имеют свои собственные связанные с ними ценности. Если мы правильно предвидели ценность этих новых состояний, то все в порядке. Но если ценность текущего состояния отличается от того, что мы предсказывали, когда находились в этом состоянии раньше, то это означает, что мы допустили ошибку. А ошибки побуждают к обучению. В частности, если значение текущего состояния больше или меньше, чем мы ожидали, когда находились в предыдущем состоянии, мы изменяем значение предыдущего состояния. То есть мы берем сюрприз, который произошел сейчас, и используем его для изменения наших представлений о прошлом. Таким образом, в следующий раз, когда мы окажемся в предыдущем состоянии, мы сможем лучше предсказать будущее.

Подумайте о поездке в парк аттракционов. Здесь ценность вашего местоположения измеряется тем, как далеко вы находитесь от этого полезного места. Выходя из дома, вы рассчитываете добраться туда за 40 минут. Вы едете прямо пять минут и выезжаете на шоссе. Теперь вы рассчитываете добраться до места через 35 минут. Через 15 минут езды по шоссе вы сворачиваете с него. Теперь ваше расчетное время прибытия составляет 20 минут. Но, выехав на съезд и свернув на боковую улицу, вы попадаете в пробку. Сидя в своем еле двигающемся автомобиле, вы понимаете, что будете в парке только через 30 минут. Теперь ваше ожидаемое время прибытия увеличилось на 10 минут - значительная ошибка.

Что следует извлечь из этой ошибки? Если бы у вас было точное представление о мире, то в момент съезда с дороги вы бы ожидали еще 30 минут езды. Таким образом, обучение по временной разнице говорит, что вы должны обновить значение состояния, связанного с этим выездом. То есть вы используете информацию, полученную в одном состоянии (пробка на обочине), чтобы обновить свои убеждения о ценности предыдущего состояния (выезд). И это может означать, что в следующий раз, когда вы поедете в этот парк развлечений, вы избежите этого выезда и выберете другой. Но для того, чтобы извлечь уроки из этой ошибки, не обязательно приезжать в парк развлечений на 10 минут позже; достаточно было ожидать, что это произойдет при виде пробки.


Алгоритм Саттона показывает, что путем простого исследования - методом проб и ошибок - люди, животные или даже искусственный интеллект могут в конце концов узнать правильную функцию ценности для тех состояний, которые они исследуют. Все, что для этого нужно, - обновлять ожидания, когда они меняются, - "учиться угадывать на основе угадывания", как описывает это Саттон.

Являясь продолжением работы Беллмана по динамическому программированию, обучение на основе временных разностей имело потенциал для решения реальных проблем. Простое правило обучения "момент за моментом" делало его привлекательным с точки зрения вычислительной техники: оно не требовало такого объема памяти, как программы, которым нужно было хранить весь набор действий, предшествовавших получению вознаграждения, прежде чем учиться на его основе. Кроме того, оно работало. Одним из самых ярких проявлений его возможностей стала TD-Gammon - компьютерная программа, обученная с помощью обучения временным различиям играть в настольную игру нарды. Настольные игры являются особенно полезными тестами для обучения с подкреплением, поскольку вознаграждение часто приходит только в самом конце игры, в виде выигрыша или проигрыша. Использование такого грубого и отдаленного сигнала для управления стратегией на самом первом ходу - сложная задача, но временное разностное обучение может ее решить. Созданная в 1992 году Джеральдом Тесауро, ученым из IBM, система TD-Gammon сыграла сотни тысяч партий против самой себя и в итоге достигла уровня игрока среднего уровня, ни разу не получив инструкций от человека. Поскольку он учился в изоляции, он также разрабатывал стратегии, не опробованные людьми (которые, как правило, под влиянием игрового процесса друг друга придерживаются определенного набора ходов). В итоге необычные ходы TD-Gammon повлияли на теорию и понимание самой игры в нарды.


В 2013 году в прессе появилось еще одно применение метода обучения временным различиям, на этот раз в видеоиграх. Ученые из компании DeepMind, занимающейся исследованиями в области искусственного интеллекта, создали компьютерную программу, которая научила себя играть в несколько игр из аркадной системы Atari 1970-х годов. Этот искусственный геймер получил полный опыт игры в Atari. Единственными входными данными для алгоритма были пиксели на экране - ему не было дано никаких специальных знаний о том, что некоторые из этих пикселей могут представлять собой космические корабли, биты для пинг-понга или подводные лодки. Действия, которые он мог выполнять, включали в себя стандартные кнопки: вверх, вниз, влево, вправо, A, B; а наградой для модели служила оценка, которую давала игра, в которую она играла. Поскольку в этом случае перед алгоритмом ставилась более сложная задача, чем в нардах, где, по крайней мере, понятия фигур и расположения заложены в исходные данные модели, исследователи объединили обучение временной разности с глубокими нейронными сетями (метод, с которым мы уже сталкивались в главе 3). Одна из версий этой глубокой нейронной сети насчитывала около 20 000 искусственных нейронов и после нескольких недель обучения достигла производительности на уровне человека в 29 из 49 протестированных игр. Поскольку этот алгоритм Atari также обучался асоциально, в итоге у него появились некоторые интересные причуды, в том числе он обнаружил хитроумный трюк для прохода сквозь стену в игре Breakout, где нужно разрушать кирпичи.

Игры - это яркий и забавный способ продемонстрировать возможности такого подхода, но на этом его применение не закончилось. После того как в 2014 году компания Google приобрела DeepMind, она поставила перед алгоритмами обучения с подкреплением задачу минимизировать энергопотребление в своих огромных центрах обработки данных. В результате было достигнуто 40-процентное снижение потребления энергии для охлаждения центров и, вероятно, экономия в сотни миллионов в течение нескольких лет. Алгоритмы обучения с подкреплением, ориентированные на достижение поставленной цели, находят творческие и эффективные решения сложных задач. Таким образом, эти инопланетные разумы могут помочь разработать планы, до которых человек никогда бы не додумался.

Пути последовательного принятия решений и павловского обусловливания представляют собой победу конвергентной научной эволюции. Пути Беллмана и Павлова начинаются с отдельных и существенных проблем, каждая из которых кипит своими требовательными деталями. Как больнице составить график работы медсестер и врачей, чтобы обслужить наибольшее количество пациентов? Что заставляет собаку выделять слюну, когда в ее ушах раздается звук зуммера? Казалось бы, эти вопросы не имеют ничего общего. Но если отбросить груз конкретики, оставив лишь голые кости проблемы, становится понятна их взаимосвязь. В этом и заключается одна из задач математики: поместить вопросы, не связанные между собой в физическом мире, в одно и то же концептуальное пространство, в котором может проявиться их глубинное сходство.

Таким образом, история обучения с подкреплением - это история успешного междисциплинарного взаимодействия. Она показывает, что психология, инженерия и информатика могут работать вместе, чтобы добиться прогресса в решении сложных проблем. Она демонстрирует, как математика может быть использована для понимания и воспроизведения способности животных и людей учиться у окружающей среды. Эта история и так была бы замечательной, если бы на этом закончилась. Но она на этом не заканчивается.

* * *


Октопамин - это молекула, содержащаяся в нервной системе многих насекомых, моллюсков и червей. Он назван так из-за того, что был обнаружен в слюнных железах осьминога в 1948 году. В мозге пчелы октопамин высвобождается при попадании нектара. В начале 1990-х годов Терри Сейновски, профессор Института Солка в Сан-Диего (Калифорния), и два сотрудника его лаборатории, Рид Монтегю и Питер Даян, задумались об октопамине. В частности, они построили модель - компьютерную симуляцию поведения пчел, - в центре которой находился нейрон в мозге пчелы, выделяющий октопамин. Они предположили, что выбор пчелы, на какие цветы садиться или избегать, можно объяснить с помощью модели обучения Рескорла-Вагнера, а нейронная цепь, включающая октопаминовый нейрон, может быть аппаратным обеспечением, реализующим эту модель. Но пока они решали эту октопаминовую головоломку, команда узнала о другом исследовании, проведенном примерно в 6000 миль от них немецким профессором по имени Вольфрам Шульц, посвященном химическому родственнику октопамина - дофамину.

Возможно, вы знакомы с допамином. В популярной культуре он пользуется определенной репутацией. В бесчисленных новостных статьях его называют "химическим веществом нашего мозга, связанным с удовольствием и вознаграждением" или рассказывают о том, что такие повседневные действия, как поедание кекса, вызывают "всплеск химического вещества допамина, способствующего вознаграждению, в области мозга, где принимаются решения". Его называют "молекулой удовольствия", и нередко под этим мощным названием продаются товары. Поп-звезды называют в его честь альбомы и песни. Дофаминовые диеты" утверждают (без доказательств), что продукты, повышающие уровень дофамина, помогают сохранить стройность. А технологический стартап Dopamine Labs пообещал повысить вовлеченность пользователей в телефонные приложения за счет нейротрансмиттера. Это бедное химическое вещество знаменитостей также очень сильно задело - его называют источником всех зависимостей и дезадаптивных форм поведения. Появились онлайн-сообщества вроде The Dopamine Project, цель которых - обеспечить "лучшую жизнь через осознание дофамина". А некоторые жители Силиконовой долины даже пытались устраивать "дофаминовые голодания", чтобы отдохнуть от постоянного переизбытка стимуляции.

Хотя это правда, что выброс дофамина может сопровождать вознаграждение, это далеко не вся история. В частности, в исследовании Шульца был показан случай, когда нейроны, выделяющие дофамин, молчали, когда получали вознаграждение.

В частности, Шульц обучал обезьян протягивать руку вперед, чтобы получить немного сока. Во время обучения он регистрировал активность группы дофамин-выделяющих нейронов, расположенных в нижней части мозга. Шульц заметил, что в конце обучения - когда животные знали, что получат сок, протянув руку, - эти нейроны вообще никак не реагировали на выдачу вознаграждения в виде сока.

Когда Шульц впервые опубликовал эти результаты, у него не было четкого объяснения, почему дофаминовые нейроны ведут себя именно так, но у членов лаборатории Сейновски оно было. И они обратились к Шульцу, чтобы начать сотрудничество, в ходе которого была бы проверена гипотеза о том, что дофаминовые нейроны кодируют ошибки предсказания, необходимые для обучения по временной разнице. Это стало началом того, что Сейновски назвал "одним из самых захватывающих научных периодов в моей жизни

Даян и Монтегю попытались проанализировать данные Шульца через призму алгоритмов обучения. Они сосредоточились на простейшем эксперименте Шульца, который заключался в том, что в нужном месте включался свет, и если животное тянулось к нему, то через полсекунды подавалась капля сока. Их интересовало, как изменяется реакция дофаминовых нейронов по мере того, как животное усваивает эту ассоциацию. Но их также интересовало особое обстоятельство после обучения: что происходит, когда сок не следует за светом. Если животные усвоили ассоциацию "свет-сок", они должны были знать, что ожидать этого, и если сок не появлялся, это было бы значительной ошибкой предсказания. Отразили ли это дофаминовые нейроны?

Нейроны, выделяющие дофамин, обычно производят около пяти всплесков в секунду, когда ничего особенного не происходит. В начале процесса обучения, сразу после того, как животное, сделав движение рукой, получило, как казалось, неожиданную порцию сока, этот показатель ненадолго подскочил примерно до 20 шипиков в секунду. Однако свет, предшествующий движению, ничего не вызывал. Но после достаточного количества пар, когда животное поняло, как связаны между собой свет, достижение и сок, эта картина изменилась. Нейроны дофамина перестали реагировать на сок. Это изменение полностью соответствует представлению о том, что они сигнализируют об ошибке предсказания, поскольку, как только животное может правильно предсказать появление сока, ошибки больше нет. И они начали реагировать на свет. Почему? Потому что свет стал ассоциироваться с вознаграждением, но - что очень важно - они не знали, когда он включится. Когда он появился, это была ошибка. Точнее, это ошибка в предсказанном значении состояния животного. Сидя в экспериментальном кресле и занимаясь своими делами, обезьяна ожидает, что следующий момент будет более или менее похож на текущий. Когда включается свет, это ожидание нарушается. Как если бы вы услышали первые несколько тактов песни "С днем рождения" в коридоре своего офиса - приятный сюрприз, но тем не менее сюрприз.

Последний анализ, проведенный при спорадическом отказе от сока после достижения, был направлен на то, чтобы увидеть, как кодируются неприятные сюрпризы. Если дофамин кодирует ошибки, то он должен указывать и на то, когда ситуация хуже, чем ожидалось. И когда сок отсутствовал, нейроны именно это и делали. У них наблюдался спад в стрельбе как раз в то время, когда сок должен был быть доставлен. Точнее, в ответ на свет нейроны сбрасывали от пяти до 20 импульсов в секунду; затем, когда животное протягивало руку, их количество возвращалось к пяти. Но примерно через полсекунды после протягивания руки, когда становилось ясно, что сок не поступает, они полностью отключались. Ожидание было нарушено, и дофаминовые нейроны давали об этом знать.

Это исследование показало, что срабатывание дофаминовых нейронов может сигнализировать об ошибках - как положительных, так и отрицательных - относительно прогнозируемых значений, которые необходимы для обучения. Таким образом, оно стало важным моментом в изменении понимания дофамина от молекулы удовольствия до педагогического.

Однако если смысл кодирования ошибки заключается в том, чтобы извлечь из нее уроки, то где происходит это обучение? Оказывается, это не так просто определить, потому что дофамин-выделяющие нейроны выделяют дофамин во многих уголках мозга; их проекции пронизывают мозг, как трубы, затрагивая близкие и далекие области.Тем не менее,сайте есть место, которое кажется особенно важным, - это стриатум. Стриатум - это группа нейронов, которая служит первичным входом для целого ряда областей мозга, участвующих в управлении движениями и действиями. Нейроны в стриатуме способствуют формированию поведения, связывая сенсорные сигналы с действиями или действия с другими действиями.

Как мы видели в главе 4, гебистское обучение - это простой способ закодировать ассоциации между идеями в связях между нейронами. По правилам Хеббиана, если один нейрон регулярно срабатывает раньше другого, вес связи от первого ко второму усиливается. Однако в обучении с подкреплением нам нужно не просто знать, что два события произошли в близкое время. Нам нужно знать, как эти события связаны с вознаграждением. В частности, мы хотим обновить вес связи между сигналом и действием (например, увидеть свет и потянуться к нему) только в том случае, если эта пара окажется связанной с вознаграждением.

Таким образом, нейроны в стриатуме не следуют базовому гебистскому обучению. Вместо этого они следуют модифицированной форме, при которой срабатывание одного нейрона перед другим укрепляет их связь только в том случае, если это происходит в присутствии дофамина. Таким образом, дофамин, который кодирует сигнал об ошибке, необходимый для обновления значений, также требуется для физических изменений, необходимых для обновления, которые происходят в синапсе. Таким образом, дофамин действительно действует как смазка для обучения.

Появление языка изучения временных различий, на котором можно говорить о работе мозга, изменило разговор на такие клинические темы, как зависимость. Одна из теорий, выдвинутая в 2004 году нейробиологом Дэвидом Редишем, пытается объяснить вызывающие зависимость свойства таких наркотиков, как амфетамин и кокаин, с точки зрения их влияния на высвобождение дофамина. Он утверждает, что эти наркотики вызывают выброс дофамина, который не зависит от истинной ошибки предсказания. Точнее, перегружая дофаминовые нейроны, эти наркотики посылают в остальной мозг ложный сигнал о том, что наркотический опыт всегда лучше, чем ожидалось. Этот ошибочный сигнал об ошибке все еще стимулирует обучение, подталкивая оценочную стоимость состояний, связанных с употреблением наркотиков, все выше и выше. Подобная деформация функции ценности гарантированно оказывает пагубное влияние на поведение, подобное тому, что наблюдается при наркомании.6

* * *

Дэвид Марр - британский нейробиолог с математическим образованием. Его книга "Видение: A Computational Investigation into the Human Representation and Processing of Visual Information" была опубликована в 1982 году, через два года после его смерти. В первой главе он излагает компоненты, необходимые для успешного анализа нейронной системы. По мнению Марра, чтобы понять любой кусочек мозга, мы должны быть в состоянии объяснить его на каждом из трех уровней: вычислительном, алгоритмическом и реализационном. На вычислительном уровне спрашивается, какова общая цель этой системы, то есть что она пытается сделать? На алгоритмическом уровне спрашивается, как, то есть с помощью каких шагов, она достигает этойцели. И наконец, уровень реализации спрашивает, какие именно части системы - какие нейроны, нейротрансмиттерыи т. д. - выполняют эти шаги.

Объяснение, охватывающее все уровни Марра, - это стремление, к которому стремятся многие нейробиологи. Системы, осуществляющие обучение с подкреплением, - редкий случай, когда они могут приблизиться к этой высокой планке. На вычислительном уровне у обучения с подкреплением есть простой ответ: максимизировать вознаграждение. Это то, что Беллман считал целью последовательных процессов принятия решений, и то, чего вы должны достичь, следуя функции ценности. Но как узнать функцию ценности? Вот тут-то и приходит на помощь обучение временным различиям. Работы Буша, Мостеллера, Резорлы, Вагнера и Саттона превратили стопки данных, полученных в ходе экспериментов по обучению, в строки символов, которые могли бы описать алгоритм, необходимый для выполнения обучающей части обучения с подкреплением. На уровне реализации дофаминовые нейроны берут на себя задачу вычисления ошибки предсказания, а сигналы, которые они посылают в другие области мозга, управляют усвоенными там ассоциациями. Таким образом, удовлетворительное понимание фундаментальной способности - учиться на вознаграждениях - было достигнуто благодаря тому, что мы подошли к этой теме с разных сторон.

Глава 12. Великие единые теории мозга.

Принцип свободной энергии, теория тысячи мозгов и интегральная теория информации

Один из самых сильных толчков в истории науки произошел в физике в середине девятнадцатого века. Джеймс Клерк Максвелл, шотландский математик, опубликовал свою работу из семи частей "Динамическая теория электромагнитного поля" в 1865 году. С помощью этого марафона проницательных аналогий и уравнений Максвелл продемонстрировал глубокую и важную взаимосвязь между двумя и без того важными формами физического взаимодействия: электричеством и магнетизмом. В частности, определив теорию электромагнитного поля, Максвелл создал математическую инфраструктуру, необходимую для того, чтобы рассматривать уравнения электричества и магнетизма как две стороны одной медали. В процессе работы он пришел к выводу, что третий важный объект - свет - является волной в этом электромагнитном поле.

Ученые, конечно, изучали электричество, магнетизм и свет на протяжении столетий до Максвелла. И они многое узнали о них, о том, как они взаимодействуют и как их можно использовать. Но объединение Максвелла дало нечто принципиально иное - совершенно новый способ интерпретации физического мира. Оно стало первой доминошкой в череде эпохальных открытий в основополагающей физике и проложило путь для многих современных технологий. Например, работа Эйнштейна была построена на теории электромагнитного поля, и он, как сообщается, приписывал свой успех тому, что стоял "на плечах Максвелла".

Однако теория Максвелла не только оказала непосредственное влияние на исследования, но и заронила в умы будущих физиков мысль о том, что между физическими силами могут существовать более глубокие связи. Раскрытие этих связей стало главной целью теоретической физики. В двадцатом веке начался явный поиск так называемых больших единых теорий (GUT). На первом месте в списке задач стоял поиск ГУТ, которая могла бы объединить электромагнетизм с двумя другими силами: слабой силой (которая управляет радиоактивным распадом) и сильной силой (которая удерживает атомные ядра вместе). Большой шаг в этом направлении был сделан в начале 1970-х годов с открытием того, что слабые силы и электромагнетизм становятся единым целым при очень высоких температурах. Но, несмотря на это, при объединении сильных и слабых сил остается еще одна большая сила - гравитация. Поэтому физики продолжают поиски полного ГУТ.

ГУТ учитывают эстетические предпочтения многих физиков: простота, элегантность, целостность. Они демонстрируют, как целое может стать больше, чем сумма его частей. До определения ГУТ ученые подобны слепцам, ощупывающим слона в старой притче. Каждый из них полагается на те крохи информации, которые он может ухватить из хобота, ноги или хвоста. Благодаря этому они придумывают отдельные и неполные истории о том, что делает каждый кусочек. Однако, увидев слона целиком, все части становятся на свои места, и каждая из них становится понятной в контексте других. Глубокая мудрость, полученная в результате нахождения GUT, не может быть приближена изучению частей по отдельности. Поэтому, как бы трудно их ни было найти, физическое сообщество считает поиск ГУТ достойным занятием. Как писал физик Димитри Нанопулос в 1979 году, вскоре после того, как он помог придумать эту фразу, "великие единые теории дают очень хорошее и правдоподобное объяснение целому ряду различных и на первый взгляд не связанных между собой явлений, и они определенно имеют достоинства и право на то, чтобы их воспринимали серьезно".

Но стоит ли воспринимать ГУТ мозга всерьез? Идея о том, что небольшое количество простых принципов или уравнений сможет объяснить все, что касается формы и функций мозга, привлекательна по тем же причинам, по которым ГУТ желанны в физике. Однако большинство ученых, изучающих мозг, сомневаются в возможности их существования. Как пишут психологи Майкл Андерсон и Тони Чемеро: "Есть все основания полагать, что не может существовать большой единой теории функционирования мозга, потому что есть все основания полагать, что такой сложный орган, как мозг, функционирует по разным принципам". GUT для мозга, каким бы замечательным он ни был, многие считают фантазией.

С другой стороны, многое из того, что было привнесено из физики в нейронауку, - модели, уравнения, образ мышления - помогло продвинуть эту область в том или ином направлении. ГУТ, являющиеся ядром современной физики, трудно игнорировать. Они могут быть манящими для тех, кто изучает мозг, даже если они кажутся маловероятными, а для некоторых ученых они просто слишком соблазнительны, чтобы их пропустить.

Поиск ГУТ в мозге - это работа с высоким риском и высокой наградой. Поэтому для его ведения, как правило, требуется крупная личность. У большинства кандидатов на ГУТ мозга есть своего рода фронтмен - ученый, обычно тот, кто первым разработал теорию, который выступает в качестве ее публичного лица. Чтобы добиться успеха ГУТ, также требуется преданность делу: сторонники теории будут работать над ее совершенствованием годами, даже десятилетиями. Они постоянно ищут новые способы применить свою теорию ко всем аспектам мозга, которые только могут найти. Пропаганда тоже важна: даже самая грандиозная ГУТ не сможет многого объяснить, если о ней никто не слышал. Поэтому было написано множество работ, статей и книг, чтобы донести информацию о GUT не только до научного сообщества, но и до всего мира. Однако энтузиастам GUT лучше иметь толстую кожу. Продвижение таких теорий может быть встречено с презрением со стороны массы ученых, выполняющих более надежную работу по изучению мозга по частям.

Социолог Мюррей С. Дэвис предложил свои размышления о теориях в статье 1971 года под названием "Это интересно!". В ней он сказал: "Долгое время считалось, что теоретик считается великим, потому что его теории верны, но это неверно. Теоретик считается великим не потому, что его теории истинны, а потому, что они интересны... На самом деле истинность теории имеет очень мало общего с ее влиянием, поскольку теория может оставаться интересной, даже если ее истинность оспаривается - даже опровергается! Великие единые теории мозга, какова бы ни была их истинность, несомненно, интересны.

* * *

В целом веселый и мягкий, британский нейробиолог Карл Фристон не совсем подходит на роль лидера амбициозного и противоречивого научного движения. Тем не менее у него есть преданные последователи. Ученые - от студентов до профессоров, в том числе и те, кто находится далеко за пределами традиционных границ нейронауки, - ритуально собираются по понедельникам, чтобы получить несколько минут его озарений. Они приходят за его уникальной мудростью в основном по одной теме. Это всеобъемлющая основа, на которой Фристон уже более 15 лет строит понимание мозга, поведения и других процессов: принцип свободной энергии.

Свободная энергия" - это математический термин, определяемый различиями между распределениями вероятностей. Однако его значение в системе Фристона можно сформулировать довольно просто: свободная энергия - это разница между предсказаниями мозга о мире и фактической информацией, которую он получает. Принцип свободной энергии гласит, что все, что делает мозг, можно понимать как попытку минимизировать свободную энергию - то есть сделать так, чтобы предсказания мозга как можно больше соответствовали реальности.

Вдохновленные таким способом понимания, многие исследователи занялись поиском того, где в мозге могут делаться предсказания и как они могут сверяться с реальностью. Небольшая отрасль исследований, построенная на идее "предиктивного кодирования", изучает, как это может происходить, в частности, в сенсорной обработке. В большинстве моделей предиктивного кодирования информация проходит через систему сенсорной обработки в обычном режиме. Например, слуховая информация поступает из ушей, сначала проходит через области ствола и среднего мозга, а затем последовательно проходит через несколько областей в коре головного мозга. Этот прямой путь широко признан решающим для превращения сенсорной информации в восприятие даже теми исследователями, которые не слишком доверяют теории предиктивного кодирования.

Уникальность предиктивного кодирования заключается в том, что оно утверждает об обратном пути - связях, идущих от более поздних областей к более ранним (например, от второй слуховой области в коре головного мозга обратно к первой). В целом ученые выдвинули множество гипотез о различных ролях этих проекций. Согласно гипотезе предиктивного кодирования, эти связи несут в себе предсказания. Например, когда вы слушаете любимую песню, ваша слуховая система может иметь очень точное представление о предстоящих нотах и тексте. В соответствии с моделью предиктивного кодирования эти предсказания отправляются назад и объединяются с поступающей вперед информацией о том, что на самом деле происходит в мире. Сравнивая эти два потока, мозг может вычислить ошибку между предсказанием и реальностью. Фактически, в большинстве моделей кодирования предсказаний особые нейроны "ошибки" наделены именно этой задачей. Таким образом, их активность указывает на то, насколько мозг ошибся: если они часто стреляют, значит, ошибка в предсказании была высокой, если молчат - низкой. Таким образом, активность этих нейронов является физическим воплощением свободной энергии. И, согласно принципу свободной энергии, мозг должен стремиться к тому, чтобы эти нейроны работали как можно меньше.

Существуют ли такие ошибочные нейроны в сенсорных путях? И учится ли мозг их заглушать, делая более точные прогнозы о мире? Ученые ищут ответы на эти вопросы уже много лет. Например, исследование, проведенное учеными из Франкфуртского университета имени Гете, показало, что некоторые нейроны в слуховой системе действительно снижают свою активность, когда слышится ожидаемый звук. В частности, исследователи научили мышей нажимать на рычаг, издающий шум. Когда мыши слышали ожидаемый звук после нажатия на рычаг, их нейроны реагировали меньше, чем если бы этот же звук воспроизводился случайным образом или если бы рычаг издавал неожиданный звук. Это говорит о том, что у мышей в голове было предсказание, и нейроны их слуховой системы срабатывали чаще, когда это предсказание нарушалось. В целом, однако, доказательства предиктивного кодирования неоднозначны. Не все исследования, направленные на поиск нейронов с ошибками, находят их, и даже если находят, эти нейроны не всегда ведут себя именно так, как предсказывает гипотеза предиктивного кодирования.

Сделать мозг более совершенной предсказательной машиной может показаться самым очевидным способом минимизации свободной энергии, но это не единственный способ. Поскольку свободная энергия - это разница между предсказаниями мозга и опытом, ее также можно минимизировать, контролируя опыт. Представьте себе птицу, которая привыкла летать по определенному лесу; она может предсказать, какие деревья подойдут для строительства гнезда, где находится лучшая пища и так далее. Однажды она вылетает за пределы своего обычного ареала и оказывается в городе. Впервые столкнувшись с высокими зданиями и автомобильным движением, он теряет способность предсказывать практически все, что касается окружающего его мира. Такое большое расхождение между предсказаниями и опытом означает, что свободная энергия высока. Чтобы снизить свободной энергии, птица может остаться здесь и надеяться, что ее сенсорные системы адаптируются, чтобы быть в состоянии предсказывать особенности городской жизни. Или же она может просто улететь обратно в лес, откуда прилетела. Наличие второго варианта - выбора действий, которые приводят к предсказуемым сенсорным ощущениям, - делает принцип свободной энергии кандидатом на роль ГУТ мозга. Этот принцип не просто объясняет особенности сенсорной обработки, он может охватывать и решения о поведении.

Принцип свободной энергии действительно использовался для объяснения восприятия, действия и всего, что между ними. Он включает в себя такие процессы, как обучение, сон и внимание, а также такие расстройства, как шизофрения и зависимость. Также утверждается, что этот принцип может объяснить анатомию нейронов и областей мозга, а также детали их взаимодействия. На самом деле Фристон даже не ограничивает свободную энергию мозгом. Он утверждал, что она является руководящим принципом всей биологии и эволюции и даже способом понимания основ физики.

Эта склонность пытаться упаковать сложные темы в простые пакеты не покидала Фристона на протяжении всей его жизни. В статье, опубликованной в 2018 году в журнале Wired, он вспоминает мысль, которая пришла ему в голову в подростковом возрасте: "Должен быть способ понять все, начав с нуля... Если мне позволено начать только с одной точки во всей Вселенной, могу ли я вывести из нее все остальное, что мне нужно?". В мире принцип свободной энергии - это почти ничто, которое может объяснить почти все.

Однако за пределами мира Фристона возможности принципа свободной энергии не всегда столь очевидны. Учитывая его грандиозные обещания, бесчисленные ученые пытались разобраться во всех тонкостях теории Фристона. Лишь немногие (даже те, кто считает себя поклонниками этого принципа) считают свои попытки полностью успешными. Дело не в том, что уравнения слишком сложны - многие ученые посвятили свою жизнь постижению математики разума. Скорее, для того чтобы экстраполировать и применить принцип свободной энергии ко всем закоулкам и закоулкам работы мозга, требуется интуиция, которая, похоже, сильнее всего развита у самого Фристона. Не имея четкого и объективного способа интерпретации свободной энергии в каждом конкретном случае, Фристон вынужден играть роль шептуна свободной энергии, излагая свою точку зрения на ее последствия в бесчисленных статьях, выступлениях и понедельничных встречах.

Путаница вокруг принципа свободной энергии, скорее всего, вызвана его особенностью, которую Фристон охотно признает: он не поддается фальсификации. Большинство гипотез о том, как функционирует мозг, поддаются фальсификации - то есть выдвигают утверждения, ошибочность которых можно доказать с помощью экспериментов. Однако принцип свободной энергии - это скорее способ взглянуть на мозг, чем сильное или конкретное утверждение о том, как он работает. Как сказал Фристон: "Принцип свободной энергии - это то, чем он является, - принцип... С ним мало что можно сделать, если только не спрашивать, соответствуют ли измеряемые системы этому принципу". Другими словами, вместо того чтобы пытаться делать чистые предсказания о мозге на основе принципа свободной энергии, ученые должны спросить, помогает ли им этот принцип увидеть вещи в новом свете. Пытаетесь понять, как работает та или иная часть мозга? Спросите, не минимизирует ли он каким-то образом свободную энергию. Если это приведет к прогрессу - отлично; если нет - тоже хорошо. Таким образом, принцип свободной энергии - это в лучшем случае строительные леса, на которые можно повесить факты о мозге. В той мере, в какой он может связать множество фактов, он грандиозен и в некоторой степени объединяющий; однако без фальсифицируемости его статус как теории более сомнителен.

* * *

Numenta - небольшая технологическая компания, базирующаяся в Редвуд-Сити, штат Калифорния. Она была основана Джеффом Хокинсом, предпринимателем, который ранее основал две компании, выпускавшие предшественников современных смартфонов. Numenta, с другой стороны, производит программное обеспечение. Компания разрабатывает алгоритмы обработки данных, помогающие биржевым брокерам, дистрибьюторам энергии, IT-компаниям и т. п. выявлять и отслеживать закономерности в потоках поступающих данных. Однако главная цель Numenta - реинжиниринг мозга.

Даже сделав блестящую карьеру в сфере технологий, Хокинс всегда интересовался мозгом. Несмотря на то что сам он так и не получил степень в этой области, в 2002 году он основал Redwood Neuroscience Institute. Впоследствии этот институт стал частью Калифорнийского университета в Беркли, а Хокинс в 2005 году перешел в компанию Numenta. Работа Numenta основана в основном на идеях, изложенных в книге 2004 года "Об интеллекте", написанной Хокинсом в соавторстве с Сандрой Блейксли. В книге кратко изложена теория Хокинса о том, как неокортекс - тонкий слой мозговой ткани, покрывающий поверхность мозга млекопитающих, - работает для создания ощущений, познания, обучения, движения и многого другого. Это набор идей, который теперь проходит под названием "Теория интеллекта тысячи мозгов".

В центре теории тысячи мозгов находится часть нейроархитектуры, известная как кортикальная колонка. Кортикальные колонки - это небольшие участки клеток, меньше кончика карандаша в диаметре и примерно в четыре раза больше в длину. Они названы так потому, что образуют цилиндры, идущие от верхней части неокортекса к нижней, подобно множеству параллельных нитей спагетти. Если посмотреть на колонку в продольном направлении, она напоминает листы осадка: нейроны разделены на шесть хорошо различимых слоев. Нейроны в разных слоях взаимодействуют друг с другом, посылая связи вверх или вниз. Как правило, все нейроны в колонке выполняют одну и ту же функцию: например, они могут одинаково реагировать на сенсорный сигнал. Однако разные слои, по-видимому, служат разным целям: некоторые слои, например, получают входные сигналы из других областей мозга, а другие посылают выходные сигналы.

Вернон Маунткасл, специалист по сенсорной нейронауке, который впервые выделил эти колонки в середине XX века, считал, что они представляют собой фундаментальную анатомическую единицу мозга. Хотя это противоречило догмам того времени, Маунткэсл видел потенциал в идее единой повторяющейся единицы, которая покрывает весь неокортекс, - единой единицы, способной обрабатывать все разнообразие информации, получаемой корой головного мозга. Хокинс с этим согласен. В своей книге он называет работу Маунткэсла "Розеттским камнем нейронауки", потому что это "единая идея, которая объединила все разнообразные и удивительные возможности человеческого разума

Чтобы понять, чем, по мнению Хокинса, занимаются эти мини-процессоры, нужно рассмотреть и время, и пространство. Если принять тот факт, что разумные машины будут работать по принципам неокортекса, - сказал Хокинс в интервью 2014 года, - то "время - это все". Входы в мозг постоянно меняются, и это делает статичную модель работы мозга крайне неполной. Более того, результаты работы мозга - поведение, производимое телом, - распространяются как в пространстве, так и во времени. По мнению Хокинса, активное перемещение тела в пространстве и получение в ответ динамичных потоков сенсорных данных помогает мозгу глубоко понять мир.

Загрузка...