Теренс Дж. Сейновски
Специалист по вычислительной нейрофизиологии, профессор Института Солка; автор книги The Computational Brain («Мозг-вычислитель»)
Мы полагаем, что важнейшие решения в нашей жизни – какую работу выбрать, где жить, на ком жениться – мы принимаем сознательно. Однако целый ряд свидетельств, полученных биологами, указывает на противоположное: процесс принятия решений происходит в древней системе мозга, именуемой базальными ядрами, и в их мозговые цепи наше сознание доступа не имеет.
Научный путь, приведший к такому выводу, начался с исследования пчел. Рабочие пчелы летят на весеннее поле за нектаром, который они идентифицируют по цвету, запаху и форме цветка. Цепь обучения в пчелином мозгу замыкается на VUMmx1 – единичный нейрон: он получа ет сенсорный сигнал, а чуть позже – сообщение о степени ценности нектара, таким образом учась предсказывать нектарную ценность данного цветка в следующий раз, когда пчела с ним встретится. Эта отсрочка играет важную роль. Здесь важнее всего именно предсказание, а не просто ассоциация. Та же идея является стержнем темпорально-дифференциального (ТД-) обучения, которое включает в себя освоение последовательности решений, приводящих к определенной цели, и особенно эффективно в нестабильных и ненадежных средах – скажем, в мире, где мы живаем.
В глубине среднего мозга у нас таится небольшой набор нейронов, который имелся и у наших самых ранних позвоночных предков; он подает сигналы и корковой мантии, и базальным ядрам. Нейроны эти вырабатывают нейротрансмиттер под названием допамин: он оказывает огромное влияние на наше поведение. Допамин именуют «молекулой вознаграждения», но еще важнее награды способность этих нейронов предсказывать награждение: насколько я буду рад, если получу эту работу? Допаминовые нейроны, играющие центральную роль в мотивационных процессах, реализуют ТД-обучение – как и нейрон VUMmx1.
ТД-обучение решает проблему отыскания кратчайшего пути к цели. Этот алгоритм действует в реальном времени, поскольку обучение происходит посредством непрерывного исследования и посредством выявления ценности промежуточных решений на пути к цели. При этом создается некая «функция внутренней ценности», которую можно использовать для предсказания последствий действий. Допаминовые нейроны оценивают текущее состояние всей коры в целом и сообщают мозгу, каков оптимальный план действий, исходя из текущего состояния. Во многих случаях оптимальным вариантом является догадка, но поскольку эффективность догадок можно улучшать, ТД-обучение со временем вырабатывает функцию ценности прогностических возможностей. Допамин служит источником «нутряного предчувствия», которое у нас иногда бывает: из этого вещества и делается интуиция.
Когда вы рассматриваете различные варианты действий, мозговые цепочки оценивают каждый сценарий, и прогнозируемая ценность каждого решения оценивается по промежуточному содержанию допамина для каждого случая. Уровень допамина связан также с уровнем мотивации, так что высокое содержание допамина не только указывает на высокий уровень ожидаемого вознаграждения, но и подразумевает, что вам потребуется более высокий уровень мотивации, чтобы достигнуть цели. С двигательной системой в буквальном смысле то же самое: более высокий уровень допаминового тонуса обеспечивает более быстрые движения. Кокаин и амфетамины вызывают такое сильное привыкание именно вследствие повышения допаминовой активности при их приеме: они словно взламывают внутреннюю мотивационную систему мозга. Снижение содержания допамина в организме приводит к агедонии – неспособности испытывать удовольствие. Утрата допаминовых нейронов ведет к развитию болезни Паркинсона – неспособности самостоятельно действовать и мыслить.
ТД-обучение обладает такой высокой эффективностью, поскольку позволяет объединять ценностную информацию множества разных аспектов – к примеру, сравнивая яблоки и апельсины. Оно играет такую важную роль, ибо рациональное принятие решений бывает весьма затруднительным, когда мы имеем дело с большим количеством переменных параметров и неизвестных величин. Обладание внутренней системой, умеющей быстро снабжать нас удачными догадками, несет в себе громадные преимущества и может даже спасти нам жизнь в тех случаях, когда срочно требуется решение. ТД-обучение зависит от нашего жизненного опыта, от былых переживаний. Оно извлекает самое существенное из этого опыта даже спустя долгое время после того, как отдельные подробности уже забылись.
ТД-обучение также дает объяснение многим экспериментам, которые ставили психологи, обучая крыс и голубей выполнять несложные задания. Алгоритмы психологического подкрепления при обучении считаются слишком слабыми для объяснения сложных моделей поведения, поскольку при этом обратная связь со стороны среды минимальна. Тем не менее обучение методом подкрепления распространено почти у всех видов и играет важнейшую роль в возникновении самых сложных форм сенсорно-моторной координации – таких, например, как игра на фортепиано или речь. Обучение методом подкрепления оттачивалось сотнями миллионов лет эволюции.
Насколько сложную проблему можно решить с помощью ТД-обучения? «TD-Gammon» – компьютерная программа, которая учится играть в нарды, просто сражаясь сама с собой. Трудность такого подхода в том, что награда приходит лишь в конце партии, так что неясно, какие именно ходы были хорошими и привели к победе. Вначале программа ничего не знает об игре кроме правил. Играя сама с собой много раз и применяя алгоритмы ТД-обучения, программа постепенно поднимается от уровня новичка к уровню опытного игрока, попутно придумывая и запоминая хитроумные стратегии, похожие на те, что используются игроками-людьми. Сыграв сама с собой миллион раз, программа достигла чемпионского уровня и открыла новый метод позиционной игры, изумивший специалистов-людей. Такие же принципы, примененные к игре го, позволили компьютерам достичь впечатляющего мастерства; не за горами их выступление на профессиональном уровне.
Когда речь идет об огромном количестве возможных исходов, полезно применять методы предварительного отбора, отсечения незначимых вариантов. Внимание и работоспособная память позволяют нам сосредоточиваться на самых важных элементах проблемы. Обучение методом подкрепления становится еще эффективнее благодаря сознательной (декларативной) памяти, которая отслеживает уникальные объекты и события. Когда у приматов в ходе эволюции появился более крупный мозг, соответствующее увеличение емкости памяти чрезвычайно улучшило их способность принимать сложные решения, позволив осуществлять более длинные последовательности действий для достижения целей. Мы – единственный вид, который изобрел систему образования и который ввергает себя в долгие годы уроков и экзаменов. Отложенное вознаграждение может восприниматься как нечто ожидающее нас лишь в далеком будущем (в некоторых случаях – в воображаемой жизни после смерти): такова власть допамина над нашим поведением.
В начале когнитивной революции 1960‑х даже самые блестящие умы не могли представить себе, что обучение с подкреплением может служить причиной разумного поведения. Ум ненадежен. Природа умнее нас.