Задачу научить нейросети точно воспроизводить процессы, происходящие в живом мозге, пока решить не удалось. Одна из сложностей — понять, как именно мозг формирует «когнитивные карты» — внутренние представления о пространстве вокруг нас, которые помогают нам ориентироваться.
Исследователям из Janelia Research Campus (США) впервые удалось в реальном времени отследить, как создаются когнитивные карты. Используя комбинацию виртуальной реальности, генетически модифицированных мышей со «светящимися нейронами» и высокоточную микроскопию, они смогли увидеть, как гиппокамп — часть мозга, отвечающая за память и навигацию — формирует эти самые когнитивные карты.
Наблюдая за мышами, учившимися находить награду, исследователи увидели, как изначально хаотичная активность нейронов постепенно организуется, формируя четкие паттерны. Самым интересным оказалось, что процесс в точности соответствовал предсказаниям компьютерной модели CSCG (Clone-Structured Causal Graph), созданной специалистами Google DeepMind и Vicarious AI. О сути эксперимента и его интригующих результатах рассказываем в этом тексте.
Нейронная картография
Термин «когнитивные карты» был впервые предложен в 1948 году американским психологом Эдвардом Толменом в работе «Когнитивные карты у крыс и человека». Это ментальные представления, которые образуются в результате активного взаимодействия человека/животного и его окружения. Они моделируют не только пространственные отношения («где что находится»), но и временные («когда что происходит») и даже абстрактные связи между объектами и явлениями.
Благодаря таким картам мы можем ориентироваться в пространстве, принимать решения и адаптировать поведение к изменяющимся условиям без необходимости каждый раз заново исследовать окружение. В общем, они помогают живому организму формировать релевантное ситуации мышление и поведение.
Процесс формирования когнитивных карт в гиппокампе наблюдали и раньше, начиная с 1970-х годов. Однако методы, используемые исследователями (вживленные в гиппокамп электроды, функциональная магнитно-резонансная томография), либо давали информацию лишь о нескольких нейронах одновременно, либо имели низкое разрешение и не могли зафиксировать динамику формирования карт в реальном времени. Алгоритмическая форма и механизмы обучения тоже оставались неясными — было сложно понять, как именно мозг переходит от хаотичного восприятия к структурированной модели пространства.
Подход ученых из Janelia Research Campus отличался новым сочетанием технологий. Они использовали генетически модифицированных мышей, сверхточный микроскоп, способный фиксировать активность тысяч нейронов одновременно, и систему виртуальной реальности, позволяющую контролировать среду, в которой находились животные.
В начале эксперимента нейроны активировались хаотично. Но по мере исследования территории произошла «декорреляция», конкретные группы нейронов закрепились за определенными участками пути: одни стали отвечать за «поворот налево», другие — за «прямую дорогу», третьи — за «место с наградой». Благодаря такой специализации мышиный мозг формировал точную нейронную карту пространства.
Вообще, так гиппокамп и работает. В нашем, человеческом случае одни нейроны отвечают за «перекресток с аптекой», другие — за «поворот у помойки». Нового вроде бы в этом ничего нет: за открытие таких клеток в гиппокампе нейрофизиолог Джон О’Киф получил в 2014 году Нобелевку. Но одно дело — знать, что когнитивные карты существуют, и совсем другое — полностью видеть процесс их формирования (аналогия: смотреть на несколько кадров из фильма или смотреть сам фильм).
Затем ученые сравнили наблюдения с представлениями модели CSCG (Clone-Structured Causal Graph, «клон-структурированный граф причинно-следственных связей») — «алгоритма», который выстраивает причинно-следственные связи между событиями. Оказалось, что модель не просто предсказывает конечный результат обучения, но и проходит через те же этапы формирования «нейронной карты», что и живой мозг, — от начального хаоса до четких различимых представлений. Это указывает на возможное обнаружение фундаментального вычислительного принципа, который может лечь в основу создания искусственного интеллекта, способного формировать внутренние представления о мире, подобно живым существам.
Дальше расскажем подробней и окунемся в детали эксперимента. Будет сложно.
На треке

Вводные данные и оборудование:
Исследуемая область — структура гиппокампа CA1.
Испытуемые — трансгенные мыши, экспрессирующие флуоресцентный ген GCaMP6f, реагирующий на кальциевый статус клеток. Головы мышей зафиксированы для кальциевой визуализации нейронной активности в реальном времени через краниальное окно. Исследовано в среднем 4682 ± 827 клеток на мышь во всех испытаниях.
Среда виртуальной реальности. Сфера для бега. Поилка, доставляющая награду — воду. На мониторах — две идущие друг за другом виртуальные дорожки. В каждой — две зоны вознаграждения: R1 (ближняя) и R2 (дальняя), обозначенные соответственно крестами и горизонтальными полосками. Перед ними — визуальный индикатор Ind, предсказывающий наличие награды: сигнал «вертикальные полосы» обозначает, что вода в ближней зоне, «круги» — что в дальней. Остальные «стены» трека — в нейтральной серой цветовой гамме. Черная «кирпичная стена» визуально разделяет между собой две дорожки.
Двухфотонный микроскоп.
Рецепт эксперимента простыми словами
Взять генетически модифицированных мышей, в мозг которых «встроен» специальный белок, заставляющий нейроны светиться при «включении». В голове мышей сделать «окно», через которое можно наблюдать за гиппокампом.
Мышей посадить на «беговую дорожку» перед экранами, на которых отображаются коридоры с особыми метками (индикаторами Ind) и местами с наградой — водой (ближняя зона R1 и дальняя зона R2).
С помощью двухфотонного микроскопа через «окно» можно наблюдать, что происходит в мозгу мыши. Особенность такого микроскопа в том, что длина волны освещения подобрана таким образом, что для возбуждения флуоресценции требуется одновременное поглощение двух фотонов низкой энергии (обычно в инфракрасном диапазоне около 920 нм). Когда два фотона одновременно поглощаются нейроном с флуоресцентным белком (то есть тем, который в данный момент «работает»), их совместной энергии хватает, чтобы заставить клетку светиться. Вероятность такого события пропорциональна квадрату мощности облучения, что делает яркость изображения нелинейной и значительно улучшает соотношение сигнал/шум. Кроме того, инфракрасные волны меньше подвержены рассеянию в тканях, что позволяет наблюдать более глубокие слои мозга. Таким образом можно видеть (и записать), как «зажигаются» и «гаснут» тысячи нейронов в мозге во время обучения.

В ходе эксперимента ученые изучали, как у 11 мышей будет формироваться связь между визуальным индикатором Ind и будущим местом доставки вознаграждения (воды) — R1 или R2. Эффективное выполнение этой «задачи с двумя альтернативами „сигнал-задержка-выбор“» (two-alternative cue–delay–choice, 2ACDC) требовало от мышей формирования долговременной памяти о связи между сигналом индикатора и зоной с наградой, а также кратковременной памяти о текущем сигнале после его исчезновения из поля зрения.
Первоначально мышей в течение пяти дней (по одному часу ежедневно) обучали собирать случайно доставленные водные награды в темноте. Затем ученые включили экраны VR. В каждом следующем сеансе по одному часу в день мыши выполняли от 80 до 200 «забегов». Треки с «ближней» и «дальней» наградами шли друг за другом в рандомизированном порядке, разделяясь «кирпичной стеной» и затемнением экранов («телепортация»). Оба трека были визуально идентичны во всех областях, кроме индикатора. Эта сенсорная неоднозначность являлась ключевой особенностью задачи.
Вначале, в течение одного-трех дней обучения, мыши получали награду в обеих зонах вознаграждения, пока у них не выработалось «упреждающее лизание». Во все последующие дни испытуемые поощрялись каплей воды, только если они лизали поилку в правильной зоне. Никакого штрафа за лизание в неправильной не налагалось. Таким образом, мыши обучались задаче через исследование, стимулирующее их замедляться и лизать поилку только тогда, когда ожидалось вознаграждение.

Первоначально мыши лизали поилку на протяжении всего трека, но потом быстро научились ограничивать процесс обеими зонами вознаграждения. Это изменение поведения наблюдалось в течение двух-трех сеансов у всех мышей. Примерно в то же время мыши выработали промежуточную стратегию и научились подавлять желание лизать поилку после получения вознаграждения. В результате «лизательное поведение» в ближнем типе испытания приблизилось к оптимальному (мыши не лизали поилку в дальней зоне вознаграждения), но оставалось неоптимальным для дальнего типа (мыши начинали лизать поилку в ближней зоне и делали это до конца). При дополнительном обучении мыши научились подавлять лизание в ближней зоне для испытания дальнего типа, достигнув в итоге оптимальной производительности в обоих типах испытаний.
Формирование машины состояний
Таким образом, поведение мышей на треке развивалось в несколько фаз со сменяющими друг друга доминирующими стратегиями:
случайное лизание поилки (в надежде на удачу);
лизание поилки в обеих зонах вознаграждения (вода есть в определенных зонах, лижем там);
лизание поилки в обеих зонах вознаграждения и прекращение после получения вознаграждения (нет смысла продолжать лизать пустую поилку);
лизание поилки только в правильной зоне вознаграждения.
Этим фазам, как выяснили ученые, соответствовала характерная картина нейронной активности. Уже ко второму сеансу испытаний многие нейроны увеличили активность по ходу трека. К третьему сеансу корреляция клеток на протяжении почти всего трека значительно снизилась: гиппокамп ортогонализировал (разделял) свои представления о визуально схожих регионах — дабы, как предполагается, определить структуру задачи через прояснение последовательного характера среды.
Иными словами, произошла «специализация» — разные нейроны стали отвечать за разные участки пути, даже если те выглядели похоже. Мозг как бы решил: «эти два коридора похожи, но я создам для них разные „нейронные метки“, чтобы не путаться», и каждый участок получил свое уникальное нейронное «обозначение».

Ученые визуализировали ежедневную динамику нейронной активности, используя метод UMAP (проецирует данные с высокой размерностью в пространство с низкой размерностью). Он помог наблюдать не только декорреляцию клеток, но и топологические изменения в гиппокампе в целом (ниже данные о конкретной мыши):
Во время первоначального сеанса испытаний общее нейронное многообразие было неструктурированным.
Уже ко второму дню визуализация приняла вид «узел и спицы» (hub-and-spoke): узел соответствовал активности в «пустых» серых областях трека, а спицы — траекториям к активностям в остальных областях (индикатор, зоны вознаграждения, телепортация).
К третьему сеансу карта UMAP приняла кольцеобразную структуру, которая замыкалась активностью в процессе «телепортации». Также обозначилось второе кольцо — разделились паттерны активности для двух сигналов индикатора Ind.
По мере обучения траектории активности для каждого типа испытаний становились все более отчетливыми, приведя к образованию еще одного кольцевого паттерна во второй зоне вознаграждения («нелизание»).
К пятому сеансу сформировалась четкая кольцевая структура взаимосвязей между сигналом индикатора и последующими состояниями.
Что делает UMAP
Каждый нейрон имеет множество характеристик: время активации, сила активации, связь с другими событиями и т. д. По сути, все это можно представить как координаты нейрона в многомерном пространстве, где может быть десять, сто или даже тысячи измерений.
Чтобы понять, как нейроны отличаются, чем их активность схожа, как возникает взаимосвязь между ними, нужно переложить все это многомерье на плоскость (или в 3D). С помощью UMAP сложные многомерные данные о нейронной активности «проецируются» на плоскость (или, опять же, в 3D-пространство) и дают возможность легко интерпретировать информацию.

Все эти изменения напомнили ученым процесс сборки машины состояний — системы, где каждому важному месту или ситуации (состоянию места в зависимости от типа испытания) соответствует свой уникальный паттерн нейронной активности.
Вначале похожие участки виртуального коридора вызывали похожую активность нейронов, что затрудняло навигацию. Но по мере обучения мозг научился создавать четко различимые (разделенные или «ортогонализованные») нейронные отпечатки даже для визуально схожих мест.
Кроме того, мозг мышей научился включать в паттерны информацию о показанных ранее сигналах (индикаторах Ind, предсказывающих расположение награды). Эту информацию он также кодировал с помощью специфической активности определенных нейронов.
Такую нейронную организацию исследователи назвали «ортогонализованной машиной состояний» (OSM). И эта структура очень похожа на «скрытую марковскую модель» CSCG, вариант которой был разработан в Google DeepMind для искусственного интеллекта.
Разделение: сплиттеры, сплиттеры ремаппинга и клетки места
Ортогонализация (разделение) нейронных представлений о состояниях в гиппокампе отражает изменения в свойствах активации отдельных нейронов, которые происходят вместе с изменениями в поведении испытуемых животных. Таким образом, в ходе обучения нейроны мышей становились избирательнее и восприимчивее к характеристикам, связанным с задачей.
Заметным изменением на ранних стадиях обучения стала трансформация нейронов, изначально настроенных на несколько областей трека, в более избирательные клетки, активирующиеся в определенных его участках. Кроме того, по мере продолжения обучения нейроны демонстрировали все более четкую настройку на конкретный тип испытания. Эта настройка включала в себя изначально молчащие нейроны, которые стали активными в определенных областях трека для одного типа испытания, но не для другого, а также нейроны, которые изначально были активны в обоих типах испытаний, но в итоге стали специфичными только для одного типа за счет снижения активности в другом. Ученые обозначили их как «сплиттеры» (клетки разделения).

Характеризуя свойства настройки отдельных клеток на этапе уже сформированной карты, ученые вычислили показатель, который количественно определял разницу в пиковой активности клеток для ближнего и дальнего испытаний, и соотнесли его с показателями корреляции между нейронами на разных участках испытания. Эти особенности позволили разделить клетки на интуитивные категории:
Клетки с большой разницей в активности в разных видах испытания — «сплиттеры» — демонстрировали сильные ответы, по-разному реагируя на тип испытания, что может указывать на их роль в дифференциации контекстов или условий задачи.
Клетки с низкими показателями разницы активности и высокими коэффициентами корреляции — «клетки места» — демонстрировали ответы, которые подразумевали схожую настройку в обоих типах испытаний (ориентирование мышей в пространстве трека).
Клетки с небольшой разницей в активности в различных типах испытаний и низким уровнем корреляции — «сплиттеры ремаппинга» — демонстрировали ответы, имеющие схожие амплитуды, но возникающие в разных местах трека и ближних, и дальних испытаний (контекстная перенастройка).
Остальные клетки демонстрировали промежуточные фенотипы. Например, некоторые клетки показывали комбинацию свойств «клеток места» и «сплиттеров» — и так далее. Это позволило ученым описать различия между свойствами клеток как пластичный континуум, видоизменяющийся в процессе обучения для извлечения скрытой структуры задачи, несмотря на неоднозначность сенсорных впечатлений.
Подробнее изучить настройки отдельных клеток можно тут: http://cognitivemap.janelia.org/.
На пути к искусственному гиппокампу
Большое количество данных, полученных во время обучения мышей, сподвигло ученых провести параллели со спецификой существующих алгоритмов обучения, решающих «задачи с двумя альтернативами “сигнал-задержка-выбор”» (2ACDC).
Есть несколько недавних моделей, концептуализировавших когнитивные карты. Однако ученые остановились на модели CSCG (Clone-Structured Causal Graph, «клон-структурированный причинно-следственный граф») от Google DeepMind и Vicarious AI — компании, изучающей перспективы ИИ на основе вычислительных принципов человеческого мозга. Оказалось, что CSCG в деталях моделирует не только аутпут, но и траекторию обучения гиппокампа.
И скрытые марковские модели (СММ), и CSCG нацелены на раскрытие недоступных наблюдению состояний и временных/пространственных зависимостей между ними на основе наблюдаемых параметров. CSCG основана на СММ, но сложнее. Она моделирует когнитивные карты как графы, где узлы представляют различные состояния или концепты, а ребра — связи между ними. Каждый узел может иметь несколько «клонов» для ассоциации различных состояний через детерминированную матрицу эмиссии (выхода) с определенными сенсорными наблюдениями — то есть для ортогонализации (разделения) состояний. Алгоритм Баума-Велша позволяет находить вероятностную матрицу переходов между состояниями, наилучшим образом объясняющую эмиссию.

Поведение CSCG поразительно точно воспроизводит ключевые особенности нейронной динамики гиппокампа:
CSCG, как и гиппокамп, моделирует разделение (ортогонализацию) состояний по ходу трека аналогично архитектуре задачи (пространство и время становятся частью этой архитектуры, наблюдается четкое сходство с данными по ходу трека от UMAP).
Во время обучения CSCG, как и гиппокамп, постепенно проходит через несколько стадий разделения состояний.
Различные типы испытаний приводят к уникальным последовательностям состояний.
Некоторые последовательности состояний совпадают в различных типах испытаний.
Ученые исследовали и некоторые архитектуры нейронных сетей, однако здесь успех был неполным. Рекуррентные нейронные сети (RNN) с активацией ReLU или сигмоидальной функцией достигли высокой точности предсказаний, но не развили ортогонализированные представления, характерные для гиппокампа. Сети долгой краткосрочной памяти (Long short-term memory; LSTM) и трансформеры также отлично предсказывали, но смогли создать ортогонализированные представления только после специального обучения для этой задачи. RNN с активацией softmax смогли развить полностью ортогонализированные представления, более близкие к данным гиппокампа, но не воспроизвели их так точно, как CSCG.

Что это нам дает?
Разработка Google DeepMind и Vicarious AI оказалась неожиданно детальным воспроизведением биологической вычислительной машины. Так как даже продвинутые архитектуры, такие как LSTM и трансформеры, не могут воспроизвести естественную динамику формирования когнитивных карт без специальной настройки, в перспективе это могло бы поднять нейронные сети на принципиально новый уровень.
Внедрение принципов CSCG в архитектуру ИИ может привести к созданию систем, которые эффективнее формируют внутренние представления о пространстве и времени, лучше распознают контекст и адаптируются, четче понимают отличия между схожими ситуациями, держат «в рабочей памяти» информацию для принятия решений. Представьте, например, роботов, сочетающих расширенные сенсорные возможности с системой на базе CSCG.
А если аналогичные механизмы работают и в человеческом мозге, это может привести к прорывам в понимании и лечении нарушений памяти, пространственной ориентации и других когнитивных расстройств, включая болезнь Альцгеймера, где гиппокамп поражается одним из первых.
Впрочем, как отмечают сами авторы исследования, впереди еще много работы, связанной с полным выяснением сложных механизмов и принципов, способствующих формированию когнитивных карт.