Комментарии 14
А вот вид хомо со своей спецификой способность к речи способен к "пониманию"?
Или за миллиарды лет в его мозгу отобраны эволюцией клёвые адвансед алгоритмы, которые хорошо подбирают следующее слово? ? плюс биологический субстрат выделяет нужные гормоны и нейромедиаторы в нужное время?
Мы все так дёргаемся именно поэтому кмк... ?
У человека в голове модели , концепции, образы, которые сразу преобразуются в слова, или, по крайней мере, на образ сразу выдаётся словесный скелет, который можно в процессе речи или на письме дошлифовать и украсить... То есть это не подбор следующего наиболее подходящего слова....
образы, которые сразу преобразуются в слова, или, по крайней мере, на образ сразу выдаётся словесный скелет, который можно в процессе речи или на письме дошлифовать и украсить... То есть это не подбор следующего наиболее подходящего слова....
Не так все однозначно. У человека, входящая фраза преобразуется в образ-токен. Затем токен "пробегает" по памяти, и активирует все образы которые с токеном ассоциируются. Затем происходит усиление контраста - образы имеющие большую ассоциативную связь усиливаются, а имеющие меньшую ослабляются. Затем отрабатывает дискриминатор, который отбрасывает образы имеющие явную конфликтность с фундаментальными образами. Так формируется общая мысль, которая содержит основной объем информации. Но без телепатии невозможно передать весь образ-массив сразу. Поэтому у человека развилась способность к последовательной речи. В процессе передачи информации через речь, происходит "сериализация" объема информации. Построение фразы это последовательный процесс. Причем в этот момент входящая фраза все еще находится в зоне внимания, и к ней привязано формирование фразы на выдаче. На вопрос "Кого ест человек?" будет ответ "Человек ест корову", а на вопрос "Кто есть корову?" будет ответ "Корову ест человек". Смысл фразы и набор слов одинаковый, но последовательность слов разная. Потому что построение шло слово за словом. Если бы фраза формировалась сразу в ответ на образ, то и ответы на оба вопроса были бы одинаковыми, потому что для обоих вопросов формируется одинаковый образ "человека поедающего корову".
Я так понимаю это перевод достаточно неактуальной статьи. Ибо есть несколько разработок нейросетей, которые во главу угла ставят как раз концепции, да и есть невероятные вещи типа sora, где по факту создается и эмулируется мир в визуальном смысле. Но и там есть проблемы с концепциями, например что у человека 2 ноги и у них есть довольно ограниченая подвижность.
Спасибо за перевод с интересными ссылка. Свое мнение о перспективах технологии трансформерных ЯМ изложил в этом коменте. Также при обсуждении архитектур нейросетей, при их сравнении с биологическими, не учитываются их специфические свойства и сложность биологических нейронов в сравнении с их формальными моделями (1, 2).
Спасибо за перевод, интересная статья. На мой взгляд, приблизиться к достоверной имитации понимания текущим LLM мешает не только масштаб, но и цензура закладываемая разработчиками с целью снижения коммерческих рисков ("О боже! Какая шумиха подимится если сеть использует слово .... "). Совсем без неё конечно нельзя (нужно как-то заложить моральные нормы), но возникает дилема, по сути они пытаются сделать пациенту операцию с закрытыми глазами...
Вопрос первый: можем ли провести аналогию например с животным миром, где уровень понимания определяется количеством нейронных связей в мозге? Второй вопрос: можно ли предположить, что модель мира человека может быть полностью описана конструкциями языка? Вопрос третий: содержится ли в текущей модели мира зависимости , которые позволяют изменить парадигму этого мира, например если мы обучим llm на наборе данных доступным античным философам, то сможет ли эта модель сформулировать законы физики ньютона? Мои ответы на эти вопросы: да, да, нет
Позвольте попробую не согласиться:
В части "если мы обучим llm на наборе данных доступным античным философам, то сможет ли эта модель сформулировать законы физики ньютона?" ваш ответ - "нет", а что если разобрать путь от набора данных античных философов до открытия закона ньютона, в контексте LLM - это огромная длиннющая цепочка вопросов и ответов, который в конечном итоге привели к открытию закона Ньютона... получается если от эпохи Платона и Аристотеля пойти шагами в виде вопрос-ответ, то мы рано или поздно, если задавать верные вопросы придём к "Всякое тело продолжает удерживаться в своём состоянии покоя или равномерного и прямолинейного движения, пока и поскольку оно не понуждается приложенными силами изменить это состояние." Мне кажется это довольно логично и не требует пояснений, но проблема в другом - в том, что человеческий разум находится в режиме активного исследователя, а "разум" LLM в режиме "пассивного ответчика", почему? Потому что человек обладает телом и физика побуждает его накормить тело, помыть тело, держать его в здравии, нами движет ЧТО-ТО, а LLM-кой движет лишь "You are a helpful assistant")
Так что я полагаю, что если LLM'ке внедрить некую "тягу к жизни", дать "смысл жизни", вместо задачи быть helpful assistant, то она технически вполне себе может пройти путь от Аристотеля для Ньютона и далее)
получается если от эпохи Платона и Аристотеля пойти шагами в виде вопрос-ответ, то мы рано или поздно, если задавать верные вопросы придём к "Всякое тело продолжает удерживаться в своём состоянии покоя или равномерного и прямолинейного движения, пока и поскольку оно не понуждается приложенными силами изменить это состояние."
Это умозаключение было сделано на основе результатов экспериментов, и модели мира в голове ученого. Это не просто цепочка последовательного фразообразования. Чтобы получить подобный вывод, нужно на основе набора фраз построить математическую модель, а затем модель описать словами. Сама LLM не умеет строить математические модели, но LLM можно связать с любыми программами через API.
так, вот мы и подобрались к некоторым условиям... например, необходимо дать LLM доступ к инструментам, так же как человек по мере своего развития получал доступ к перу, бумаге, что бы записывать эти эксперименты и строить математические модели. Может быть проблема в том, что LLM оперируя лишь только языковыми инструментами встречает преграды на пути к "мышлению"? Вы кажется недавно писали о проблеме нехватки "контекста" для LLM, но этот контекст не обязательно в прямом смысле "контекст", возможно стоит подумать над вопросом "загрузки" в LLM аналогий наших других инструментов исследования мира, такие как ощущения, зрение и т.д.
проблема в том, что сама модель не сможет построить такую цепочку. Эту цепочку можно построить зная цель, которую мы хотим получить, но правильная постановка цели это уже часть решения. Более того постановка такой цели не была очевидна в парадигме античных философов.
Мышление у человека это динамическая система. Сейчас ИИ на основе LLM работает как дешифратор "запрос-ответ", а для понимания нужен режим "достройки модели".
Для того чтобы у ИИ-LLM появилось понимание, необходимо расширять контекст.
Контекст должен существовать еще до того как пользователь вводит запрос.
В контекст надо включать пользователя и связанные с ним элементы мира.
Если реальный пользователь не подключен, должен быть подключен виртуальный. Нужно имитировать запросы. Постоянный поток виртуальных запросов.
Нужно вводить пространственные и временные отношения между токенами.
Контекст можно сохранять на компьютере пользователя, и подгружать при следующем сеансе. Можно пропускать запросы от всех пользователей через один модуль сбора статистики. Можно добавить предсказание запроса на основе статистики и сохраненного контекста. Можно поток виртуальных запросов изменять под влиянием реального запроса. Это конечно затратно и нерационально, но люди это миллиарды нерационально работающих вычислительных устройств. ИИ не будет выделяться.
Нынешняя ИИ-LLM это уровень "механический арифмометр" в эволюции ИИ.
(это просто поток ассоциаций, в ответ на запрос "возможно ли понимание у LLM?". не ищите логику)
Обзор дискуссий о «понимании» большими языковыми моделями (LLM)