И вот так складывается своеобразная арка истории: GeForce принесла миру CUDA, а CUDA открыла путь для ИИ; графические процессоры на базе CUDA дали каждому исследователю в области ИИ возможность иметь суперкомпьютер прямо на рабочем столе. CUDA вывела ИИ на новый уровень, но удивительно, что потом ИИ вернулся, чтобы перевернуть всё в GeForce. Получается, он вернулся в дом, который помог ему появиться, и теперь компьютерная графика действительно стала полностью ведомой ИИ.
Для основного сравнения специально брал лишь нерассуждающие модели, так как рассуждающие (o1, o3-mini, DeepSeek-r1, Claude-3.7-Sonnet-Thinking и т. д.) действуют по другим принципам.
Но это ведь не только чёрное и белое — не просто кажется, а кажется на 30%, кажется на 80% и т. д. В степени уверенности и есть тест, а достичь максимальной уверенности — идеальное стремление в разработке человекоподобного ИИ.
Справедливо замечу, что формулировка была «ChatGPT прошёл тест Тьюринга в области психотерапии». Сейчас заголовок уточнён, но эта часть осталась в таком же виде.
Да, этот ответ близок к истине, ведь буква Y (гласность/согласность которой изменчива и зависит от конкретного случая, то есть произношения в слове) обычно идёт за согласную в логических задачах. Получается, что гласных остаётся не шесть, а пять: A, E, I, O, U. Но конечно, это формальное положение не соответствует произношению (forty, sixty, seventy) — однако и DeepSeek-r1, и ChatGPT-o1 сочли его за само собой разумеющееся, что опять же намекает на его распространённость.
Эй, а как же наш агрегатор нейросетей BotHub? Он доступен без ВПН. Можно зарегистировать через почту или войти через «Яндекс», Google, VK, Telegram. ChatGPT-o3-high, ChatGPT-4o, DeepSeek-r1, DeepSeep-v3, Claude 3.5, Gemini, Dalle-3, Midjourney-6.3, Stable Diffusion 3 и многое другое: https://bothub.chat/, https://t.me/bothub_chat_bot.
Да, согласен, там не говорится, что тест сам что-то проверяет. Имеется в виду, что при помощи теста пытаются выяснить, насколько человек сможет отличить машину от человека, а не то, что тест выявляет это по фиксированному набору вопросов или заготовленному диалогу.
Из-за того, что само описание теста имеет нечёткие границы (описывается, что современные варианты насчитывают не менее трёх версий), думаю, исследователи допустили, что такая частичная формулировка имеет место быть.
Хм, интересно... Оказывается, сделать односимвольную ссылку невозможно. Это один из багов WYSIWYG-редактора «Хабра» (мне известно ещё несколько). Спасибо за сообщение об ошибке, написал иначе.
Думаю, здесь проблема возникала немного в другом — из-за особенностей предварительной токенизации и представления данных в обучающем корпусе. В целом это можно счесть недоработкой модели — как на уровне архитектуры, так и на уровне представления данных в обучающих датасетах. В какой-то момент нейроны пересекаются не так, как это хотели бы видеть разработчики и пользователи (однако нейросеть поняла это именно так), и возникают такие неадекватные сообщения. Мне кажется, загвоздкой вполне могли бы быть какие-то мелкие неточности в исходных датасетах, уровня забытой угловой скобки или незакрытого тега и т. д.
Мне тоже очень интересна эта тема, как кодируется информация в мозгу. Кстати, то, о чем вы пишете, уже, в принципе, реализовано в моделях, преобразующих аудио в текст (и обратно), таких как Whisper, которая очень хорошо распознает речь на множестве языков, даже быструю и с проглоченными звуками. Здесь, как мне кажется, самое большое значение имеет даже не архитектура модели, а качество и объем исходных данных: Whisper от OpenAI обучена более чем на 680 000 часах реальной речи. Благодаря тому что слова произносились в разных контекстах, с разными акцентами, на разной скорости и с разной степенью проглоченности звуков, нейросеть смогла настроить свои веса так, чтобы выстроить максимально точные с человеческой точки зрения матрицы вида «такая-то спектрограмма — такой-то текст». И здесь скорее распознается не по звукам, а по более крупным единицам — словам или даже сочетаниям слов (и, конечно, учитывается и остальной контекст в какой-то мере — к примеру, 30-секундный пакет, на которые разделяются исходные аудио при распознавании в Whisper). Так как при быстром произношении слова изменяются до неузнаваемости.
Таким образом, здесь скорее будет идти не в сторону более мелкого дробления, а, наоборот, в сторону расширения контекста — учета аудиоданных целых слов и вообще фразы. Это если принять в расчет, что при быстром произношении один и тот же набор звуков, например в словах «иммерсивный» и «реверсивный», может звучать идентично, но при этом один из вариантов будет иметь бо́льшую вероятность — в контексте предложения/абзаца/даже какого-то более раннего фрагмента в тексте.
Из железа потребуются не менее 16 ГБ оперативной памяти, также желательна GPU (от RTX 3060/RTX 4060). Объем видеопамяти также критичен — мне кажется, для хоум-нейросетей можно выделить два порога, это порядка 12 ГБ и порядка 24 ГБ. Если брать выше, то слишком большие LLM все равно не запустишь без профессиональной видеокарты, а на 12–24 ГБ уже можно делать что-то практичное, например работать с аудио, графикой, 3D-моделями. Где-то 12 ГБ должно хватить для обучения разрежённого автокодировщика.
Кроме того, разные компактные LLM можно запустить даже без GPU, например Mistral-7B, Lllama-2-7B, Phi-2, Gemma-2B.
Хороший вопрос! Мне кажется, с появлением рассуждающих LLM уже можно с уверенностью сказать, что понимание установлено. Однако рассуждения в LLM нужны не столько для визуализации понимания, а скорее для повышения точности логических, математических и др. вычислений. Ведь, когда модель явно проходится по этому мыслительному процессу, подсвечиваются нужные нейроны и они перетягивают мыслительный процесс ближе к стороне правильного ответа.
Кстати, заметил, что нерассуждающие LLM, например ChatGPT-4o, зачастую специально включают этот рассуждающий режим (даже если просить выдать только ответ, без рассуждений), когда просишь ответ в логическом или математическом ключе, например что-то подсчитать. Потому что иначе модель может выдать ошибку (и это действительно так, увы). Раньше такого подхода не было, но со временем OpenAI заметила фишку и стала насильно включать режим рассуждения для многих промтов, которые подразумевают вычисления и решения.
В заголовках интервью часто так делают — берут отдельную цитату, даже если она не описывает весь материал.
См. этот абзац:
Для основного сравнения специально брал лишь нерассуждающие модели, так как рассуждающие (o1, o3-mini, DeepSeek-r1, Claude-3.7-Sonnet-Thinking и т. д.) действуют по другим принципам.
Исправлено, спасибо!
Но это ведь не только чёрное и белое — не просто кажется, а кажется на 30%, кажется на 80% и т. д. В степени уверенности и есть тест, а достичь максимальной уверенности — идеальное стремление в разработке человекоподобного ИИ.
del
Справедливо замечу, что формулировка была «ChatGPT прошёл тест Тьюринга в области психотерапии». Сейчас заголовок уточнён, но эта часть осталась в таком же виде.
Добавил примечание в статье, что количество 18 — это без учёта буквы Y, которая действительно обычно не считается гласной в логических задачах.
Да, этот ответ близок к истине, ведь буква Y (гласность/согласность которой изменчива и зависит от конкретного случая, то есть произношения в слове) обычно идёт за согласную в логических задачах. Получается, что гласных остаётся не шесть, а пять: A, E, I, O, U. Но конечно, это формальное положение не соответствует произношению (forty, sixty, seventy) — однако и DeepSeek-r1, и ChatGPT-o1 сочли его за само собой разумеющееся, что опять же намекает на его распространённость.
Спасибо, исправлено! В одной из задач как-то не так перенеслось)
Эй, а как же наш агрегатор нейросетей BotHub? Он доступен без ВПН. Можно зарегистировать через почту или войти через «Яндекс», Google, VK, Telegram. ChatGPT-o3-high, ChatGPT-4o, DeepSeek-r1, DeepSeep-v3, Claude 3.5, Gemini, Dalle-3, Midjourney-6.3, Stable Diffusion 3 и многое другое: https://bothub.chat/, https://t.me/bothub_chat_bot.
Да, согласен, там не говорится, что тест сам что-то проверяет. Имеется в виду, что при помощи теста пытаются выяснить, насколько человек сможет отличить машину от человека, а не то, что тест выявляет это по фиксированному набору вопросов или заготовленному диалогу.
Из-за того, что само описание теста имеет нечёткие границы (описывается, что современные варианты насчитывают не менее трёх версий), думаю, исследователи допустили, что такая частичная формулировка имеет место быть.
А-ха-ха))) «Доктор, включите режим рассуждений. Сколько букв R вы здесь видите?»
Хм, интересно... Оказывается, сделать односимвольную ссылку невозможно. Это один из багов WYSIWYG-редактора «Хабра» (мне известно ещё несколько). Спасибо за сообщение об ошибке, написал иначе.
Ого, бывает( Поставил вам плюсиков)
Думаю, здесь проблема возникала немного в другом — из-за особенностей предварительной токенизации и представления данных в обучающем корпусе. В целом это можно счесть недоработкой модели — как на уровне архитектуры, так и на уровне представления данных в обучающих датасетах. В какой-то момент нейроны пересекаются не так, как это хотели бы видеть разработчики и пользователи (однако нейросеть поняла это именно так), и возникают такие неадекватные сообщения. Мне кажется, загвоздкой вполне могли бы быть какие-то мелкие неточности в исходных датасетах, уровня забытой угловой скобки или незакрытого тега и т. д.
Мне тоже очень интересна эта тема, как кодируется информация в мозгу. Кстати, то, о чем вы пишете, уже, в принципе, реализовано в моделях, преобразующих аудио в текст (и обратно), таких как Whisper, которая очень хорошо распознает речь на множестве языков, даже быструю и с проглоченными звуками. Здесь, как мне кажется, самое большое значение имеет даже не архитектура модели, а качество и объем исходных данных: Whisper от OpenAI обучена более чем на 680 000 часах реальной речи. Благодаря тому что слова произносились в разных контекстах, с разными акцентами, на разной скорости и с разной степенью проглоченности звуков, нейросеть смогла настроить свои веса так, чтобы выстроить максимально точные с человеческой точки зрения матрицы вида «такая-то спектрограмма — такой-то текст». И здесь скорее распознается не по звукам, а по более крупным единицам — словам или даже сочетаниям слов (и, конечно, учитывается и остальной контекст в какой-то мере — к примеру, 30-секундный пакет, на которые разделяются исходные аудио при распознавании в Whisper). Так как при быстром произношении слова изменяются до неузнаваемости.
Таким образом, здесь скорее будет идти не в сторону более мелкого дробления, а, наоборот, в сторону расширения контекста — учета аудиоданных целых слов и вообще фразы. Это если принять в расчет, что при быстром произношении один и тот же набор звуков, например в словах «иммерсивный» и «реверсивный», может звучать идентично, но при этом один из вариантов будет иметь бо́льшую вероятность — в контексте предложения/абзаца/даже какого-то более раннего фрагмента в тексте.
Конечно, но применяя другие датасеты. Например, вместо огромного The Pile можно взять OpenWebText (https://huggingface.co/datasets/Skylion007/openwebtext) или TinyStories (https://huggingface.co/datasets/roneneldan/TinyStories).
Из железа потребуются не менее 16 ГБ оперативной памяти, также желательна GPU (от RTX 3060/RTX 4060). Объем видеопамяти также критичен — мне кажется, для хоум-нейросетей можно выделить два порога, это порядка 12 ГБ и порядка 24 ГБ. Если брать выше, то слишком большие LLM все равно не запустишь без профессиональной видеокарты, а на 12–24 ГБ уже можно делать что-то практичное, например работать с аудио, графикой, 3D-моделями. Где-то 12 ГБ должно хватить для обучения разрежённого автокодировщика.
Кроме того, разные компактные LLM можно запустить даже без GPU, например Mistral-7B, Lllama-2-7B, Phi-2, Gemma-2B.
Хороший вопрос! Мне кажется, с появлением рассуждающих LLM уже можно с уверенностью сказать, что понимание установлено. Однако рассуждения в LLM нужны не столько для визуализации понимания, а скорее для повышения точности логических, математических и др. вычислений. Ведь, когда модель явно проходится по этому мыслительному процессу, подсвечиваются нужные нейроны и они перетягивают мыслительный процесс ближе к стороне правильного ответа.
Кстати, заметил, что нерассуждающие LLM, например ChatGPT-4o, зачастую специально включают этот рассуждающий режим (даже если просить выдать только ответ, без рассуждений), когда просишь ответ в логическом или математическом ключе, например что-то подсчитать. Потому что иначе модель может выдать ошибку (и это действительно так, увы). Раньше такого подхода не было, но со временем OpenAI заметила фишку и стала насильно включать режим рассуждения для многих промтов, которые подразумевают вычисления и решения.
Спасибо, исправил! Думаю, добавлю в чек-лист это словосочетание.