Pull to refresh
27
70
Send message

В заголовках интервью часто так делают — берут отдельную цитату, даже если она не описывает весь материал.

См. этот абзац:

И вот так складывается своеобразная арка истории: GeForce принесла миру CUDA, а CUDA открыла путь для ИИ; графические процессоры на базе CUDA дали каждому исследователю в области ИИ возможность иметь суперкомпьютер прямо на рабочем столе. CUDA вывела ИИ на новый уровень, но удивительно, что потом ИИ вернулся, чтобы перевернуть всё в GeForce. Получается, он вернулся в дом, который помог ему появиться, и теперь компьютерная графика действительно стала полностью ведомой ИИ.

Для основного сравнения специально брал лишь нерассуждающие модели, так как рассуждающие (o1, o3-mini, DeepSeek-r1, Claude-3.7-Sonnet-Thinking и т. д.) действуют по другим принципам.

Но это ведь не только чёрное и белое — не просто кажется, а кажется на 30%, кажется на 80% и т. д. В степени уверенности и есть тест, а достичь максимальной уверенности — идеальное стремление в разработке человекоподобного ИИ.

Справедливо замечу, что формулировка была «ChatGPT прошёл тест Тьюринга в области психотерапии». Сейчас заголовок уточнён, но эта часть осталась в таком же виде.

Добавил примечание в статье, что количество 18 — это без учёта буквы Y, которая действительно обычно не считается гласной в логических задачах.

Да, этот ответ близок к истине, ведь буква Y (гласность/согласность которой изменчива и зависит от конкретного случая, то есть произношения в слове) обычно идёт за согласную в логических задачах. Получается, что гласных остаётся не шесть, а пять: A, E, I, O, U. Но конечно, это формальное положение не соответствует произношению (forty, sixty, seventy) — однако и DeepSeek-r1, и ChatGPT-o1 сочли его за само собой разумеющееся, что опять же намекает на его распространённость.

Спасибо, исправлено! В одной из задач как-то не так перенеслось)

Эй, а как же наш агрегатор нейросетей BotHub? Он доступен без ВПН. Можно зарегистировать через почту или войти через «Яндекс», Google, VK, Telegram. ChatGPT-o3-high, ChatGPT-4o, DeepSeek-r1, DeepSeep-v3, Claude 3.5, Gemini, Dalle-3, Midjourney-6.3, Stable Diffusion 3 и многое другое: https://bothub.chat/, https://t.me/bothub_chat_bot.

Да, согласен, там не говорится, что тест сам что-то проверяет. Имеется в виду, что при помощи теста пытаются выяснить, насколько человек сможет отличить машину от человека, а не то, что тест выявляет это по фиксированному набору вопросов или заготовленному диалогу.

Из-за того, что само описание теста имеет нечёткие границы (описывается, что современные варианты насчитывают не менее трёх версий), думаю, исследователи допустили, что такая частичная формулировка имеет место быть.

А-ха-ха))) «Доктор, включите режим рассуждений. Сколько букв R вы здесь видите?»

Хм, интересно... Оказывается, сделать односимвольную ссылку невозможно. Это один из багов WYSIWYG-редактора «Хабра» (мне известно ещё несколько). Спасибо за сообщение об ошибке, написал иначе.

Думаю, здесь проблема возникала немного в другом — из-за особенностей предварительной токенизации и представления данных в обучающем корпусе. В целом это можно счесть недоработкой модели — как на уровне архитектуры, так и на уровне представления данных в обучающих датасетах. В какой-то момент нейроны пересекаются не так, как это хотели бы видеть разработчики и пользователи (однако нейросеть поняла это именно так), и возникают такие неадекватные сообщения. Мне кажется, загвоздкой вполне могли бы быть какие-то мелкие неточности в исходных датасетах, уровня забытой угловой скобки или незакрытого тега и т. д.

Мне тоже очень интересна эта тема, как кодируется информация в мозгу. Кстати, то, о чем вы пишете, уже, в принципе, реализовано в моделях, преобразующих аудио в текст (и обратно), таких как Whisper, которая очень хорошо распознает речь на множестве языков, даже быструю и с проглоченными звуками. Здесь, как мне кажется, самое большое значение имеет даже не архитектура модели, а качество и объем исходных данных: Whisper от OpenAI обучена более чем на 680 000 часах реальной речи. Благодаря тому что слова произносились в разных контекстах, с разными акцентами, на разной скорости и с разной степенью проглоченности звуков, нейросеть смогла настроить свои веса так, чтобы выстроить максимально точные с человеческой точки зрения матрицы вида «такая-то спектрограмма — такой-то текст». И здесь скорее распознается не по звукам, а по более крупным единицам — словам или даже сочетаниям слов (и, конечно, учитывается и остальной контекст в какой-то мере — к примеру, 30-секундный пакет, на которые разделяются исходные аудио при распознавании в Whisper). Так как при быстром произношении слова изменяются до неузнаваемости.

Таким образом, здесь скорее будет идти не в сторону более мелкого дробления, а, наоборот, в сторону расширения контекста — учета аудиоданных целых слов и вообще фразы. Это если принять в расчет, что при быстром произношении один и тот же набор звуков, например в словах «иммерсивный» и «реверсивный», может звучать идентично, но при этом один из вариантов будет иметь бо́льшую вероятность — в контексте предложения/абзаца/даже какого-то более раннего фрагмента в тексте.

Конечно, но применяя другие датасеты. Например, вместо огромного The Pile можно взять OpenWebText (https://huggingface.co/datasets/Skylion007/openwebtext) или TinyStories (https://huggingface.co/datasets/roneneldan/TinyStories).

Из железа потребуются не менее 16 ГБ оперативной памяти, также желательна GPU (от RTX 3060/RTX 4060). Объем видеопамяти также критичен — мне кажется, для хоум-нейросетей можно выделить два порога, это порядка 12 ГБ и порядка 24 ГБ. Если брать выше, то слишком большие LLM все равно не запустишь без профессиональной видеокарты, а на 12–24 ГБ уже можно делать что-то практичное, например работать с аудио, графикой, 3D-моделями. Где-то 12 ГБ должно хватить для обучения разрежённого автокодировщика.

Кроме того, разные компактные LLM можно запустить даже без GPU, например Mistral-7B, Lllama-2-7B, Phi-2, Gemma-2B.

Хороший вопрос! Мне кажется, с появлением рассуждающих LLM уже можно с уверенностью сказать, что понимание установлено. Однако рассуждения в LLM нужны не столько для визуализации понимания, а скорее для повышения точности логических, математических и др. вычислений. Ведь, когда модель явно проходится по этому мыслительному процессу, подсвечиваются нужные нейроны и они перетягивают мыслительный процесс ближе к стороне правильного ответа.

Кстати, заметил, что нерассуждающие LLM, например ChatGPT-4o, зачастую специально включают этот рассуждающий режим (даже если просить выдать только ответ, без рассуждений), когда просишь ответ в логическом или математическом ключе, например что-то подсчитать. Потому что иначе модель может выдать ошибку (и это действительно так, увы). Раньше такого подхода не было, но со временем OpenAI заметила фишку и стала насильно включать режим рассуждения для многих промтов, которые подразумевают вычисления и решения.

1

Information

Rating
91-st
Registered
Activity

Specialization

Content Writer, Copywriter
Middle
JavaScript
HTML
CSS
JQuery