Комментарии / Профиль dmitrifriend / Хабр

Как стать автором

Пользователь

ПрофильСтатьи25Посты1Новости8Комментарии26

Мал, да удал? Тест Qwen-QwQ-32B на реальных задачах

dmitrifriend 21 апр в 16:33

В двух интерфейсах, в которых я проверял эту модель, процесс рассуждения просто обрубался, когда доходило до какого-то количества. Получается, что в вашем случае даже процесс одного рассуждения (14 110 токенов) превысил длину контекстного окна этой квантизированной версии (8192 токена), то есть при ответе на вопрос лишь 58% текста рассуждения (считая с конца) было учтено.

Посмотреть

Мал, да удал? Тест Qwen-QwQ-32B на реальных задачах

dmitrifriend 20 апр в 01:06

Супер, спасибо! Этот ответ, выданный QwQ-32B, действительно правильный. Признаюсь честно, что я пробовал очень много попыток, и модель чуть ли не при любых сложных вопросах уходила в бесконечные рассуждения. Но если всё как следует настроить, эту квантизированную рассуждающую версию действительно можно запускать на игровой видеокарте с 16 ГБ.

Посмотреть

«Я ненавижу C++, но восхищаюсь его мастерами»: Дженсен Хуанг (Nvidia) о том, как ИИ вернулся домой

dmitrifriend 8 апр в 12:38

Тоже этот момент показался странным, но интервьюер произносит так по памяти.

Посмотреть

«Я ненавижу C++, но восхищаюсь его мастерами»: Дженсен Хуанг (Nvidia) о том, как ИИ вернулся домой

dmitrifriend 3 апр в 11:26

В заголовках интервью часто так делают — берут отдельную цитату, даже если она не описывает весь материал.

Посмотреть

«Я ненавижу C++, но восхищаюсь его мастерами»: Дженсен Хуанг (Nvidia) о том, как ИИ вернулся домой

dmitrifriend 3 апр в 11:24

См. этот абзац:

И вот так складывается своеобразная арка истории: GeForce принесла миру CUDA, а CUDA открыла путь для ИИ; графические процессоры на базе CUDA дали каждому исследователю в области ИИ возможность иметь суперкомпьютер прямо на рабочем столе. CUDA вывела ИИ на новый уровень, но удивительно, что потом ИИ вернулся, чтобы перевернуть всё в GeForce. Получается, он вернулся в дом, который помог ему появиться, и теперь компьютерная графика действительно стала полностью ведомой ИИ.

Посмотреть

Тестируем YandexGPT-5-Pro. Когда хотелось быть ChatGPT, но в душе всё ещё Алиса

dmitrifriend 23 мар в 20:26

Для основного сравнения специально брал лишь нерассуждающие модели, так как рассуждающие (o1, o3-mini, DeepSeek-r1, Claude-3.7-Sonnet-Thinking и т. д.) действуют по другим принципам.

Посмотреть

Кто на самом деле автор контента? Определяем роль ИИ в цифровом диалоге

dmitrifriend 16 мар в 06:14

Исправлено, спасибо!

Посмотреть

ChatGPT, по мнению исследователей, прошёл тест Тьюринга в области психотерапии

dmitrifriend 5 мар в 04:40

Но это ведь не только чёрное и белое — не просто кажется, а кажется на 30%, кажется на 80% и т. д. В степени уверенности и есть тест, а достичь максимальной уверенности — идеальное стремление в разработке человекоподобного ИИ.

Посмотреть

ChatGPT, по мнению исследователей, прошёл тест Тьюринга в области психотерапии

dmitrifriend 5 мар в 04:40

del

Посмотреть

ChatGPT, по мнению исследователей, прошёл тест Тьюринга в области психотерапии

dmitrifriend 5 мар в 04:38

Справедливо замечу, что формулировка была «ChatGPT прошёл тест Тьюринга в области психотерапии». Сейчас заголовок уточнён, но эта часть осталась в таком же виде.

Посмотреть

Тест Grok-3 против DeepSeek-r1: когда бесплатный ИИ наступает на пятки платному

dmitrifriend 26 фев в 12:26

Добавил примечание в статье, что количество 18 — это без учёта буквы Y, которая действительно обычно не считается гласной в логических задачах.

Посмотреть

Тест Grok-3 против DeepSeek-r1: когда бесплатный ИИ наступает на пятки платному

dmitrifriend 26 фев в 12:23

Да, этот ответ близок к истине, ведь буква Y (гласность/согласность которой изменчива и зависит от конкретного случая, то есть произношения в слове) обычно идёт за согласную в логических задачах. Получается, что гласных остаётся не шесть, а пять: A, E, I, O, U. Но конечно, это формальное положение не соответствует произношению (forty, sixty, seventy) — однако и DeepSeek-r1, и ChatGPT-o1 сочли его за само собой разумеющееся, что опять же намекает на его распространённость.

Посмотреть

Тест Grok-3 против DeepSeek-r1: когда бесплатный ИИ наступает на пятки платному

dmitrifriend 25 фев в 13:49

Спасибо, исправлено! В одной из задач как-то не так перенеслось)

Посмотреть

DeepSeek удивляет мир AI моделями, работающими с меньшими затратами, чем у конкурентов

dmitrifriend 18 фев в 00:39

Эй, а как же наш агрегатор нейросетей BotHub? Он доступен без ВПН. Можно зарегистировать через почту или войти через «Яндекс», Google, VK, Telegram. ChatGPT-o3-high, ChatGPT-4o, DeepSeek-r1, DeepSeep-v3, Claude 3.5, Gemini, Dalle-3, Midjourney-6.3, Stable Diffusion 3 и многое другое: https://bothub.chat/, https://t.me/bothub_chat_bot.

Посмотреть

ChatGPT, по мнению исследователей, прошёл тест Тьюринга в области психотерапии

dmitrifriend 17 фев в 08:14

Да, согласен, там не говорится, что тест сам что-то проверяет. Имеется в виду, что при помощи теста пытаются выяснить, насколько человек сможет отличить машину от человека, а не то, что тест выявляет это по фиксированному набору вопросов или заготовленному диалогу.

Посмотреть

ChatGPT, по мнению исследователей, прошёл тест Тьюринга в области психотерапии

dmitrifriend 17 фев в 07:49

Из-за того, что само описание теста имеет нечёткие границы (описывается, что современные варианты насчитывают не менее трёх версий), думаю, исследователи допустили, что такая частичная формулировка имеет место быть.

Посмотреть

ChatGPT, по мнению исследователей, прошёл тест Тьюринга в области психотерапии

dmitrifriend 17 фев в 07:45

А-ха-ха))) «Доктор, включите режим рассуждений. Сколько букв R вы здесь видите?»

Посмотреть

Anthropic готовит новую гибридную модель Claude, превосходящую o3-mini-high в кодинге

dmitrifriend 14 фев в 05:55

Хм, интересно... Оказывается, сделать односимвольную ссылку невозможно. Это один из багов WYSIWYG-редактора «Хабра» (мне известно ещё несколько). Спасибо за сообщение об ошибке, написал иначе.

Посмотреть

Твой ИИ тебя понимает? Разбираем тайны внутреннего мира языковых моделей

dmitrifriend 12 фев в 05:35

Ого, бывает( Поставил вам плюсиков)

Посмотреть

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

dmitrifriend 10 фев в 20:39

Думаю, здесь проблема возникала немного в другом — из-за особенностей предварительной токенизации и представления данных в обучающем корпусе. В целом это можно счесть недоработкой модели — как на уровне архитектуры, так и на уровне представления данных в обучающих датасетах. В какой-то момент нейроны пересекаются не так, как это хотели бы видеть разработчики и пользователи (однако нейросеть поняла это именно так), и возникают такие неадекватные сообщения. Мне кажется, загвоздкой вполне могли бы быть какие-то мелкие неточности в исходных датасетах, уровня забытой угловой скобки или незакрытого тега и т. д.

Мне тоже очень интересна эта тема, как кодируется информация в мозгу. Кстати, то, о чем вы пишете, уже, в принципе, реализовано в моделях, преобразующих аудио в текст (и обратно), таких как Whisper, которая очень хорошо распознает речь на множестве языков, даже быструю и с проглоченными звуками. Здесь, как мне кажется, самое большое значение имеет даже не архитектура модели, а качество и объем исходных данных: Whisper от OpenAI обучена более чем на 680 000 часах реальной речи. Благодаря тому что слова произносились в разных контекстах, с разными акцентами, на разной скорости и с разной степенью проглоченности звуков, нейросеть смогла настроить свои веса так, чтобы выстроить максимально точные с человеческой точки зрения матрицы вида «такая-то спектрограмма — такой-то текст». И здесь скорее распознается не по звукам, а по более крупным единицам — словам или даже сочетаниям слов (и, конечно, учитывается и остальной контекст в какой-то мере — к примеру, 30-секундный пакет, на которые разделяются исходные аудио при распознавании в Whisper). Так как при быстром произношении слова изменяются до неузнаваемости.

Таким образом, здесь скорее будет идти не в сторону более мелкого дробления, а, наоборот, в сторону расширения контекста — учета аудиоданных целых слов и вообще фразы. Это если принять в расчет, что при быстром произношении один и тот же набор звуков, например в словах «иммерсивный» и «реверсивный», может звучать идентично, но при этом один из вариантов будет иметь бо́льшую вероятность — в контексте предложения/абзаца/даже какого-то более раннего фрагмента в тексте.

Посмотреть

1

zproxy.org