dmitrifriend 14 апр в 11:00

Мал, да удал? Тест Qwen-QwQ-32B на реальных задачах

Средний

10 мин

5.9K

Блог компании BotHubИскусственный интеллектМашинное обучение*IT-компанииБудущее здесь

Обзор

Число параметров всегда имело значение — по крайней мере, так нас убеждали. Этой догме следовали до тех пор, пока 6 марта Alibaba не представила QwQ-32B — компактную модель с 32 млрд параметров, бросившую вызов тяжеловесу DeepSeek‑R1 с его 671 миллиардами. Это классическая история Давида и Голиафа, но, к удивлению многих, маленькая и ловкая модель не просто держится на плаву — она даже обходит гиганта в ключевых задачах.

Но как нейросеть, уступающая в размерах в 20 раз, может показать такие впечатляющие результаты? Давайте разберёмся. В этом обзоре я сравнил между собой Qwen‑QwQ-32B, Qwen-2.5-72B‑Instruct, DeepSeek‑R1 и ChatGPT‑o3-mini‑high на нескольких сложных задачах и делюсь с вами результатами.

Основные характеристики QwQ-32B

В модели QwQ-32B применено обучение с подкреплением — метод, при котором модель обучается не просто на размеченных данных, а путём проб и ошибок. Это даёт значительное преимущество: для работы QwQ-32B требуется гораздо меньше вычислительных ресурсов — всего 32 миллиарда параметров против 671 миллиарда у DeepSeek‑R1 (из которых в процессе работы одновременно задействуются около 37 миллиардов).

Несмотря на свою компактность, QwQ-32B по ряду задач показывает в бенчмарках результаты, сопоставимые с более крупными моделями, а иногда и превосходящие.

Взглянем на её характеристики поближе:

Тип: автокорреляционная языковая модель (causal language model) — предсказывает каждый следующий шаг текста, основываясь на предыдущем контексте.
Этапы обучения: предобучение и постобучение, включая дообучение с надзором и обучение с подкреплением.
Архитектура: трансформер с RoPE, SwiGLU, RMSNorm и attention QKV bias.
Количество параметров: 32,5 млрд, включая 1,5 млрд параметров‑эмбеддингов.
Число слоёв: 64.
Число голов внимания GQA: 40 для Q и 8 для KV.
Контекстное окно: до 131 072 токенов.

Одним из преимуществ QwQ-32B стала её открытость: Alibaba выпустила модель под лицензией Apache 2.0 и опубликовала на платформах Hugging Face и ModelScope. Для разработчиков это означает свободу настраивать, экспериментировать и интегрировать модель в свои проекты.

Хотя QwQ-32B хорошо прошла бенчмарки по математике и кодингу, ограниченное число параметров будет сказываться в задачах, требующих энциклопедических знаний, и в мультиязычных сценариях — в этих областях модель заведомо будет проявлять уязвимости.

Если взглянуть на бенчмарки, показатели QwQ-32B находятся на уровне DeepSeek‑R1 и ChatGPT‑o1-mini. Обладая только 32 млрд параметров, в сравнении с 671 млрд у R1, эта модель способна держаться на одном уровне с оппонентами в различных бенчмарках и даже обгонять их:

Математические задачи: модель справилась с тестами уровня AIME24 на том же уровне, что и DeepSeek‑R1.
Программирование: в кодинговых тестах, таких как LiveCodeBench, QwQ-32B продемонстрировала результаты, сравнимые с DeepSeek‑R1.
Общие задачи: в тестах на понимание инструкций и работу с инструментами QwQ-32B слегка опережает DeepSeek‑R1.

График сравнения:

Кажется, результаты подтверждают, что модель обладает высокой практической ценностью и может эффективно применяться в разных сферах. Но так ли это на самом деле? Ниже мы протестируем QwQ-32B с мощными рассуждающими нейросетями — Qwen-2.5-72B‑Instruct, DeepSeek‑R1 и ChatGPT‑o3-mini‑high. Сюда можно было бы добавить ChatGPT‑o1, Claude-3.7-Sonnet‑Thinking, Grok-3 и ещё что‑нибудь рассуждающее, но остановимся пока на этой четвёрке, чтобы не перегружать голову.

Несмотря на умение размышлять, QwQ-32B, увы, немультимодален, то есть отправить ему картинки невозможно. Немного забавно, потому что все перечисленные оппоненты эту функцию имеют. Серьёзно, хотелось бы поинтересоваться, как так? Отправлять вместо картинок их описания, конечно, тоже не вариант, поэтому визуальные задания пришлось оставить до лучших времён.

Кстати, все тестирования я буду проводить в BotHub, где можно быстро переключаться между разными моделями в одном интерфейсе.

Нужен доступ без ВПН? Зарегистрируйтесь по этой специальной ссылке в нашем агрегаторе нейросетей и получите 100 000 токенов на любые модели.

Тест 1. Загадка с запиской

Начнём с задачи не очень трудной, а скорее сложной в том плане, что в ней несколько взаимосвязанных условий, каждое из которых создаёт новые логические рамки. Эта задача оптимальна для LRM (рассуждающих моделей), потому что для её решения как раз таки нужны пошаговые рассуждения. Ну а для LLM, обычных больших языковых моделей, решить её будет затруднительно, из‑за множества условий последовательного характера.

Семеро друзей — Лера, Максим, Софья, Илья, Диана, Елисей и Анна — участвовали в квесте, в одной из комнат которого находился «ящик времени», в который можно было положить одну записку для её отправки в будущее. После завершения квеста организаторы обнаружили в ящике записку с загадочным посланием и выяснили, что записку оставил один из участников. Каждый участник заходил в комнату с ящиком ровно один раз и поодиночке. Организаторы восстановили следующие факты:

1. Илья вошёл в комнату после Дианы, но до того, кто оставил записку.
2. Лера вошла сразу после Софьи.
3. Елисей вошёл либо первым, либо последним.
4. Пятый посетитель обнаружил, что ящик уже был открыт.
5. Анна вошла раньше Максима.
6. Тот, кто оставил записку, зашёл в комнату позже Дианы, но раньше Максима.
7. Диана не вошла первой.

Определите, в каком порядке заходили в комнату участники и кто оставил записку.

Qwen-QwQ-32B

Тут QwQ-32B застрял в бесконечном рассуждении, так и не предоставив результата.

Qwen-2.5-72B-Instruct

Скрытый текст

DeepSeek-R1

Скрытый текст

ChatGPT-o3-mini-high

Скрытый текст

Соберём результаты выполнения в таблицу, чтобы всё стало нагляднее, — по пунктам видно, какие условия были выполнены моделями и какие остались без внимания.

	QwQ-32B	2.5-72B-Instruct	R1	o3-mini-high — вар. 1	o3-mini-high — вар. 2	o3-mini-high — вар. 3	o3-mini-high — вар. 4
Илья вошёл в комнату после Дианы, но до того, кто оставил записку.	-	-	+	+	+	+	+
Лера вошла сразу после Софьи.	-	+	+	+	+	+	+
Елисей вошёл либо первым, либо последним.	-	+	+	+	+	+	+
Пятый посетитель обнаружил, что ящик уже был открыт.	-	-	+	+	+	+	+
Анна вошла раньше Максима.	-	+	+	+	+	+	+
Тот, кто оставил записку, зашёл в комнату после Дианы, но раньше Максима.	-	-	+	+	+	+	+
Диана не вошла первой.	-	+	+	+	+	+	+

Самой неоднозначной оказалась история с QwQ-32B. Несмотря на длительные попытки, модель не смогла преодолеть свои внутренние размышления и так и осталась застрявшей в бесконечном круге рассуждений. К сожалению, это знакомая проблема для QwQ-32B, и она возникает очень часто.

2.5-72B‑Instruct подошёл к задаче с видимой уверенностью, но результат всё равно разочаровал: часть условий оказались проигнорированы, и итоговое решение выглядело просто случайным. При таком раскладе модель явно не подходит для задач, которые требуют строгой логики. Уже два участника уходят вниз.

R1 не сумел исследовать всё пространство правильных вариантов и привёл лишь один из них. Это решение совпало с первым из выданных моделью o3-mini‑high.

И наконец, o3-mini‑high приводит четыре решения, и каждое из них соответствует всем заявленным фактам. Хотя остаётся открытым вопрос, могли ли быть ещё какие‑то варианты.

Тест 2. Игра «2048»

Составить промт к этой генерации оказалось непросто. Изначально забыл уточнить, что мне нужен код в формате одного HTML‑файла, — как итог, Qwen-2.5 выдавал куски кода в стиле «собери сам», и некоторые из них требовали дописывания новых функций. Ошибка номер два — в описании механики я использовал слово «свайп» и не пояснил, что система должна поддерживать именно свайп мышью (а не только на сенсорном экране). Результат? Генерация на основе touchstart, touchmove, touchend, которая работала на смартфонах, но игнорировала события mousedown, mousemove и mouseup для десктопа.

Создай веб‑версию игры «2048» (одним HTML‑файлом). Добавь возможность свайпа мышью в четыре стороны, как в оригинальной игре, а также пусть это можно будет делать клавишами‑стрелками и клавишами W, A, S, D. Процесс сдвига нужно визуализировать анимацией — одновременным плавным перемещением всех клеток.

В примерах можно нажимать Edit on CodePen, чтобы открыть в новой вкладке.