Как стать автором
Обновить
472.15
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Hunyuan-T1 от Tencent: модель, которая бросает вызов OpenAI

Время на прочтение2 мин
Количество просмотров1.8K

Компания Tencent заявляет, что её новая модель Hunyuan-T1 может соперничать с лучшими системами обработки данных OpenAI.

Следуя подходу, используемому для всех крупных моделей логического мышления, Tencent в значительной степени полагалась на обучение с подкреплением во время разработки. 96,7% вычислительной мощности после обучения было направлено на улучшение логического мышления и соответствие человеческим предпочтениям.

В MMLU-PRO, где проверяются знания по 14 предметным областям, Hunyuan-T1 набрал 87,2 балла, заняв второе место после OpenAI o1. В тесте GPQA-diamond на научные рассуждения он набрал 69,3 балла.

Tencent утверждает, что эта модель особенно хорошо справляется с математическими задачами. Она набрала 96,2 балла в тесте MATH-500, уступив только Deepseek-R1. Другие высокие результаты включают LiveCodeBench (64,9 балла) и ArenaHard (91,9 балла).

Hunyuan T1 достигает 96,2% точности в MATH-500 и превышает 90% в нескольких задачах на китайском языке.
Hunyuan T1 достигает 96,2% точности в MATH-500 и превышает 90% в нескольких задачах на китайском языке.

Для обучения Tencent внедрила подход по учебной программе, постепенно увеличивая сложность задач. Компания также разработала систему самообучения, в которой более ранние версии модели оценивали результаты более новых версий для улучшения.

Модель использует архитектуру Transformer Mamba, которая, по словам Tencent, обрабатывает длинные тексты в два раза быстрее, чем обычные модели в аналогичных условиях. Hunyuan-T1 доступен через Tencent Cloud, а демонстрационная версия доступна на Hugging Face.

Этот релиз следует за недавним представлением компанией Baidu собственной модели уровня o1 и предыдущим релизом компании Alibaba. Alibaba, Baidu и Deepseek придерживаются стратегий с открытым исходным кодом. Инвестор в области ИИ и бывший глава Google в Китае Кай-Фу Ли описывает эти разработки как экзистенциальную угрозу для OpenAI.

Поскольку топовые модели регулярно показывают 90-процентную точность в стандартных тестах, Google DeepMind представил более сложный тест под названием BIG-Bench Extra Hard (BBEH). Даже лучшие модели испытывают трудности с этим новым тестом — лучшая модель OpenAI, o3-mini (high), показала точность всего 44,8 процента.

Более неожиданным результатом стало то, что Deepseek-R1, несмотря на высокую производительность в других тестах, набрал всего около семи процентов. Такое расхождение показывает, что результаты тестов не отражают полной картины и редко соответствуют реальной производительности, особенно с учётом того, что некоторые команды разработчиков оптимизируют модели специально для этих тестов. У некоторых китайских моделей есть специфические проблемы, например, вставка китайских иероглифов в английские ответы.

Источник

Теги:
Хабы:
+1
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия