Компания Alibaba представила свою новейшую мультимодальную модель искусственного интеллекта Qwen2.5-VL-32B, выпущенную под лицензией Apache 2.0. Предварительные тесты показывают, что эта модель превосходит более крупных конкурентов, таких как Gemma 3-27B и Mistral Small 3.1 24B. В некоторых тестах он даже превосходит собственный Qwen2-VL-72B от Alibaba и более старые версии GPT-4o от OpenAI, но не текущую версию.

Модель достигает наивысших результатов в MMMU (Multimodal Machine Understanding) — тесте, который проверяет, насколько хорошо системы ИИ понимают различные типы медиа, и в MathVista, который оценивает математические рассуждения с использованием изображений. Тест MM-MT-Bench, который измеряет качество взаимодействия, показывает значительные улучшения по сравнению с предшественником. Эти улучшения распространяются и на задачи, связанные с чистым текстом.
Разработчик Саймон Уиллисон протестировал Qwen2.5-VL-32B на компьютере Mac с 64 ГБ оперативной памяти. Его тесты показали, что модель может предоставлять подробные, хорошо структурированные описания сложных прибрежных карт, точно интерпретируя линии глубин и географические особенности.
Пользователи Apple Silicon могут выбирать из нескольких оптимизированных версий модели, включая 4-битные, 6-битные, 8-битные и bf16-версии, что делает её доступной для различных аппаратных конфигураций.
Команда Qwen планирует сосредоточиться на разработке более длительных и эффективных процессов мышления для решения сложных визуальных задач. Это продолжение работы, которую они начали с QVQ, их первой мультимодальной моделью с возможностями мышления, выпущенной в конце 2024 года.