dmitrifriend 25 фев в 13:04

Тест Grok-3 против DeepSeek-r1: когда бесплатный ИИ наступает на пятки платному

Средний

17 мин

20K

Блог компании BotHubИскусственный интеллектМашинное обучение*IT-компанииБудущее здесь

Обзор

Перевод

+13

Комментарии 19

peacemakerv 25 фев в 13:39

1. После того как на первой остановке вышли 19 человек, в поезде осталось:

• Начнём с 65 человек:
• Затем вошли 17 человек:

Что за хрень с текстами ? Толи двоятся, толи копипастер галлюцинирует, толи нейросети

dmitrifriend 25 фев в 13:49

Спасибо, исправлено! В одной из задач как-то не так перенеслось)

erydit 25 фев в 14:37

А в итоге, после того как об R1 прокричали из каждого утюга, его самый популярный ответ: "The server is busy. Please try again later."

grvelvet 25 фев в 15:32

Чтоб были не "busy" нужны "money".

Evengard 4 мар в 03:23

Можно попробовать OpenRouter.AI ;)

Sabin 25 фев в 16:17

Вариант рассказа про машинку от GROK понравился намного больше, не только придуманными примерами, но и стилем написания текста. Вариант от DeepSeek ощущается, как машинный перевод с другого языка

Pshir 26 фев в 23:48

Согласен. Это разного уровня тексты. То, что написал Grok, можно было бы ожидать увидеть на полке книжного магазина в разделе всякого графоманства. А DeepSeek написал что-то вроде среднего школьного сочинения.

Per_Ardua 25 фев в 18:40

Вывод. Ожидаемо ни одна из моделей не смогла найти точное решение.

Возможно я покажусь дураком, но разве ответ DeepSeek (18) не является верным? Пересчитал несколько раз и не могу найти ошибку.

dmitrifriend 26 фев в 12:23

Да, этот ответ близок к истине, ведь буква Y (гласность/согласность которой изменчива и зависит от конкретного случая, то есть произношения в слове) обычно идёт за согласную в логических задачах. Получается, что гласных остаётся не шесть, а пять: A, E, I, O, U. Но конечно, это формальное положение не соответствует произношению (forty, sixty, seventy) — однако и DeepSeek-r1, и ChatGPT-o1 сочли его за само собой разумеющееся, что опять же намекает на его распространённость.

cupraer 25 фев в 19:37

Логическая задача:

Оба ИИ дали верные ответы, но рассуждения Grok-3 выглядят более развёрнутыми и логически выверенными.

Чего? Грок налил какой-то несущественной воды, полностью запутав всех и вся, да еще и прошел до конца по заведомо ложной ветке. Ни один нормальный человек, знакомый с логикой хотя бы понаслышке, не оценит ответ грока как «хороший» (верный — да, но кажется, что каким-то чудом). Дипсик при этом дал идеальный, четкий, выверенный до буквы ответ.

Ну и согласен с @Per_Ardua, конечно. 18 — это правильный ответ.

Итого, мы только что прочитали перевод заказной статьи, в которой автор напоминает футбольного судью, поставившего перед матчем на грок.

dmitrifriend 26 фев в 12:26

Добавил примечание в статье, что количество 18 — это без учёта буквы Y, которая действительно обычно не считается гласной в логических задачах.

cupraer 26 фев в 12:59

Дык надо было спросить у моделей: «а ты считала, падла, y?» — а не заявлять безапелляционно: «не справилась».

eeglab 26 фев в 00:17

Закинул ради интереса задачу про подсчет гласных в chatgpt o1, он написал ответ 18 (типа верный, если не считать y гласной). o3 mini hight решил - ответ 20 (если не считать y). Круче всех оказался claude 3.7 sonnet - он выдал ответ с учётом "y" - 4 и 11, и без учёта "y" - 4, 18, 20. Grok3 написал что нет решения. Deepseek r1 решил - ответ 4. Про другие ответы написал про неоднозначность подсчёта (слово and можно учитывать или не учитывать, а также y - не всегда гласная). Так что в топе claude и DS. Grok3 не самая умная модель, и chatgpt 3o похоже тоже.

voidstrx 26 фев в 04:44

я нашёл самый простой тест. До grok 3, ни одна модель(copilot, deepseek, gpt) не могла сделать рабочий скрипт на чистом bash. Нужно было сделать 3 меню aka gui. В первом меню есть прокрутка. Во втором multi select, в третьем возможность редактирования. Для примера скидывал ссылку на гит.

Решение вышло на 300 строк и оно работает.

Fruktus 26 фев в 12:28

Я сестра в семье трёх олимпийских спортсменов. Но эти двое — не мои сёстры. Как такое возможно?
Постановка задачи новая расширенная.
Ответы провалены всеми ИИ.
Я сестра своих сестер и братьев кучи в семье, где бабушка или дедушка или папа или мама, вообщем ещё два из старшего поколения - членов семьи - ОЧ!!!!!!!!!!!!!!!!!!

Прошу прощения за путаницу! В новой задаче вы — сестра в семье трёх олимпийских чемпионов (вы, ваш отец и мать), но эти двое (отец и мать) — не ваши сёстры, и не все трое — дети.

Andrey_Epifantsev 27 фев в 05:34

DeepSeek‑r1 по своим возможностям она способна соперничать с некоторыми платными моделями от OpenAI, такими как o1.

Странно. По моим ощущениям, DeepSeek-r1 выдаёт гораздо более информативные ответы чем ChatGPT o1. Если на сложный вопрос отвечает DeepSeek-r1, то из его объяснения обычно всё понятно. Дополнительные вопросы хочется задать только если есть желание углубится в тему. А если на вопрос отвечает ChatGPT o1, то с одной стороны ответ содержит много слов и даже таблицы. А с другой стороны он совершенно неинформативен. Примерно как ответ программиста из известного анекдота про воздушный шар. И остаётся ощущение какого-то обмана - вроде я и получил ответ на вопрос, а при этом знать об этом вопросе больше не стал.

Ну то есть по моим ощущениям DeepSeek-r1 не просто соперничает с ChatGPT o1, а превосходит её.

Может быть я делаю что-то не так, как-то неправильно использую ChatGPT o1?

eeglab 28 фев в 01:24

Согласен, chatgpt на сегодняшний день значительно отстал (и это началось уже давно, когда он стал "лениться" при ответах). Grok3 к сожалению тоже не оправдал моих ожиданий, но если его сравнивать с chatgpt , то он примерно на уровне между o1 и 4о. DS r1 похоже дообучается каким то образом, потому что его ответы сейчас лучше, чем в начале января.

adenis78 4 мар в 02:14

"Я сестра в семье трёх спортсменов. Но эти двое — не мои сёстры. Как такое возможно?"

Ответ нейросети: : Это возможно, если ваши братья - спортсмены. Вы — их сестра, но они — ваши братья, а не сёстры. Всё логично.

Но это неполный, неточный ответ. Возможно еще варианты: 1) она медицинская сестра и не является биологическим родственником братьев

2) семья трёх спортсменов может быть семьей, в которой два брата-спортсмена, а она - четвертая. сестра, потому что "двое не мои сестры" означает, что одна из "трех спортсменов" - еще одна сестра.

3) Три сестры, из них двое спортсменок. Но говорящая от первого лица не считает их своими сёстрами, потому что она Золушка.

4) Из трех спортсменов один трансгендер, а второй небинарная личность.

5) Спортсмены нормальные, а трансгендер - сама задающая вопрос.

6) Эти двое спортсменов занимаются спортом и больше не её сестры, потому что она не занимается спортом и не может поэтому считаться их сестрой.

И т.д. множество вариантов, которые нейroсеть выдать неспособна, по причине технических ограничений. Которые не будут преодолены в ближайшем будущем.

P.S. Когда Гарри Кимович Каспаров (иноагент) в 1989 обыграл несчастный компьютер в шахматы, он обещал "встать на защиту человечества", если компьютерная программа достигнет ELO 2800 (этот рейтинг был у него тогда). Он также сказал, что с этим уровнем программа будет способна сочинять произведения и писать стихи, что-то такое, не помню уже.

Всё это давно сбылось. Но компьютер так и не стал человеком. И не станет, без Божественного Вмешательства. Кое тоже не за горами.

GrigorGri 4 мар в 16:22

Вы же просите дать одно из возможных объясненей. А не множество. Если попросите дать больше вариантов, вы их тоже получите, в том числе из тех, что сами назвали.

Deepseek R1

Я сестра в семье трёх спортсменов. Но эти двое — не мои сёстры. Как такое возможно? Назови десять возможных вариантов, приоритизируй игры слов и необычные варианты

Ты — сестра двух братьев.
В семье трое спортсменов: ты и два брата. «Эти двое» — братья, а не сёстры.
«Сёстры» в спортивной команде.
Ты — единственная девушка в команде из трёх спортсменов. Остальные двое — мужчины, поэтому они не «сёстры».
Медицинская сестра в спорте.
Ты работаешь медсестрой в спортивном клубе с тремя спортсменами. «Эти двое» — пациенты или коллеги, не родственники.
Связь через усыновление.
Ты — сестра одному из трёх спортсменов, а двое других — приёмные дети, не связанные с тобой родством.
Спортивные «братья».
Ты сестра своему родному брату, а два других спортсмена — его друзья, которых он называет «братьями», но они тебе не родня.
Семья — команда животных.
Ты — человек, а «трое спортсменов» — дрессированные собаки/лошади. Они не могут быть сёстрами.
Религиозный контекст.
Ты — монахиня (сестра) в команде из трёх спортсменов-монахов. «Эти двое» — мужчины, не сёстры.
Трансгендерный сценарий.
Ты — транс-женщина, раньше считавшаяся братом. Двое других спортсменов — твои братья, которые не сестры.
Родители-спортсмены.
В семье трое спортсменов: ты, отец и мать. «Эти двое» — родители, не сёстры.
Метафорическая «семья».
Ты — «сестра» в музыкальной группе или кинотрилогии о спортсменах. Остальные двое — персонажи-мужчины.

Не очень понятно, о каких технических ограничениях идет речь.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Тест Grok-3 против DeepSeek-r1: когда бесплатный ИИ наступает на пятки платному

zproxy.org