dmitrifriend Jan 31 at 23:45

«Будущее за узкой специализацией»: судьбоносное интервью Ляна Вэньфэна, основателя DeepSeek, посвящённое v2

Easy

17 min

22K

BotHub corporate blogArtificial IntelligenceMachine learning*The future is here

Interview

Translation

+71

Comments 20

visirok Feb 1 at 00:36

Спасибо. Считаю, что публикация очень полезная. Непонятно, за что её минусовали.

diakin Feb 1 at 01:02

Видимо за чрезмерную "судьбоносность" и тп.

perfect_genius Feb 1 at 01:29

Разве не все новые статьи минусуют?

Shpankov Feb 1 at 12:15

Время публикации. Ночью в пятницу в сети зачастую остаются хейтеры и неудачники, которым некуда себя деть - ни девушки, ни друзей, ни семьи. По моему опыту, лучшее время публикации - рабочие дни, до обеда. Вечерние или ночные публикации получают больше минусов.

visirok Feb 1 at 12:22

Век живи, век учись. Учту при следующей публикации 😉😂

agat000 Feb 12 at 06:00

У меня сложилось впечатление (в основном по другим ресурсам, не Хабр), что самый треш публикуют в ночь с воскресенья на понедельник.

kryvichh Feb 1 at 01:15

Почему не спросили, на каких данных тренировали свою LLM?

mxr Feb 1 at 01:42

Конечным пользователям, вроде меня, не так важно, на каких данных обучаются модели. Но очевидно, что источником данных служит все до чего дотянется парсер не обращая внимание на авторское право.

В одном из моих проектов GPTBot генерирует более 50 тысяч запросов в сутки, что, по сути, является агрессивным веб-скрапингом. При этом я нигде не давал разрешения на такое использование данных. Дополнительная проблема в том, что бот существенно нагружает базу данных, а механизмы кэширования оказываются неэффективными, поскольку он запрашивает постоянно новые страницы.

У меня есть целый список таких ботов, в т.ч Amazon, Meta и т.д.

Antra Feb 1 at 10:05

Но очевидно, что источником данных служит все до чего дотянется парсер

Мне не очевидно. Подготовка датасета - огромная работа. Собрать свой или взять готовый - существенная разница как в затратах, так и в результатах. А есть еще, к примеру, distilled, когда модель "улучшается" с помощью другой модели, а не пылесосит веб.

Так что мне очень интересны подробности, на чем учили R1.

kryvichh Feb 1 at 11:44

Ну, не знаю. Обычного пользователя вряд ли заинтересовало это интервью. А энтузиастам очень интересно, на каких текстах обучают модель. Готовят ли они сами датасеты, или используют готовые. Разработчики ChatGPT раньше указывали %% разных датасетов в обучающей выборке, потом начали скрывать.

Что все китайцы игнорируют авторское право при обучении LLM, так это понятно. И тут я их поддерживаю - пока LLM не цитирует источники большими кусками, что можно было бы расценить как нарушение, использование любых текстов для обучения, будь то LLM или человеков, не является нарушением авторских прав.

AppCrafter Feb 1 at 03:56

Хорошая статья, спасибо автору!

Судя по ответам этого парня он реально крут. А если еще учесть его патриотическую риторику, то скоро он станет национальным героем и технологическим лицом Китая.

FreakII Feb 1 at 04:28

Хватит уже. "Судьбоносное интервью". "Тектонический сдвиг". "Эффект разорвавшейся бомбы".

Уже наелись этого всего за последнюю неделю

GospodinKolhoznik Feb 1 at 10:16

А ещё сейчас каждый второй фильм называют культовым. Такое вот обесценивание терминов.

Wesha Feb 2 at 01:22

Причём как будто «культ» — это что‑то хорошее.

Mirzapch Feb 10 at 04:54

Вижу "силиконовую долину" в тексте - добавляю автора в игнор-лист. HabroSanitizer мне в этом помогает.

dmitrifriend Feb 10 at 17:55

Спасибо, исправил! Думаю, добавлю в чек-лист это словосочетание.

agat000 Feb 12 at 06:09

Чем это отличается от интервью политических деятелей?

Там пафоса ничуть не меньше. Современный стиль пиара и вообще журналистики.

А тут еще и культурные особенности.

Repinson Feb 1 at 09:57

Как же я люблю сказки... Я не знаю, какой там ИИ у китайцев. Но всегда говорил, что это афёра. Что китайцы убедительно и показали. Создание программных вычислительных единиц не стоит миллиарды долларов, как это втирали всем товарищи Альтман и Суцвекер. Думаю, что последствия появления китайского ИИ с открытым кодом, где можно посмотреть, что из чего состоит, даст много работы американской прокуратуре и лично товарищу Трампу в борьбе с цифровиками. Да и инвесторы, которые давали Альтману деньги, а тройка Альтман-Суцвекер-Сатия их радостно пилила, обидятся и тройка эта вполне может получить чуток по щам. Это всё не имеет никакого отношения к компьютерам и технологиям. Просто попил бабла и борьба группировок за власть.

BlackMokona Feb 1 at 17:09

5.6 миллионов это стоимость последнего часа обучения

IFITOWS Feb 3 at 10:43

Одно из самых вдохновляющих интервью, которые я читал за последнее время. Лю Цысинь и ода знаниям VS Талеб c антихрупким таксистом.

«Будущее за узкой специализацией»: судьбоносное интервью Ляна Вэньфэна, основателя DeepSeek, посвящённое v2

zproxy.org