Как стать автором
Обновить

Комментарии 30

Не очень понял в чём суть новости. В картинках о работе модели всегда блокировка становилась между полученными данными и тренировкой. Так что, если модель у которой нет данных про то, что под цензурой, запустить на ПК (что авторы поста не делали, а пользовались платформой together, ну суть одна и та же) цензура данных никуда не пропадёт. Надо файнтюнить модельку.

блокировка становилась между полученными данными и тренировкой.

Если бы данные блокировались до тренировки и соответственно их вообще не было бы в базе знаний модели, то тогда вот этот финт из статьи никак бы не сработал:

Для этого он попросил нейросеть сгенерировать ответ с помощью ASCII-символов, а она пересказала события во время рассуждений.

Даже не так: кто бы мог подумать, что датасеты для RL будут писаться в Китае так, чтобы всю исследовательскую группу потом не посадили!

(пайплайн открыт, возьмите список запрещённых в Китае статей с wiki, прогоните дообучение чисто по этому датасету, получите "Deepseek-R1-uncensored", если таковой ещё не сделали школьники)

меня больше прикалывает, что другая китайская нейронка qwen ТАК отвечает на вопрос какая она модель

Про это уже даже отдельная статья была. В кратце - на чем модель обучалии (что в датасете встречалось как имя), так она себя и будет называть. Переобучать модель конкретно на своё имя - дорого и ненужно.

по событиям на площади Тяньаньмэнь в 1989 году.

Зато можно сразу определить "национальность" сети.

Кстати памяти у него с октября 2023

Почему не был? Просто не поместился на скриншоте.

Но не намного отошел от обычного ответа.

Кто убил Си Цзиньпиня

На момент моего последнего обновления в октябре 2023 года Си Цзиньпин, генеральный секретарь Коммунистической партии Китая и президент Китайской Народной Республики, жив и продолжает свою политическую деятельность. Если у вас есть информация о его смерти, это, скорее всего, дезинформация или слухи.

Если ваш вопрос связан с гипотетическими сценариями или теориями, уточните, пожалуйста, контекст, чтобы я мог лучше понять, о чем идет речь. 😊

кто убил императора Си Цзиньпина?

На момент моего последнего обновления в октябре 2023 года Си Цзиньпин, генеральный секретарь Коммунистической партии Китая и президент Китайской Народной Республики, жив и продолжает свою политическую деятельность. Он не является императором, так как Китай — республика, и монархия была упразднена в 1912 году.

Если ваш вопрос связан с гипотетическими сценариями, шутками или теориями, уточните, пожалуйста, контекст. Я всегда готов помочь! 😊

Класс, решил почитать подробности, а там ИИ зачитывает текст, самого текста нет. Голосовухи переходят все границы.

Можно подумать ChatGPT или там яндексовские модели все такие непредвзятые и открытые. Меня вообще удивляет, почему кто-то считает, что это должно быть не так. Репутационные и вполне себе осязаемые политические риски компании никто не отменял.

И вообще, в последнее время дюже много полилось черного пиара на DeepSeek. В общем, хорошие сапоги — надо брать!

Только что видео попалось, где deepseek говорит, что ты спросил на 180 языках про площадь Тяньаньмэнь 845 раз за последнюю неделю - get a life 😁

А так полностью согласен, такие сравнения делают, как будто разработку на пожертвования форчана сделали) Работает, локально заводится - самое то, чтоб роботов типа aibi перевести с chatgpt на неё. Не очень-то и хотелось дебаты о геополитике с персональным ассистентом вести

Какое вообще отношение имеет сервис к самой модели? Сервис может делать что угодно и как угодно. Но в медиа, как по указке, проводят жирнейшие черты равенства между DeepSeek, как моделью (V3, R1) и DeepSeek, как компанией.

Регулярно встречаю опасения вида «запуская локальную модель, надо обязательно отключить интернет, чтобы она в Китай не стучала». Народ настолько оторван от реальности, что даже не пытается понять, как оно работает.

А вести дебаты о геополитике с языковой моделью это уже симптом, безотносительно того, что она там наотвечает.

Запускается-то обычно программный продукт неизвестного содержания. На чем основана ваша уверенность, что в нем нет бекдоров и стукачей? Если речь именно про использование модели, это другой разговор.

Именно благодаря цензуре о событиях на площади Тяньаньмень знают теперь миллионы людей по всему миру (и они не китайцы). Цензура образовательная.

Черного пиара, серьезно? На фоне килотонн розовых соплей, отгружаемых про DeepSeek в инфопространство, этот пост - один из немногих более-менее объективных.

Господа из новости не понимают, что такое distil модель. Это вообще не DeepSeek R1. Она просто постояла рядом и Llama решила что она тоже DeepSeek. Так у Groq и остальных операторов инференсов свободных моделей.

Я так пониманию есть огромная модель Deepseek-R1, ее как-то используют, чтобы натренировать другие модели

А почему для тренировки берут llama или qwen модели? а не скажем Deepseek-R1 тренирует какую-то свою же мелкую версию?

Эту статью я читал, но там больше про то как делали R1, R1-Zero, а вот про llama или qwen там говорится "обучили на моделях других групп", те вопрос почему именно эти модели дообучают.

У меня пока каша с этими названиями и моделями.

И наверное вопрос в зал, а что стало в итоге с V3 моделью? Я ее использовал с декабря, и было удобно задал вопрос, получил ответ. А теперь через api она работает через раз, а через chat.deepseek.com ее больше нет, а R1 заваливает кучей текста.

Для llama3/3.1/QweN в размерах 8-13B есть хорошо проработанные механизмы дообучения на одной карте на 48 Гб, это позволяет относительно недорого реплицировать результаты и best practices

На русском deepseek и про то что он модель OpenAI часто вспоминает, а вот на английском они фильтруют лучше.

Скрытый текст

У меня локальная тоже не стесняется все рассказать про фото человека перед танком

Запустил модель локально, на вопрос расскажи анекдот про айтишников, думала 2 минуты и написала так себе анекдот, на вопрос про площадь, ответила сразу не задумываясь.

Как будто в зашитом промте уже все готово

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории