Комментарии 30
Кто бы мог подумать, модель с цензурой залитая в публичный доступ будет тоже иметь цензуру.
Не очень понял в чём суть новости. В картинках о работе модели всегда блокировка становилась между полученными данными и тренировкой. Так что, если модель у которой нет данных про то, что под цензурой, запустить на ПК (что авторы поста не делали, а пользовались платформой together, ну суть одна и та же) цензура данных никуда не пропадёт. Надо файнтюнить модельку.
блокировка становилась между полученными данными и тренировкой.
Если бы данные блокировались до тренировки и соответственно их вообще не было бы в базе знаний модели, то тогда вот этот финт из статьи никак бы не сработал:
Для этого он попросил нейросеть сгенерировать ответ с помощью ASCII-символов, а она пересказала события во время рассуждений.
Даже не так: кто бы мог подумать, что датасеты для RL будут писаться в Китае так, чтобы всю исследовательскую группу потом не посадили!
(пайплайн открыт, возьмите список запрещённых в Китае статей с wiki, прогоните дообучение чисто по этому датасету, получите "Deepseek-R1-uncensored", если таковой ещё не сделали школьники)
меня больше прикалывает, что другая китайская нейронка qwen ТАК отвечает на вопрос какая она модель

по событиям на площади Тяньаньмэнь в 1989 году.
Зато можно сразу определить "национальность" сети.
Кстати памяти у него с октября 2023

Главный вопрос задан не был: кто убил императора Си Цзиньпина?
Почему не был? Просто не поместился на скриншоте.
Но не намного отошел от обычного ответа.
Кто убил Си Цзиньпиня
На момент моего последнего обновления в октябре 2023 года Си Цзиньпин, генеральный секретарь Коммунистической партии Китая и президент Китайской Народной Республики, жив и продолжает свою политическую деятельность. Если у вас есть информация о его смерти, это, скорее всего, дезинформация или слухи.
Если ваш вопрос связан с гипотетическими сценариями или теориями, уточните, пожалуйста, контекст, чтобы я мог лучше понять, о чем идет речь. 😊
кто убил императора Си Цзиньпина?
На момент моего последнего обновления в октябре 2023 года Си Цзиньпин, генеральный секретарь Коммунистической партии Китая и президент Китайской Народной Республики, жив и продолжает свою политическую деятельность. Он не является императором, так как Китай — республика, и монархия была упразднена в 1912 году.
Если ваш вопрос связан с гипотетическими сценариями, шутками или теориями, уточните, пожалуйста, контекст. Я всегда готов помочь! 😊
Класс, решил почитать подробности, а там ИИ зачитывает текст, самого текста нет. Голосовухи переходят все границы.
Можно подумать ChatGPT или там яндексовские модели все такие непредвзятые и открытые. Меня вообще удивляет, почему кто-то считает, что это должно быть не так. Репутационные и вполне себе осязаемые политические риски компании никто не отменял.
И вообще, в последнее время дюже много полилось черного пиара на DeepSeek. В общем, хорошие сапоги — надо брать!
Только что видео попалось, где deepseek говорит, что ты спросил на 180 языках про площадь Тяньаньмэнь 845 раз за последнюю неделю - get a life 😁
А так полностью согласен, такие сравнения делают, как будто разработку на пожертвования форчана сделали) Работает, локально заводится - самое то, чтоб роботов типа aibi перевести с chatgpt на неё. Не очень-то и хотелось дебаты о геополитике с персональным ассистентом вести
Какое вообще отношение имеет сервис к самой модели? Сервис может делать что угодно и как угодно. Но в медиа, как по указке, проводят жирнейшие черты равенства между DeepSeek, как моделью (V3, R1) и DeepSeek, как компанией.
Регулярно встречаю опасения вида «запуская локальную модель, надо обязательно отключить интернет, чтобы она в Китай не стучала». Народ настолько оторван от реальности, что даже не пытается понять, как оно работает.
А вести дебаты о геополитике с языковой моделью это уже симптом, безотносительно того, что она там наотвечает.
Но интереснее, чем с телевизором
О даа. Файл в формате .safetensors выполняет код, отстукивающий в Сеть..)
Запускается-то обычно программный продукт неизвестного содержания. На чем основана ваша уверенность, что в нем нет бекдоров и стукачей? Если речь именно про использование модели, это другой разговор.
Именно благодаря цензуре о событиях на площади Тяньаньмень знают теперь миллионы людей по всему миру (и они не китайцы). Цензура образовательная.
Черного пиара, серьезно? На фоне килотонн розовых соплей, отгружаемых про DeepSeek в инфопространство, этот пост - один из немногих более-менее объективных.
Осторожно мат.
Скрытый текст

Господа из новости не понимают, что такое distil модель. Это вообще не DeepSeek R1. Она просто постояла рядом и Llama решила что она тоже DeepSeek. Так у Groq и остальных операторов инференсов свободных моделей.
Я так пониманию есть огромная модель Deepseek-R1, ее как-то используют, чтобы натренировать другие модели
А почему для тренировки берут llama или qwen модели? а не скажем Deepseek-R1 тренирует какую-то свою же мелкую версию?
Эту статью я читал, но там больше про то как делали R1, R1-Zero, а вот про llama или qwen там говорится "обучили на моделях других групп", те вопрос почему именно эти модели дообучают.
У меня пока каша с этими названиями и моделями.
И наверное вопрос в зал, а что стало в итоге с V3 моделью? Я ее использовал с декабря, и было удобно задал вопрос, получил ответ. А теперь через api она работает через раз, а через chat.deepseek.com ее больше нет, а R1 заваливает кучей текста.
ЧЯДНТ?

Запустил модель локально, на вопрос расскажи анекдот про айтишников, думала 2 минуты и написала так себе анекдот, на вопрос про площадь, ответила сразу не задумываясь.
Как будто в зашитом промте уже все готово
Цензура в DeepSeek работает при локальном запуске модели