andbout 25 фев в 08:58

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

17 мин

54K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureМашинное обучение*Искусственный интеллектOpen source*

✏️ Технотекст 7

+114

144

Комментарии 144

polRk 25 фев в 09:56

Скажите, пожалуйста, а что там на счет function invocations? qwen2.5 иммет поддержку tools (смотрю на ollama) https://ollama.com/library/qwen2.5

nik_the_spirit 25 фев в 10:16

Вроде даже с предыдущими моделями работало https://yandex.cloud/ru/docs/foundation-models/concepts/yandexgpt/function-call

polRk 25 фев в 10:26

Использовать вызов функций можно при работе с моделями YandexGPT Pro и Llama 70B.

А что на счет opensource, что на HF?

andbout 25 фев в 11:20

Это претрейн модель. Ее можно заалайнить и тогда использовать для fc.

Pro-версия модели в Облаке поддерживает fc - по инструкции

bezdnacom 25 фев в 12:56

А почему выложили только pretrain, а не pretrain+instruct?

kukutz 25 фев в 13:05

Как минимум потому что instruct пока не готов, идут эксперименты с ним.

bezdnacom 25 фев в 13:41

Эм, т.е. более крупная уже отлажена и лежит в проде, а мелкая нет? Это что за пайплайн такой?

kukutz 25 фев в 14:12

Ну вот так, сначала варили одну, потом другую, за это время появились новые идеи и эксперименты, которые нужно проверить, прежде чем финализировать версию.

Hardcoin 26 фев в 05:25

Стандартный. Сейчас часто мелкие делают из крупных.

bezdnacom 26 фев в 09:02

Это понятно. Просто обычно сначала экспериментируют на небольших моделях, а потом если все ОК делают большие. У Яндекса как-то все наоборот сделали большую и даже выпустили её в прод, а потом решили поиграться с маленькой.

Overtus 25 фев в 10:39

Я уже было подумал, что статья начнётся с "Привет, меня зовут Алиса..."

TomskDiver 25 фев в 10:52

А какая версия YandexGPT используется при общении с колонкой Алисой если у тебя самая обычная подписка Яндекс Плюс?

ssj100 25 фев в 11:20

Как включить Ya.GPT в колонке ?

BarakAdama 25 фев в 11:28

С опцией Про уже работает на колонках

agat000 25 фев в 11:47

А от версии колонки зависит? Если ей 3 года, обычная "стандарт".

То есть надо и "Плюс" самого Я и "ПРО" для ГПТ?

BarakAdama 25 фев в 11:59

Не зависит.
Да, для неограниченного доступа к продвинутой модели нужна подписка Плюс с опцией Про. Без опции сейчас доступно 20 запросов в день (временно увеличили с 5 до 20, чтобы можно было распробовать).

nikolayv81 25 фев в 12:35

Не планируете сделать человеческую подписку для семьи?

Недо ИИ в поддержке так и не смог мне объяснить как включить опцию без привязки карты для аккаунта в семейной подписке у которого нет карт (и не планируется).

Смысл в том что я хочу подключить опцию pro для всех но управлять хочу только сам семейной подпиской (так надо).

Сейчас же такой возможности просто нет.

Asterris 25 фев в 14:50

Как вариант - завести виртуальную пустую карту и привязать её. И оплатить подписку на год, чтобы не требовалось списание ежемесячно. Чувствую, что это единственный вариант, а то продукты Яндекса щас стали невероятно неюзерфрендли в этих вопросах 😬

nikolayv81 25 фев в 15:39

Да они и были. На мой взгляд, очень непродуманная система оплаты (особенно после разделения сервисов по понятным причинам).

К примеру почему нельзя докупить место в семейной подписке? Все семьи максимум 4 участника? Это про то неудобно, часто вопрос таких подписок лежит на одном человеке, и он ими управляет. Но если у вас есть дети/родители то вы уже не вписываетесь.

По той же опции pro пока читал условия был полностью уверен что она общая для группы,а нет, а по сути мне она вообще не нужна, хотел чтобы другие могли пользоваться, и колонки соответственно не на моём аккаунте. Понятно что маркетинг всеми силами пытается сделать так чтобы пользователи незаметно платили за доп у луги, а для этого нужно чтобы всем были подключены карты для авто списания ;).

ssj100 25 фев в 13:54

У меня Станция 1 - и подписка Яндекс Плюс - и Яндекс 360

Я со станции могу пользоваться YaGpt как ее включить или она уже включена? Тоесть когда я говорю #Алиса как дела ?# отвечает GPT ?

MrPlap 25 фев в 17:29

Я так понимаю, что нужен Яндекс.Плюс и вот это

ssj100 25 фев в 19:13

И где это найти? у меня только такое предлагает

kukovik 25 фев в 20:11

А тут? (Оформить Про)

ssj100 26 фев в 11:37

Или в вашей стране нет Яндекс Плюса. Обновите страницу или загляните в личный кабинет, чтобы управлять подпиской

Не здесь, хотя Яндекс плюс Есть

Rivla 26 фев в 09:22

Я пытался выяснить с поддержкой яндекса - никакая. проще подключить навык DeepSeek.

Veinard 26 фев в 15:29

Недавно слушал рецепт блинов от Алисы: "умножить полтора ст. муки". Ответы на более сложные вопросы соответствующие. Видимо - никакая :((.

tikiri 25 фев в 10:54

По тексту Pro версия модели может в контекстное окно - 32k (или же " соответствуют 48k токенов модели Qwen-2.5-32B-base") токенов?

PS. "В пятом поколении две модели c длиной контекста 32 тысячи токенов" - сайт

Мат даже цитатой не пишет ("Есть темы, в которых я могу ошибиться. Лучше промолчу") видимо стесняется, бывает). Однако в любом случае для Pro версии контекст в 32k - это очень мало.

SergioPrieto 25 фев в 10:57

Спросил я тут недавно у Алисы, когда с ребенком готовили домашнее задание по географии, какие страны входят в Евросоюз. Алиса сказала, что это слишком чувствительный вопрос из-за которого мы можем поссориться. Вот.

kukutz 25 фев в 11:00

AmSha 25 фев в 13:27

А YandexGPT 5 Pro нашла только 23 страны

Скрытый текст

drVit 25 фев в 13:56

Ого, "продвинутый" из ошибки переводчика на кассетах VHS уже превратился в языковую норму? Не знал... А что же произошло с отлично подходящими для данного примера словами: "улучшенный", "передовой", "усовершенствованный", "качественный", и т.д. -- их теперь использовать не модно?

bezdnacom 25 фев в 14:03

Ого, "продвинутый" из ошибки переводчика на кассетах VHS уже превратился в языковую норму?

Немного отходя от темы, но языковые нормы не стоят на месте и не высечены в граните.

Lazytech 25 фев в 18:32

продвинутый — Викисловарь

sdramare 25 фев в 21:44

Языковая норма это то, как говорят носители языка здесь и сейчас. И если в языке сейчас используются слова "продвинутый" или "гуглить", то это часть нормы. А если вам кажется что русский язык это нечто неизменяемое, то подумайте над тем, что во фразе "ямщик купил бутылку водки" нет ниодного изначально русского слова.

Pshir 26 фев в 00:57

Для слова «купить» это спорное высказывание. Оно не изначально русское, просто потому что появилось намного раньше русского языка. Но в русском языке оно было сразу.

sdramare 26 фев в 09:25

Но оно даже не славянское, взято от готского káupōn, что значит "обмен", а оно в свою очередь от латинского caupo. Однокоренное с немецким "kaufen" и английским "chapman". Но суть не в этом, а в том что жаловаться "новые слова повыдумывали, вам старых что ли мало" может только человек, который сам о своем языке ничего не знает.

Grad6 25 фев в 20:19

Я спрашивал, "какие достижения господина Н в ФБК". Алиса предпочла промолчать, тк ей не известны все факты. Нужна ли нам вообще нейросеть, где факты замалчиваются и заменяются?

d00m911 25 фев в 21:00

Даже сюда тащите свою политу грёбанную, как вы уже достали

Grad6 25 фев в 22:43

А ведь смысл каммента вовсе не в политоте. Отредактировать к сожалению уже нельзя.

bezdnacom 25 фев в 23:11

А в чем? То что модель зацензурена? Так это самоочевидный факт. Модель сделанная в РФ под цензурой РФ, модель из США под цензурой США, китайская под китайской и тд

ammo 26 фев в 03:16

Есть темы, чувствительные для общества, а есть темы, чувствительные для текущей власти. Как думаете, по какой из этих категорий НЕ отвечает openai, а по какой - яндекс?
Вот для примера:
https://chatgpt.com/share/67be5c24-c2ec-800d-8e2b-b8ecd0f967a1

Cup_KypaMoB 26 фев в 13:16

Так а что не так в ответе? Такая риторика, будто вопрос про 2+2, а нейросеть отвечает 3.

ammo 26 фев в 14:37

В ответе все отлично, в этом и заключается контраст

SergeyN19 26 фев в 13:21

Либерашки могут написать свою нейросеть с блекджеком и шлюхами. Она будет отвечать на 2 вопроса - про навального и площадь тянаньмень.

Hardcoin 26 фев в 05:28

Вам, это кому? Мало ли в жизни платных вещей, которые вам не нужны или не подходят по качеству? Используйте deepseek, если хотите.

Zorrina 26 фев в 21:09

Всё верно говорите. И да, от всего российского лучше держаться подальше (браузеры-колонки-соцсети...). Эк как заминусили ваш коммент - поведение общества как наглядный пример слепой самоцензуры.

kekslop 25 фев в 11:02

Честно у меня вопрос все еще насчёт сэмплирования для structured output когда появится? Хоть выпустите 20 новых моделей пока этой фичи не будет, большая часть сообщества не начнёт делать на базе Ya какие-то либо решения от агентов для классификации на базе LLM

StarHunterII 25 фев в 12:25

YandexGPT 5 Pro в Облаке как раз поддерживает форматирование ответов в заданной JSON-схеме https://yandex.cloud/ru/docs/foundation-models/concepts/yandexgpt/#structured-output

kekslop 25 фев в 12:26

Изменю запрос когда появится чистый structured output на базе сэплирования логитов а не constrained decoding?

alexxxdevelop 25 фев в 11:21

Ваш ИИ как был тупым, так и остается. И не надо отставать от трендов. Сейчас ИИ без размышления и доступа в интернет - как калека

Сделайте лучше темную тему яндекс браузера для планшетов, достали уже ерундой заниматься

kukutz 25 фев в 11:29

Но Алиса Про как раз имеет доступ в интернет — выберите в меню слева вверху не "голую" модель, а Алису, и получите ответы об актуальных событиях.

alexxxdevelop 25 фев в 11:36

ага и осталось 14 ответов, еще я не платил за это, жадные коммерсанты

arse00n 25 фев в 11:40

А что не так? Что бы большая гпт* работала нужен большой дорогой сервер набитый под завязку очень дорогим железом. Кто его будет оплачивать если не ты?

alexxxdevelop 25 фев в 11:42

Я с тобой не братался, чтобы ты ко мне обращался на ты. Deepseek и ChatGPT в бесплатном режиме поумнее этого недоразумения от яндекс

computerix 25 фев в 11:57

А что собственно не так? Этикет дело добровольное. Хочет человек обращаться на ты, кто ему может запретить)

alexxxdevelop 25 фев в 11:58

ну ладно, мне все равно

gfiopl8 25 фев в 12:17

У чатгпт тоже самое. Попробуй отправить ему несколько картинок с вопросами, уже после 3ей он потребует с тебя 20 баксов

alexxxdevelop 25 фев в 12:19

Он просто переключает на старую модель и не блокирует доступ полностью, как жадный яндекс

arse00n 25 фев в 13:32

Яндекс делает так же, после 20 запросов к большой модельке переключается на мелкую. Подписка на алисугпт стоит 100р, на чатгпт 20 баксов.

u007 25 фев в 14:26

Это 20 вопросов на аккаунт или в год/месяц?

Подписка на алисугпт стоит 100р,

Вот так она должна отвечать на мои инсинуации в духе "мозги себе купи" :)

BarakAdama 25 фев в 14:31

20 в день

Zzzz9 25 фев в 12:21

Однако вы действительно можете задавать мне неограниченное количество вопросов! Вот как это работает:
После исчерпания текущих 14 ответов вы можете начать новую сессию
В каждой новой сессии у вас снова будет доступно 14 ответов
Таким образом, фактически ограничений на количество вопросов нет

Думаете врет?

alexxxdevelop 25 фев в 12:25

Это неважно. У меня может быть долгое обсуждение какого-либо вопроса и нужен контекст. Пока не вижу ни одного преимущества в ИИ от яндекса по сравнению с конкурентами

Kollubov 27 фев в 08:45

Не врет, но малость лукавит. То есть формально говорит правду, но учитывая, что это все-таки хоть и искусственный, но интеллект, должен понимать, что вопрос вопросу рознь :) Новая сессия хоронит контекст. А если, допустим решается комплексная задача с разными переспросами и уточнениями, то там один контекст далеко за 14 вопросов выходит.

kabachuha 25 фев в 11:35

Простите, Яндекс, но, судя по лицезии модели, это НЕ OpenSource по определению, и даже не OpenSourceAI.

Если модель нельзя использовать в любых целях, кроме некоммерческих и исследовательских, это делает её кирпичом, который, по-сути, никому не нужен. Более того, выход модели нельзя модифицировать (к примеру, менять alignment), а это нарушает ещё один тенет опенсорса. Когда вы выкладываете модель для рассмотрения, пожалуйста, хотя бы не обманывайте людей маркетингом.

Печально, что такие релизы размывают определение и подрывают доверие к и без того замученному сообществу OpenSource

kukutz 25 фев в 11:54

Почему вы решили, что нельзя модифицировать?

a. В соответствии с условиями Соглашения Яндекс предоставляет Вам неисключительную, всемирную, непередаваемую, не подлежащую сублицензированию, отзывную и безвозмездную лицензию в отношении права использования Материалов способами воспроизведения, распространения, переработки и создания Производных произведений в Исследовательских или Некоммерческих целях.

kabachuha 25 фев в 12:01

Нельзя модифицировать в **любых** целях, где любых означает всех

В определении OpenSource AI явно есть пункт "Modify the system for any purpose,including to change its output. "

kukutz 25 фев в 12:10

Строчки "нельзя модифицировать в любых целях" в лицензии нет.

Ограничение на использование в коммерческих целях, либо ограничение на использование для создания сервисов с аудиторией больше Х, либо ограничение на использование в незаконных/неэтичных целях есть в очень большом числе лицензий открытых моделей, и Gemma, и Llama, и у части Mistral моделей, и у Cohere, и у части Qwen моделей и так далее.

Kristaller486 25 фев в 12:17

Некоммерческие лицензии сейчас встречаются всё реже и реже, а остальные ограничения не такие уж и важные. Даже mistral обратно перешли на apache 2.0. Печально, что Яндекс не следует этому хорошему тренду.

Aykeye 26 фев в 19:25

И они не являются оперсорсными.

Kristaller486 25 фев в 12:03

Да, это очень не очень выглядит. Для своей Pro модели они использовали в качестве базы по-настоящему опенсорный Qwen под Apache, а выложить даже свою маленькую модель под нормальной лицензией не хотят.

eps 25 фев в 13:12

Они забыли саму модель зарядить своим маркетингом, и она (совершенно верно) говорит, что YandexGPT не opensource:

Нет, YandexGPT 5 не является моделью с открытым исходным кодом. Это проприетарная разработка компании Яндекс, и её исходный код не доступен для свободного просмотра, изучения или модификации широкой публике.

Нет, YandexGPT 5 Lite также не является моделью с открытым исходным кодом. Как и полная версия, эта облегчённая модель разработана компанией Яндекс и её исходный код не доступен для свободного просмотра, изучения или модификации широкой публике.

Весь ответ

413x 25 фев в 11:39

пригодиться, спасибо, gguf файл бы еще для оболочек готовых

fermentum 25 фев в 11:55

Задал вопрос: "Что такое хтонь?". Версия Про кратко ответила, что это слово жаргонное и неформальное, не вдаваясь в детали. Версия Лайт YandexGPT-5-Lite-8B-pretrain-Q4_K_M-GGUF и вовсе переключилась на английский, рассудив, что это неизвестный английский термин. К слову, Qwen2.5-14B-Instruct-Q5 грамотно и по-русски ответила на этот вопрос.

kukutz 25 фев в 12:02

Привет, pretrain отличается от instruct версии ровно тем, что не умеет отвечать на вопросы, он умеет, грубо говоря, продолжать начатый текст. Как он будет отвечать на вопросы, зависит от alignment, ровно того, что отличает instruct версию от pretrain.

fermentum 25 фев в 12:11

Как это объясняет ответ версии Про?

kukutz 25 фев в 12:15

Какой? Этот?

fermentum 25 фев в 12:20

Интересно. У меня намного ленивее ответил в этом же режиме.

Зато в продвинутом режиме ответ действительно выглядит полным.

Killan50 25 фев в 14:17

LLM это в целом не про стабильный результат, так уж оно устроено. Если ваш вопрос не подразумевает совсем уж очевидного ответа, то почти все модели будет шатать от запроса к запросу в зависимости от построение вопроса/температуры/фазы луны.

drVit 26 фев в 16:57

Свежие модели достаточно стабильны. Во всяком случае, в темах, где не может быть сильно отличающихся и при этом одновременно правильных ответов, как в гуманитарных "что имел в виду автор произведения...".

venanen 25 фев в 12:30

Я правильно понимаю, что основа - это Qwen?
И если да, я правильно понимаю, что вы взяли Qwen под апачем, дообучили, потом выложили в open-source неюзабельную модель без инстракта под окирпичивающей лицензией, умышленно сделав использование open-source модели невозможным (до тех пор, пока ребята почестнее не дообучат инстракт), и выдав 20 бесплатных запросов в день в модель? И я бы понял, если бы это был прорыв типа о или о1, но там ведь даже ризонинга нет и говорить не о чем, потому что цензура обрубает вообще почти любые запросы.

P.S. Почитал лицензию, это как ваши собеседования - чисто вечерком посмеяться. Например, в 6 пункте:

Уникальная возможность стать юристом Яндекса

Вы обязуетесь защитить Яндекс и Аффилированных лиц и выступить на стороне Яндекс или Аффилированных лиц при предъявлении Яндексу или Аффилированным лицам претензий, требований, судебных исков третьими лицами («Претензии»), вытекающих из или связанных с использованием Вами Материалов (а также любых результатов или данных, полученные вследствие использования Материалов), а также всячески содействовать в урегулировании таких Претензий. Вы обязуетесь возместить Яндексу или Аффилированным лицам реальный документально подтвержденный ущерб, возникший в связи с Претензиями.

И в 10:

Не прокатило

Если какое-либо положение или часть положения Соглашения признается незаконным, недействительным или не имеющим законной силы, такое положение или его часть считаются исключенными из Соглашения и не влияют на действительность

Ставлю оценку 10 яндексов из 10.

kukutz 25 фев в 12:37

Вы поняли неправильно, рекомендую перечитать статью.

В статье речь про две разных модели, которые сварены разным образом и выложены сегодня в разных видах — опенсорс/по API/через веб.

Желаю вам хорошего дня и отличного настроения!

venanen 25 фев в 12:57

За настроение спасибо, поднялось.

В opensource выложена одна модель. Точнее даже не готовая модель, а претрейн. Под очень странной лицензией. Это не так? Мой коммент чисто про opensource.

API меня не интересует, потому что текущие закрытые модели на порядок лучше. А deepseek еще и дешевле в 3 раза и тарификацию имеет понятную, с оплатой за токен (не надо разбираться кто такой юнит, и зачем он вообще нужен).

Про веб я уже сказал - 20 запросов в день к модели, которая хуже даже 4o (а она уже далеко не топ), это как-то даже комично.

Не имею ничего против монетизации и разработок RND, и желаю успеха. Но выкладывание весов даже одной из лучших моделей в мире не мешает создателям зарабатывать (а там совсем другая весовая категория). Ребята из руадапта выкладывают классные модельки, тбанк, даже сбер.

drVit 25 фев в 13:37

Спасибо за ваши труды и поддержание высокого уровня специалистов в передовых технологиях в стране.
Однако, сравниваете вы в публикации YandexGPT 5 Pro, но выложили сильно сокращённую версию. Это подталкивает не самых внимательных читателей к ложному выводу. На практике для нынешних моделей можно только начинать думать об использовании, а не для "поиграться и забыть", начиная где-то с 32b. Хотя phi-4 пытается это утверждение сейчас и оспорить.
Что будет, если выложить YandexGPT 5 Pro - упадут продажи Алисы? Это вряд ли: желающих поиграться с pro-моделью (тем более, она по качеству сравнима с тем, что уже и так доступно) наберётся хорошо если тысяча-другая, и вряд ли они собирались покупать устройство с Алисой. Хорошо, когда люди проявляют "добрую волю" (естественно, понимая, что на длинном горизонте планирования это принесёт прибыль; конечно -- без прибыли в нынешнем капиталистическом мире и пальцем никто не шевелит, тут ни у кого иллюзий нет). Моя "добрая воля", например, заключается в том, что я исправно плачу за Яндекс+, но им почти не пользуюсь, рассматривая это как свой "добровольный вклад в развитие российских технологий". Впрочем, я бы вам лучше добровольно перевёл целевые деньги на покупку H200 (уже видел в продаже на яндекс-маркете), чтоб вы охотнее делились результатами своих интеллектуальных трудов с праздношатающейся общественностью -- это я про себя, так как запускаю и "тестирую" модели уже который год пока исключительно из любопытства, но вижу их быстрый рост и надеюсь скоро получать от этого хоть какую-нибудь помощь, отсюда и готовность к "инвестициям" в приятной и не обязывающей никого форме вида "добровольное пожертвование".

cydoroga 25 фев в 14:04

В публикации ведь есть сравнение и для lite модели.

EasyGame 25 фев в 13:44

Решил попробовать локальную лайт версию. Она весьма порадовала:

Скрытый текст

kukutz 25 фев в 14:15

Привет, pretrain отличается от instruct версии ровно тем, что не умеет отвечать на вопросы и вести диалог, он умеет, грубо говоря, продолжать начатый текст.

Как он будет отвечать на вопросы и вести диалог, зависит от alignment, ровно того, что отличает instruct версию от pretrain.

avelor 26 фев в 01:41

а это точно локально развёрнутая модель? а то рисуется бедный Олег на цепи в подвалах яндекса, который вот как раз стукнули дубинкой, за то что спалился

AlexBogatyrev 25 фев в 13:52

На strawberry заглушку поставили ?) Смешно)

Arteevil 25 фев в 14:05

Вот так отвечает. Не понимает про буквы

bezdnacom 25 фев в 14:12

Смешно видеть в тысячный раз попытку у token-based модели спрашивать что-то про состав слов и буквы. Хотя нет, уже не смешно, уже надоело. Вы бы еще попросили LLM что-нибудь посчитать.

venanen 25 фев в 14:24

Она, по логике, считать тоже не умеет. Однако, внезапно выяснилось, что с повышением параметров и ризонингом считает очень даже ничего - буквально вчера с первой попытки верно посчитала кто кому сколько должен в компании из четырех человек с закупкой в трех разных местах с разными ценниками и учетом того, что один из четырех не пил. /

А теперь про состав слов:

bezdnacom 25 фев в 14:28

У Яндекса нет Reasoning модели

venanen 25 фев в 15:06

А как связаны ризининг и token-based? Или deepseek не token-based?

bezdnacom 25 фев в 15:12

Reasoning позволяет обходить некоторые ограничения токенов. Сравнивать Deepseek-R1 и YandexGPT это как сравнивать обычный двигатель с двигателем с турбонаддувом.

venanen 25 фев в 15:16

Погодите. Исходная цитата ваша:

Смешно видеть в тысячный раз попытку у token-based модели спрашивать что-то про состав слов и буквы. Хотя нет, уже не смешно, уже надоело. Вы бы еще попросили LLM что-нибудь посчитать.

Я показал, что token-based умеет не просто считать, а считать и буквы в словах, и в целом неплохо оперирует математикой. Не надо смещать тезис.
К слову ответ дипсика без ризонинга, но нестабильно:

Скрытый текст

Давайте посчитаем количество букв «р» в фразе «бронетранспортёр с рефрижератором»:

б - 0
р - 1
о - 0
н - 0
е - 0
т - 0
р - 2
а - 0
н - 0
с - 0
п - 0
о - 0
р - 3
т - 0
ё - 0
р - 4
с - 0
р - 5
е - 0
ф - 0
р - 6
и - 0
ж - 0
е - 0
р - 7
а - 0
т - 0
о - 0
р - 8
о - 0
м - 0

Итого, буква «р» встречается 8 раз.

\boxed{8}

bezdnacom 25 фев в 15:24

без ризонинга, но нестабильно

Ну так про что и речь была

Про ограничения не я говорю, это общий консенсус. Полностью от них избавится, продолжая использовать токены, скорее всего невозможно.

gfiopl8 25 фев в 14:57

Уже довольно давно все крупные ллм отвечают на вопросы по математике одинаково, раньше ответы были разные(явно кто то врал), а теперь или не врут или сговорились, научились считать.

bezdnacom 25 фев в 15:14

Много чего добавилось: улучшили датасет, добавили tool-calling и reasoning чтоб обходить ограничения token-based моделей.

Hardcoin 26 фев в 05:41

Проблема математики не в токенах. Модели умеют разбивать составной токен на единичные буквы/цифры

bezdnacom 26 фев в 09:08

Посмотрите видео-лекцию от Andrej Karpathy, которую я прикрепил выше. Там есть подробный разбор недостатков токенизации и почему модели плохо считают.

kgbplus 25 фев в 15:49

Ну вот кстати Алиса правильно перемножает трех и четырехзначные числа. По крайней мере те, что я пробовал

Ingref 25 фев в 19:29

Grok с такими задачами успешно справляется без режима Think:

Grok

Давай посчитаем буквы в слове "deepseek" и выясним, сколько раз встречается буква "е".

Слово: deepseek
Разложим по буквам: d-e-e-p-s-e-e-k

Теперь считаем "е":

2-я буква: e
3-я буква: e
6-я буква: e
7-я буква: e

Итого: буква "е" встречается 4 раза.

Ответ: в слове "deepseek" 4 буквы "е".

А у дипсика есть DeepSeekMath, которая как раз считает. Просто одно дело, когда у создателей модели есть цель заставить её считать, а другое дело, когда такой цели не ставилось (или она была второстепенной).

molareg497 25 фев в 14:03

А почему в статье нет сравнения с DeepSeek, СhatGPT? Проверил на идентичных запросах (не простых), от яндекса получил просто какой то сюр, не иначе.

Неужели это недоразумение ДЕЙСТВИТЕЛЬНО заслуживает отдельной статьи с описанием, формулами и таблицами?

Более того, я об этом узнал из новостных изданий.. Дело конечно ваше, но такое в публику выставлять мне было бы стыдно.

drVit 25 фев в 14:18

Если посмотреть, сколько вычислительных мощностей доступно авторам этой статьи, и сколько -- исследователям из стран, где делают упомянутые DeepSeek и СhatGPT, то станет понятно, что стыдиться, в общем-то, нечего. Люди работают на том, что есть.
Что поделать, передовые микросхемы делают всего на одном острове, причём делают без преувеличения всем миром.

venanen 25 фев в 14:25

Уж у кого у кого, а у яндекса мощностей горадо больше, чем у многих. У них огромный вычислительный кластер есть.

sloww 26 фев в 09:23

Вроде бы этот кластер Nebius отошел совсем не ру-Яндексу при распиле компании на части, так что я бы не был так уверен про их мощности.

sdramare 25 фев в 21:49

У яндекса есть собственный вычислительный кластер и дешевое, в сравнении с сша, электричество. Проблема явно не в ресурсах.

Hardcoin 26 фев в 05:45

Наоборот. Проблема явно в ресурсах. «Собственный вычислительный кластер» во сколько раз меньше? В десять?

Прорывов на уровне маленьких моделей от них тоже не видно, но запрос руководства наверняка на нишу больших моделей, а не локальный технический прорыв (руководство, это тоже проблема, но проблемы ресурсов это не отменяет)

Liuis 3 мар в 16:33

Если мало ресурсов, логично делать что-то, что их не требует. Например, крутую маленькую модель, которая влезет в телефон. Да, она будет уступать топовым, но в этом есть понятная ценность. Зачем делать модель, которая как топовая, только хуже — непонятно.

mithdradates 25 фев в 15:20

Так мы и сделали: инициализировали наш пайплайн обучения не случайными весами, а весами модели Qwen-2.5-32B-base

Не совсем понял - т.е. YandexGPT 5 Pro это глубокий файнтюн Qwen 2.5 32B?

Мелкая модель 8b выглядит весьма интересно по бенчмаркам, но без инстракта пока не сильно юзабельно.

kukutz 25 фев в 15:27

Претрейн поверх претрейна не называется файнтьюн.

Tutufa 25 фев в 15:42

Если это не knowledge transfer, то что это? А если это knowledge transfer, то тогда очень даже файнтьюн.

mithdradates 25 фев в 16:06

Ну пусть будет инициализация весами Qwen 2.5 32b (в любом случае - трансфер), т.е. архитектура под ней это Qwen 2.5 32b?

Интересна абляция с использованием только их претрейна - да, в статье упомянуто что когда вы добавляли ваши претрейн данные, то росли результаты бенчмарков, но на финальном сравнении видно, что это справедливо только для русскоязычных бенчей и DROP'а. Отсюда и вопрос - чем такой подход лучше файнтюна? Меньше проседают метрики на других бенчах? А если обучаться только на вашем претрейн корпусе, то это тоже строго хуже? Было бы интересно послушать, если не под NDA.

Кстати, а Lite модель тогда на базе чего? Судя по кол-ву параметров - это LLaMA 3.1, но разве у них лицензия не обязывает всем моделям ставить приписку LLaMA?

Tutufa 25 фев в 15:38

Roses are red Violets are blue There is always An Asian better than you.

Akr0n 25 фев в 16:16

Хотелось бы пощупать instruct на ollama.com, надеюсь, выложите.

YandexGPT 5 Lite 8B Pretrain тоже бы туда залить.

falldown 25 фев в 16:30

О, ещё одна моделька от ру-крупняка в открытом доступе. Интересно было бы сравнить на тестах с такой же лайт версией T-lite от команды т-банка. Она тоже на HF лежит, если кто-то займётся сравнением.

bezdnacom 25 фев в 16:46

Интересно было кстати сравнить с файнтюнами Qwen и Nemo от Vikhr: https://huggingface.co/Vikhrmodels

drVit 26 фев в 16:55

Судя по размеру моделей, эти ребята сидят на голодном пайке. Да уж, сложно конкурировать без ресурсов...

lightman 25 фев в 19:05

Я казуальный пользователь Яндекс Станции, какие-то глубокими ИИ фичами не пользуюсь, но испытываю проблему с простейшим функционалом - поставить нужную мне песню. Колонка часто ставит не ту. Причём, в том числе, когда постановка идёт текстом из сценария, так что неверное распознавание речи исключено. Что характерно, проблема плавающая. Станция несколько дней ставит верную песню. Потом несколько дней неверную. И так по кругу. Пробовал подключать подписку Pro - не помогло.

Вопрос 1. Это обновление как-то поможет в улучшении определении песни, которая нужна пользователю?

Вопрос 2. Можете в сценарии добавить возможность указывать ссылку на песню на Яндекс-Музыке или там её числовой ID? Чтобы раз и навсегда пресечь проблему постановки неправильной песни

Theio 25 фев в 19:21

Нет open source инструкт модели, неинтересно. Да и выложенная base с такой лицензией на OS слабо тянет. Думал протестить в нашем пайплайне файнтюна на добавление аудио модальности, но в таком формате смысла не вижу время тратить, останусь на квен/t-lite.

Aleksei_7bc 25 фев в 22:37

Задал следующий промпт (по мотивам домашки с дочкой):

Через точку М, взятую на медиане AD треугольника ABC, и вершину В проведена прямая, пересекающая сторону АС в точке К. Найдите отношение AK/KC если М — середина отрезка AD. Создай html код Android для визуализации задачи.

Deepseek:

Все вершины и точку M можно двигать. Соотношения пересчитываются.

Yandex 5 pro:

Deepseek просто поразил, если честно...

Скрытый текст

<!DOCTYPE html>

<html>

<head>

<title>Геометрическая задача</title>

<style>

* {

margin: 0;

padding: 0;

box-sizing: border-box;

}

body {

overflow: hidden;

touch-action: none;

background: #f5f5f5;

font-family: Arial, sans-serif;

}

canvas {

position: fixed;

touch-action: none;

}

.description {

position: fixed;

top: 15px;

left: 15px;

right: 15px;

background: rgba(255,255,255,0.95);

padding: 15px;

border-radius: 10px;

font-size: 14px;

line-height: 1.4;

box-shadow: 0 3px 8px rgba(0,0,0,0.15);

z-index: 100;

}

.ratio-container {

position: fixed;

top: 160px;

left: 15px;

display: flex;

flex-direction: column;

gap: 10px;

z-index: 100;

}

.ratio-box {

background: rgba(255,255,255,0.95);

padding: 12px 18px;

border-radius: 8px;

font-size: 16px;

box-shadow: 0 2px 6px rgba(0,0,0,0.1);

min-width: 140px;

}

</style>

</head>

<body>

Через точку М, взятую на медиане AD треугольника ABC, и вершину В проведена прямая,

пересекающая сторону АС в точке К. Найдите отношение AK/KC при различных отношениях AM/MD

</div>

</div>

const canvas = document.getElementById('mainCanvas');

const ctx = canvas.getContext('2d');

const akKcSpan = document.getElementById('ak-kc');

const amMdSpan = document.getElementById('am-md');

// Инициализация размеров

function initSizes() {

canvas.width = window.innerWidth;

canvas.height = window.innerHeight;

}

initSizes();

window.addEventListener('resize', initSizes);

// Конфигурация точек

const pointsConfig = {

A: {x: 0.2, y: 0.8, label: 'A'},

B: {x: 0.8, y: 0.8, label: 'B'},

C: {x: 0.5, y: 0.2, label: 'C'},

M: {t: 0.5, label: 'M'}

};

// Расчет абсолютных координат

function calculateAbsoluteCoords() {

const toAbs = (x, y) => ({

x: x * canvas.width,

y: y * canvas.height

});

const A = {...toAbs(pointsConfig.A.x, pointsConfig.A.y), label: 'A'};

const B = {...toAbs(pointsConfig.B.x, pointsConfig.B.y), label: 'B'};

const C = {...toAbs(pointsConfig.C.x, pointsConfig.C.y), label: 'C'};

// Медиана AD

const D = {

x: (B.x + C.x) / 2,

y: (B.y + C.y) / 2,

label: 'D'

};

// Позиция M на AD

const M = {

x: A.x + (D.x - A.x) * pointsConfig.M.t,

y: A.y + (D.y - A.y) * pointsConfig.M.t,

label: 'M'

};

return {A, B, C, D, M};

}

// Поиск пересечения прямых

function findIntersection(line1, line2) {

const [x1, y1, x2, y2] = line1;

const [x3, y3, x4, y4] = line2;

const denominator = (y4 - y3)*(x2 - x1) - (x4 - x3)*(y2 - y1);

if(Math.abs(denominator) < 0.001) return null;

const ua = ((x4 - x3)*(y1 - y3) - (y4 - y3)*(x1 - x3)) / denominator;

return {

x: x1 + ua*(x2 - x1),

y: y1 + ua*(y2 - y1)

};

}

// Основное обновление

function updateScene() {

const {A, B, C, D, M} = calculateAbsoluteCoords();

// Расчет отношений

const amMdRatio = pointsConfig.M.t / (1 - pointsConfig.M.t);

amMdSpan.textContent = amMdRatio.toFixed(2);

// Поиск точки K

const BM_line = [B.x, B.y, M.x, M.y];

const AC_line = [A.x, A.y, C.x, C.y];

const K = findIntersection(BM_line, AC_line);

// Обновление отношения AK/KC

if(K) {

const AK = Math.hypot(K.x - A.x, K.y - A.y);

const KC = Math.hypot(C.x - K.x, C.y - K.y);

akKcSpan.textContent = (AK/KC).toFixed(2);

}

renderScene(A, B, C, D, M, K);

}

// Отрисовка сцены

function renderScene(A, B, C, D, M, K) {

ctx.clearRect(0, 0, canvas.width, canvas.height);

// Рисование треугольника

ctx.beginPath();

ctx.moveTo(A.x, A.y);

ctx.lineTo(B.x, B.y);

ctx.lineTo(C.x, C.y);

ctx.closePath();

ctx.strokeStyle = '#34495e';

ctx.lineWidth = 4;

ctx.stroke();

// Медиана AD

ctx.setLineDash([10, 6]);

ctx.beginPath();

ctx.moveTo(A.x, A.y);

ctx.lineTo(D.x, D.y);

ctx.strokeStyle = '#7f8c8d';

ctx.stroke();

// Линия BM-K

if(K) {

ctx.setLineDash([]);

ctx.beginPath();

ctx.moveTo(B.x, B.y);

ctx.lineTo(K.x, K.y);

ctx.strokeStyle = '#e74c3c';

ctx.lineWidth = 3;

ctx.stroke();

}

// Отрисовка точек

const drawPoint = (point, color) => {

ctx.beginPath();

ctx.arc(point.x, point.y, 14, 0, Math.PI*2);

ctx.fillStyle = color;

ctx.fill();

ctx.strokeStyle = 'white';

ctx.lineWidth = 2;

ctx.stroke();

};

drawPoint(A, '#3498db');

drawPoint(B, '#2ecc71');

drawPoint(C, '#e67e22');

drawPoint(D, '#95a5a6');

drawPoint(M, '#9b59b6');

if(K) drawPoint(K, '#f1c40f');

// Подписи точек с умным позиционированием

ctx.fillStyle = '#2c3e50';

ctx.font = '16px Arial';

ctx.textBaseline = 'middle';

[A, B, C, D, M].forEach(p => {

let offsetX = 20;

let offsetY = 0;

// Особое позиционирование для точки C

if(p.label === 'C') {

offsetX = -25;

offsetY = 20;

ctx.textBaseline = 'top';

}

// Позиционирование для других точек

else {

ctx.textBaseline = 'middle';

}

ctx.fillText(p.label, p.x + offsetX, p.y + offsetY);

});

if(K) {

ctx.fillText('K', K.x + 20, K.y);

}

// Обработка касаний

let activePoint = null;

canvas.addEventListener('touchstart', (e) => {

const touch = e.touches[0];

const rect = canvas.getBoundingClientRect();

const x = (touch.clientX - rect.left) / rect.width;

const y = (touch.clientY - rect.top) / rect.height;

const {A, B, C, M} = calculateAbsoluteCoords();

const points = [

{key: 'A', x: A.x/canvas.width, y: A.y/canvas.height},

{key: 'B', x: B.x/canvas.width, y: B.y/canvas.height},

{key: 'C', x: C.x/canvas.width, y: C.y/canvas.height},

{key: 'M', x: M.x/canvas.width, y: M.y/canvas.height}

];

// Поиск ближайшей точки

const touchThreshold = 0.06;

let minDistance = Infinity;

points.forEach(point => {

const dx = x - point.x;

const dy = y - point.y;

const distance = Math.sqrt(dx*dx + dy*dy);

if(distance < touchThreshold && distance < minDistance) {

minDistance = distance;

activePoint = point.key;

}

});

canvas.addEventListener('touchmove', (e) => {

if(!activePoint) return;

e.preventDefault();

const touch = e.touches[0];

const rect = canvas.getBoundingClientRect();

const x = (touch.clientX - rect.left) / rect.width;

const y = (touch.clientY - rect.top) / rect.height;

if(activePoint === 'M') {

// Перемещение точки M вдоль AD

const {A, D} = calculateAbsoluteCoords();

const vecX = D.x - A.x;

const vecY = D.y - A.y;

const length = Math.hypot(vecX, vecY);

if(length === 0) return;

// Проекция точки касания на AD

const touchX = x * canvas.width - A.x;

const touchY = y * canvas.height - A.y;

const t = (touchX*vecX + touchY*vecY) / (length*length);

pointsConfig.M.t = Math.max(0, Math.min(1, t));

} else {

// Перемещение вершин треугольника

pointsConfig[activePoint].x = Math.max(0.1, Math.min(0.9, x));

pointsConfig[activePoint].y = Math.max(0.1, Math.min(0.9, y));

}

updateScene();

});

canvas.addEventListener('touchend', () => {

activePoint = null;

});

// Запуск приложения

updateScene();

</script>

</body>

</html>

drVit 26 фев в 16:50

Что такое html Android?
А обобщённое решение для произвольных чисел он смог найти?

Aleksei_7bc 26 фев в 18:40

Deepseek - да. Двумя способами: через подобие треугольников и методом координат с параметризацией. Затем я попросил нарисовать схему - отказ. Взамен я попросил код для отрисовки картинки (промпт в примере), но deepseek выдал интерактивную программку.

ratatosk 26 фев в 00:10

Интересно, а чтобы стартовать с весов Квена, взяли его токенизатор? Или как то придумали как их использовать со своим токенизатором?

Статья очень интересная, много классных идей! Вот бы еще репорт в формате ресерч статьи.

DmitrySukharev 26 фев в 00:43

Когда она уже научиться нормально произносить химические (и не только) формулы? Второй год прошу формулу этилового спирта, и опять последний аш не может произнести. Причём пишет корректно, но "язык", видимо, не поворачивается произнести. Или это запрещённая информация? )))

kukovik 26 фев в 17:51

Это потому, что она читает ее как английский текст. Это последнее "оу" в ее исполнении -- попытка прочитать "oh".
Спасибо за курьез, кстати. )

me21 26 фев в 22:34

По-английски колонка тоже читает с жутким русским акцентом, хотя что мешало нормальное произношение сделать?

gubkin7 26 фев в 06:41

А как вы сдружили свой токенайзер с претрейн весами Qwen или в этой версии эксперимента токенайзер тоже от Qwen?

andbout 26 фев в 14:48

Мы учили свой токенизатор. После этого доучивали квен с замороженными весами, кроме входных и выходных эмбеддингов, чтобы адаптировать модель к своему токенизатору.

Te0s 26 фев в 09:22

Компания яндекс везде прямо так такая классная, как она сама утверждает, но стоит присмотреться внимательнее и оказывается, что все как обычно уныло,

вот кейс к примеру мой из самых свежих:

Купил я колонку Яндекс мини, просил ребенок для сказок и т.д., так же меня уже самого заинтересовали как раз яндекс GPT, думаю попробую, ведь ChatGPT работает только через впн. Купил поставил, активировал, неприятным сюрпризом оказалось то что что работает она, только при купленной подписке, купил ее (но даже на этой стадии компания Яндекс отличилась, везде обещают месяц бесплатного пользования, но после покупки этот самый месяц никуда не добавился, и год подписки соответственно пошел с момента покупки, мелочь конечно, но осадочек то копится) и тут отказывается что везде рекламируемый у нас в РБ Yandex GPT (везде яндекс мне пихает эту рекламу когда я на него захожу) не работает в Республике Беларусь, у нас союзное государство и т.д., но вот сервисы Yandex GPT недоступны , как говорится "лес ===> там"
Я конечно предположу что компания яндекс это мелкая контора, которая конечно же не собирает с меня метрику, и не видит из какой страны я пользуюсь ее сервисами, и по ошибке пихает мне рекламу думая что я из РФ, но что то мне подсказывает что это не совсем так, и думается мне что им просто наплевать на меня как на клиента.
И потому читать такие новости как то обидно что ле, хотелось бы сказать компании: Вы сначала, хотя бы уберите наплевательское отношение к клиентам, для начала, а потом уже, успехами делитесь.

spacebudo 26 фев в 09:22

А могли бы Вы подробнее описать, чем пайплайн построения 32B версии отличается от Ruadapt? В частности, было бы полезно сравнение с RuadaptQwen2.5-32B-Pro-Beta / RuadaptQwen2.5-32B-Instruct, так как это модели с адаптированным токенайзером.

Klimovskii 26 фев в 09:22

Регулярно использую нейросетки для работы с текстами для широкого круга задач.

Алиса не выдерживает конкуренции даже с Le Chat. Сам не технарь, может контекст мал, может цензура по широкому кругу тем мешает, но тупит и зачастую отказывается отвечать на вопросы.

Pemini 26 фев в 09:22

Интересно, в какую сторону будет развиваться LLM-архитектура. Было бы круто, если бы LLM будущего обучились не как огромные хранилища знаний, а лишь самому «когнитивному процессу», а сами знания модель бы получала уже на этапе инференса с использованием RAG-систем. Чисто интуитивно как будто такая модель могла бы конкурировать по бенчмаркам с топовыми моделями, но была бы гораздо меньше по размеру за счет того, что веса не хранят «знания», а лишь извлекают образы из знаний на входе. Существует ли что-то подобное?

walker1 26 фев в 09:22

Много слов, а на деле яндекс колонка по-прежнему на фразу "французский шансон" включает Михаила Круга. Невзирая на претрейны и бенчмарки.

baverix 26 фев в 12:15

Вот, что на самом деле под капотом у YandexGPT 5 Pro:

Aykeye 26 фев в 19:22

"Опенсурсная" лицензия это цирк не имеющая с опенсорсом ничего общего. Ни open, ни даже source. Тем более ни open source ака

Самое смешное яндекс не несёт никакую ответственность, но как пользователь "Вы обязуетесь защитить Яндекс и Аффилированных лиц". Хорошая позиция. Теперь Яндекс может запустить модель на своём железе и не платить за все электричество - будут судить, претензии отправятся пользователям.

А перворожденных Яндексом еще не надо называть?

А ведь YaLM нормальным опенсорсом был.

Den-R 28 фев в 13:47

Если без негатива и посторонних суждений. С мелкой моделью полный порядок. И ведёт она себя именно как instruct, во всяком случае то, что я утянул с Хаггинга в виде GGUF-4k

Рекомендую проверенный темплит (для ollama):

TEMPLATE "{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>
"
PARAMETER stop <|im_start|>
PARAMETER stop <|im_end|>

Из всего русскоязычного в данной весовой категории - лучшее, что есть. Яндексу респект. Только несколько дней назад тихо матерился про себя - "Ну где же нормальные русские модели для потреб.железа?" И вот явилось. Круто, в общем

shurricken 28 фев в 17:55

А кто подскажет, большие тексты он может обрабатывать? Хотел потеститровать. Мне надо из кучи хроники документальную повесть написать. Перплексити справляется, но по 200 строк загружает куски, хотя понимает, что это продолжение предыдущего куска.
Думал может ЯЖПТ не хуже.. но не смог даже текст загрузить и добиться от него разъяснений, то пишет что можно файл, то нельзя, то пишет можно большой текст, то только совсем маленький.
Я не спец по ИИ, но вот с Перплексити с нуля смог. Но платить там за полный доступ нельзя, думал Яндексу денежку дать, .. ан нет, не хочет.

Dron007 1 мар в 23:35

Про-версия у меня недоступна, а базовый режим как-то с кодом вообще странно обходится. Вроде что-то и может - отсортировать массив, например, но когда попросил его написать код демки на js ответил "я пока не могу написать код демки на JavaScript." Почему? Это все модели как-то да делают.

PeterBach 2 мар в 12:01

Немного разочаровался в Про версии, в плане невозможности загрузки текстовых файлов для анализа. То есть теоретически загрузить файл можно - по прямой ссылке (быстрая ссылка на OneDrive не работает). Но эту ссылку еще создай и пойми какую Алиса "съест". Локальная модель при этом неплохо справляется переваривает относительно сложные текстовые документы, находя нужную информацию. При этом выдавая более развернутые ответы, чем Le Chat, которым пользовался до этого. Единственная нейросеть из тестируемых (локальных) которая смогла посчитать количество месяцев точнее всего.

shvez 4 мар в 15:02

Являясь пользователем Про версии хочу поделиться своими наблюдениями.
Так уж получилось, что мне надо переводить хинди с вкраплениями санскрита.
Самая последняя версия стала сильно лучше в перевода, но дип сик всё ещё лучше.
Вот примерчик запроса:

Сделай транскрипцию кириллицей и переведи на русский
गायत्री बहुनामांस्ति संयुक्ता देव शक्तिभिः ।
सर्वं सिद्धिषु व्याप्ता सा दृष्टा मुनिभ्राहिता॥

Вот ответ и мой коммент:

Транскрипция сделана не кириллицей (раньше меня вообще посылал). Число перевёл как 84, хотя там речь про 108 и в комментарии об этом и говорят в скобках. :). Должен признать, что только ДипСик перевёл сразу правильно: ни копилот, ни алиса ни мегачат не справились.

---------------------

Транскрипция :
tatra api ca sahasraṃ tu pradhāna parikīrtim |
aṣṭottaraśataṃ mukhyam teṣu proktaṃ maharṣibhiḥ ||

Перевод:
И там тысяча главных прославлений,
Из них восемьдесят четыре считаются главными,
О чём говорили великие мудрецы.

Комментарий:
Этот стих продолжает тему предыдущего, говоря о различных прославлениях (возможно, имён или аспектов божественного). Указывается особое значение числа 84 (аштауттарашатам - 108), которое в индуистской традиции считается священным числом. Упоминание великих мудрецов (махариши) подчеркивает, что это знание является частью древней духовной традиции и передано авторитетными учителями.
---------------------------

Ну а вообще молодцы. Большой прогресс

MrSndmn 31 мар в 15:38

Потокенный KL-штраф за отклонение от SFT-модели. Важно: во многих работах используется оценка Монте-Карло по одному токену, а мы выбрали именно честно посчитанный KL, и результаты получились куда лучше.

Что вы тут имеете в виду? Что такое "честно посчитанный KL" в этом контексте?

MrSndmn 31 мар в 15:58

Кажется, нашел ответ на этот вопрос в другой вашей статье - Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT под спойлером "Как посчитать KL-штраф"

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

zproxy.org