Тут действует правило zero tolerance. Если мы не можем хотябы в одном проценте случаев быть уверенными в том что на доступны настоящие "мысли" модели - мы не можем полагаться на то что это настоящие "мысли" во всех 100% случаев.
Это всё-равно что считать что вы знаете мои мысли, если я в дополнение к своим словам скажу "я думал так-то". Да, я мог думать так как я озвучил, а мог не думать. Моё заявление о том что я думал совершенно не повод считать что я думал. Единственное в чём вы можете быть уверенны - в том, что я хочу чтобы вы считали, что я думал так как сказал что думаю.
Они думают не в слух. То что выдаётся в качестве "рассуждения" не более чем имитация для пользователя. С настоящим рассуждением происходящим в нейросети этот текст связан весьма условно
Гугл оооочень запоздали в ИИ гонке, хотя фактически они изобрели GPT.
Но сейчас наваливают не по детски. Они и догнали и перегнали всех своих конкурентов и сейчас конкурируют(не проигрывают!) лишь в интеллекте, но уничтожают всех и вся в скорости и стоимости.
В open webui есть кнопка "продолжить". Работает превосходно. За счёт неё и контекстного окна в 1кк токенов способно генерировать гигантские консистентные артефакты вроде конфигов или например sql дампов
мотивирующий рассказ накропал некий гомо сапиенс...
Нет, этот текст явно целиком или как минимум на 90% написан нейросетью. Очень нейросетевая стилистика. Скорее всего GPT написал это по мотивам исходной истории в 2-3 предложения от автора-человека, технически не сведущего в теме. А человек скорее всего услышал её от технаря, который в этом участвовал.
Метод. self-consistency не работает на ChatGPT, так как openai использует кеширование. Соответственно если ты три раза подряд задашь без паузы в несколько часов один тот же вопрос - получишь три примерно одинаковых ответа. Если в первом была галлюцинация - в остальных двух она так же будет присутствовать
Несколько раз собесили молодых людей ~19 лет идущих на высокие позиции (сеньор/лид). Всегда была надежда на юных гениев. И мысли что мы мол не эйджисты и оценивать будем за знания, а не стаж, который у всех нарисован всё-равно. И каждый раз разочарование - не способность ответить на базовые вопросы по программированию 🤷
Почему нам эти семнадцатилетние гении не попадаются? С другой стороны гениальность этого парня для меня пока только на словах. Не известно как он покажет себя в деле.
Это математическая игра, напоминающая 2048 (если кто-то еще помнит). В ней вы взаимодействуете с трехмерным кубиком. У вас есть всего три действия.
поворот кубика
соединение сторон с одинаковыми числами. Ключевой стороной является передняя. Если вы нажимаете стрелки ⬆️, ⬇️, ⬅️ или ➡️ на клавиатуре, или свайпаете на телефоне, то:
если та сторона отличается - 🎲 крутится в эту сторону.
если совпадает - она увеличивается на 1, а на передней появляется случайное число.
кнопка «+1» - увеличивает значение передней стороны на 1, но у нее ограниченное количество нажатий. Начиная с 5️⃣, за каждое следующее число получаете ещё одно её нажатие.
Правила просты, но добраться до 🔟 уже весьма сложно. 🏆 Для киберкатлетов в конце каждой попытки есть лидерборд с пятью лучшими результатами за месяц.
Исходники открыты, и пусть мне за них немного стыдно, я оправдываюсь тем, что их писал ИИ. Ссылка на них на экране лидерборда
У нас в компании используется ИИ для категоризации лидов. Реальный процент ошибок на практике в бою: 5-10%. Есть необычная статистика: хуже всего он справляется в понедельник и лучше всего в четверг.
Такой процент ошибок уже позволяет его использовать в действующих бизнес процессах.
А в кейсе из статьи есть шикарный читкод: возможность проверки, корректировки и подтверждения заказа автором - это нивелирует ошибку
Есть ли у MCP RBAC?
Тут действует правило zero tolerance. Если мы не можем хотябы в одном проценте случаев быть уверенными в том что на доступны настоящие "мысли" модели - мы не можем полагаться на то что это настоящие "мысли" во всех 100% случаев.
Это всё-равно что считать что вы знаете мои мысли, если я в дополнение к своим словам скажу "я думал так-то". Да, я мог думать так как я озвучил, а мог не думать. Моё заявление о том что я думал совершенно не повод считать что я думал. Единственное в чём вы можете быть уверенны - в том, что я хочу чтобы вы считали, что я думал так как сказал что думаю.
https://www.anthropic.com/research/reasoning-models-dont-say-think
Они думают не в слух. То что выдаётся в качестве "рассуждения" не более чем имитация для пользователя. С настоящим рассуждением происходящим в нейросети этот текст связан весьма условно
А в чём разница двух реализаций описанных в статье?
Гугл оооочень запоздали в ИИ гонке, хотя фактически они изобрели GPT.
Но сейчас наваливают не по детски. Они и догнали и перегнали всех своих конкурентов и сейчас конкурируют(не проигрывают!) лишь в интеллекте, но уничтожают всех и вся в скорости и стоимости.
В open webui есть кнопка "продолжить". Работает превосходно. За счёт неё и контекстного окна в 1кк токенов способно генерировать гигантские консистентные артефакты вроде конфигов или например sql дампов
Нет, этот текст явно целиком или как минимум на 90% написан нейросетью. Очень нейросетевая стилистика. Скорее всего GPT написал это по мотивам исходной истории в 2-3 предложения от автора-человека, технически не сведущего в теме. А человек скорее всего услышал её от технаря, который в этом участвовал.
Метод. self-consistency не работает на ChatGPT, так как openai использует кеширование. Соответственно если ты три раза подряд задашь без паузы в несколько часов один тот же вопрос - получишь три примерно одинаковых ответа. Если в первом была галлюцинация - в остальных двух она так же будет присутствовать
Со всем уважением к автору и восхищением его упорству
Несколько раз собесили молодых людей ~19 лет идущих на высокие позиции (сеньор/лид). Всегда была надежда на юных гениев. И мысли что мы мол не эйджисты и оценивать будем за знания, а не стаж, который у всех нарисован всё-равно.
И каждый раз разочарование - не способность ответить на базовые вопросы по программированию 🤷
Почему нам эти семнадцатилетние гении не попадаются? С другой стороны гениальность этого парня для меня пока только на словах. Не известно как он покажет себя в деле.
Хочу немного похвастаться своим новогодним пет-проектом в виде telegram бота с miniapp:
https://t me/titulus_cubegame_bot ← ссылка на бота
Это математическая игра, напоминающая 2048 (если кто-то еще помнит). В ней вы взаимодействуете с трехмерным кубиком. У вас есть всего три действия.
поворот кубика
соединение сторон с одинаковыми числами. Ключевой стороной является передняя. Если вы нажимаете стрелки ⬆️, ⬇️, ⬅️ или ➡️ на клавиатуре, или свайпаете на телефоне, то:
если та сторона отличается - 🎲 крутится в эту сторону.
если совпадает - она увеличивается на 1, а на передней появляется случайное число.
кнопка «+1» - увеличивает значение передней стороны на 1, но у нее ограниченное количество нажатий. Начиная с 5️⃣, за каждое следующее число получаете ещё одно её нажатие.
Правила просты, но добраться до 🔟 уже весьма сложно.
🏆 Для киберкатлетов в конце каждой попытки есть лидерборд с пятью лучшими результатами за месяц.
Исходники открыты, и пусть мне за них немного стыдно, я оправдываюсь тем, что их писал ИИ. Ссылка на них на экране лидерборда
Ооо мои переписки с братюнями многому научат ИИ 😅
Это ваши личные галлюцинации, а не очевидные факты
Такое ощущение, что ваши дети не спрашивают вас "почему стул - нога арбуз?" или "зачем какашка?"
Полтора года в ИИ - это вечность.
ChatGPT и Claude сегодня отлично справляются с саммаризацией
Спасибо за статью. Добавьте пожалуйста пару-тройку скриншотов - примеров работы. Для наглядности
А можете пожалуйста раскрыть технические детали?
ИТ. Возможно дело в трафике, слишком дорого проверять. Но если честно, сомневаюсь. Трафик слишком случайный, чтобы у него была такая специфика
MDN не стандарт, а интерпретация с обязательными ошибками интерпретатора
У нас в компании используется ИИ для категоризации лидов. Реальный процент ошибок на практике в бою: 5-10%.
Есть необычная статистика: хуже всего он справляется в понедельник и лучше всего в четверг.
Такой процент ошибок уже позволяет его использовать в действующих бизнес процессах.
А в кейсе из статьи есть шикарный читкод: возможность проверки, корректировки и подтверждения заказа автором - это нивелирует ошибку