Так autofocus - это же плохая практика с точки зрения самой a11y Линтеры и проверки так говорят Хотя и раздражает, конечно, когда его нет на очевидной странице
Да, у меня сложилось такое же впечатление, что Мистралю нужен контекст побольше и получше - возможно, его AI / ML функции тогда и включаются.
Чуть изогнутый текст - отказ. Я уже использую Tesseract утилиту для определения ориентации текста и предварительного поворота. Еще у меня на Андроиде есть ClearScaner программка, вот она очень круто все такие искажения исправляет - из фото под углом прям почти чисто скан получается. Но утилиты под Линукс такой не знаю, а она была была прям в самый раз для нормализации
Надеюсь, Мистраль будет дорабатывать свою OCR. Её можно хорошо так улучшить с помощью AI.А FineReader уже никуда не улучшишь )
В боте добавил для фолбэка обычную LLM (Gemini Flash)
Интересный бот. Про Обсидиан тоже думал, но не у него облачного API ), а локально держать открытым процесс неудобно (да еще и на телефоне)
Mistral OCR мне в принципе нравится, использую для изображений и PDF (медицинские документы). И показалась ощутимо лучше локального Tesseract Но конкретно для этого бота, наверно, добавлю обычную LLM в качестве фолбэка Щепетильна Мистраль ко входу Целый документ распознает, а четверть его - нет (как в примере в комментариях выше)
Бот никак не пред-обрабатывает изображения. Если текст не обнаружен - значит Mistral OCR не смогла его найти. У нее есть ограничения по качеству документа.
Я сейчас хорошенько потестировал и Gemini flash litе, как у вас и сам Gemini flash
Тестировал на несложном медицинском анализе с таблицей на три строки
И получил совсем противоположные результаты по искажению. Gemini flash ломал структуру таблицы, вытаскивая из нее из определенной ячейки данные и показывая совсем в другом месте, какими бы промптами я его не просил так не делать. Ему казалось, видимо, что по смыслу они относятся к "подписи", которая была под таблицей. Также переносил данные одной ячейки в другую.
Mistral OCR возвращал всегда одну и ту же markdown таблицу, где все данные были в своих ячейках
Отсканированные пачки документов часто содержат кривой и вообще набок положенный текст, мистраль ocr его как картинки обрабатывает, вставляет в текст надпись <тут картинко>
Ну, как бы, да - нету открытых, и бесплатных, и такого качества
Такое точно лучше специализированными обученными моделями парсить
Но почему не попробовать )
Полторы тонны
10КВ ввод
Ничего космического
Вот именно!
Автор как-то упускает расчет своей возможной траектории, если бы Youtube не дал в один прекрасный момент рекомендацию
Что бы было?
Наверное, канал на 5000 пользователей, три лекции в неделю в университете и почти написанная докторская
И вся остальная лирика из статьи в мечтах
Так autofocus - это же плохая практика с точки зрения самой a11y
Линтеры и проверки так говорят
Хотя и раздражает, конечно, когда его нет на очевидной странице
Айтишник-фрилансер у компа проводит больше времени
И геморрой со сколиозом и прочим придут быстрей похорон у курьера
Забыли
5. Христианские устои (любовь и сострадание)
6.Марксистские принципы (социальная справедливость)
Такая вещь должна быть не в чат боте, а в инструменте, с которым ты работаешь
Она есть, например, в Supabase
Я все жду, когда она появится в HeidiSQL, но, наверно, не дождусь...
Благодарю за исследование!
Да, у меня сложилось такое же впечатление, что Мистралю нужен контекст побольше и получше - возможно, его AI / ML функции тогда и включаются.
Чуть изогнутый текст - отказ. Я уже использую Tesseract утилиту для определения ориентации текста и предварительного поворота. Еще у меня на Андроиде есть ClearScaner программка, вот она очень круто все такие искажения исправляет - из фото под углом прям почти чисто скан получается. Но утилиты под Линукс такой не знаю, а она была была прям в самый раз для нормализации
Надеюсь, Мистраль будет дорабатывать свою OCR. Её можно хорошо так улучшить с помощью AI.А FineReader уже никуда не улучшишь )
В боте добавил для фолбэка обычную LLM (Gemini Flash)
Спасибо
Интересный бот. Про Обсидиан тоже думал, но не у него облачного API ), а локально держать открытым процесс неудобно (да еще и на телефоне)
Mistral OCR мне в принципе нравится, использую для изображений и PDF (медицинские документы). И показалась ощутимо лучше локального Tesseract
Но конкретно для этого бота, наверно, добавлю обычную LLM в качестве фолбэка
Щепетильна Мистраль ко входу
Целый документ распознает, а четверть его - нет (как в примере в комментариях выше)
Вторая картинка - это результат Gemini, его не надо распознавать
Ок, давай пробовать
Вот эта картинка, оригинал (почти)
Openrouter FlashLite 2.0, твой промпт:
Видишь поломанное?
Теперь Mistral OCR
Вот эти "закорючки" потом LLM прекрасно понимаются при повторном анализе для перевода данных в json
Главное - структура таблицы правильная
Ну а вот мне для анализов медицинских очень важно где что стоит
У статьи нулевой рейтинг, в комментах - негатив, не вижу смысла, чтобы тратить время на развертывание публичного репозитория
Вон, человек ниже сказал, что такой бот за 3 минуты пишется
Бот никак не пред-обрабатывает изображения. Если текст не обнаружен - значит Mistral OCR не смогла его найти. У нее есть ограничения по качеству документа.
И, да, повернутый набок текст она не понимает
Я сейчас хорошенько потестировал и Gemini flash litе, как у вас и сам Gemini flash
Тестировал на несложном медицинском анализе с таблицей на три строки
И получил совсем противоположные результаты по искажению. Gemini flash ломал структуру таблицы, вытаскивая из нее из определенной ячейки данные и показывая совсем в другом месте, какими бы промптами я его не просил так не делать. Ему казалось, видимо, что по смыслу они относятся к "подписи", которая была под таблицей. Также переносил данные одной ячейки в другую.
Mistral OCR возвращал всегда одну и ту же markdown таблицу, где все данные были в своих ячейках
Скрытый текст
Для данного бота это не критично, для других моих приложений - критично.
Недетерминированность LLM при распознавании изображений и генерации - известный факт, и полагаться на них при работе с подобными документами нельзя.
А сколько будет стоить распознать 1000 страниц А4 на GPT-4o?
Вы сравниваете инструменты из разных ценовых ниш и для разного применения (если у вас текст как угодно может идти)
А кто такой текст хорошо обработает?
Слова "в России", "безопасно" и "война" в одном предложении - постмодерновый оксюморон
Пройдите, гражданин, для составления протокола об административном правонарушении с уплатой штрафа в 30 тысяч рублей
Когда статьи с помощью AI генерят, уже вроде как-то привыкли
Но когда и комментарии... (((
Вы отстали от жизни. Это бренд региона. Ей губернатор на вертолёте отправляет провизию.
Почему нет?
Красиво, и семантика есть.