Comments / Profile of gmtd / Habr

Руслан @gmtd

Software engineer / vue-faq.org

ProfileArticles47Posts26News2Comments1.1K

Распознавание рукописного текста некоторыми бесплатными LLM

gmtd Apr 2 at 03:08

Ну, как бы, да - нету открытых, и бесплатных, и такого качества

Look

Распознавание рукописного текста некоторыми бесплатными LLM

gmtd Apr 1 at 10:54

Такое точно лучше специализированными обученными моделями парсить

Но почему не попробовать )

Look

Сразу же после BYD свои сверхбыстрые зарядные станции для электромобилей анонсировали Huawei и Zeekr

gmtd Apr 1 at 06:37

Полторы тонны
10КВ ввод
Ничего космического

Look

Как я набрал миллион подписчиков на Ютубе. История одного преподавателя

gmtd Apr 1 at 06:19

Вот именно!

Автор как-то упускает расчет своей возможной траектории, если бы Youtube не дал в один прекрасный момент рекомендацию

Что бы было?

Наверное, канал на 5000 пользователей, три лекции в неделю в университете и почти написанная докторская

И вся остальная лирика из статьи в мечтах

Look

Тёмная тема не для всех: о чём молчит веб-разработка, когда речь заходит об этике и доступности

gmtd Mar 29 at 09:16

Так autofocus - это же плохая практика с точки зрения самой a11y
Линтеры и проверки так говорят
Хотя и раздражает, конечно, когда его нет на очевидной странице

Look

Бросаем IT ради доставки или нет: сколько на самом деле зарабатывают курьеры

gmtd Mar 29 at 06:25

Айтишник-фрилансер у компа проводит больше времени

И геморрой со сколиозом и прочим придут быстрей похорон у курьера

Look

Метод контекстного самоисследования ИИ: прорыв в...

gmtd Mar 28 at 05:21

Забыли

5. Христианские устои (любовь и сострадание)

6.Марксистские принципы (социальная справедливость)

Look

Представлен первый AI-бот для работы с PostgreSQL на естественном языке

gmtd Mar 28 at 05:14

Такая вещь должна быть не в чат боте, а в инструменте, с которым ты работаешь

Она есть, например, в Supabase

Я все жду, когда она появится в HeidiSQL, но, наверно, не дождусь...

Look

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

gmtd Mar 26 at 14:02

Благодарю за исследование!

Да, у меня сложилось такое же впечатление, что Мистралю нужен контекст побольше и получше - возможно, его AI / ML функции тогда и включаются.

Чуть изогнутый текст - отказ. Я уже использую Tesseract утилиту для определения ориентации текста и предварительного поворота. Еще у меня на Андроиде есть ClearScaner программка, вот она очень круто все такие искажения исправляет - из фото под углом прям почти чисто скан получается. Но утилиты под Линукс такой не знаю, а она была была прям в самый раз для нормализации

Надеюсь, Мистраль будет дорабатывать свою OCR. Её можно хорошо так улучшить с помощью AI.А FineReader уже никуда не улучшишь )

В боте добавил для фолбэка обычную LLM (Gemini Flash)

Look

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

gmtd Mar 26 at 10:01

Спасибо

Интересный бот. Про Обсидиан тоже думал, но не у него облачного API ), а локально держать открытым процесс неудобно (да еще и на телефоне)

Mistral OCR мне в принципе нравится, использую для изображений и PDF (медицинские документы). И показалась ощутимо лучше локального Tesseract
Но конкретно для этого бота, наверно, добавлю обычную LLM в качестве фолбэка
Щепетильна Мистраль ко входу
Целый документ распознает, а четверть его - нет (как в примере в комментариях выше)

Look

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

gmtd Mar 26 at 08:06

Вторая картинка - это результат Gemini, его не надо распознавать

Ок, давай пробовать

Вот эта картинка, оригинал (почти)

Openrouter FlashLite 2.0, твой промпт:

### **Врач**

| **Исследования**        | **Результат** | **ед/изм** | **норма/ед**                             |
| ----------------------- | ------------- | ---------- | ----------------------------------------- |
| **Витамин B12 (B12)**   | 617,40        | пг/мл      | новорожденные: 160-1300                   |
|                         |               |            | взрослые: 200-835                       |
|                         |               |            | Взрослые старше 60 лет: 110-800         |
|                         |               |            |                                           |
|                         |               |            | новорожденные: 160-1300                   |
| **Фолиевая кислота (B9)** | 500,70        | пг/мл      | взрослые: 200-835                       |
|                         |               |            | Взрослые старше 60 лет: 110-800         |
| **Ферритин**            | A09.05.076    | 74,60      | Hr/мл    |
|                         |               |            | М: 22-346     |
|                         |               |            | Ж: 10-147     |

### **Интерпретацию полученных результатов проводит врач в совокупности с данными анамнеза, клиническими данными и результатами других диагностических исследований.**

### **Дата исследования**
24.03.2025г

### **Исследовал**
```markdown

Видишь поломанное?

Теперь Mistral OCR

| Исследования |  | Результат | ед\/изм | норма\/ед |
| :--: | :--: | :--: | :--: | :--: |
| Витамин B12 (B12) |  | 617,40 | $\\mathrm{nr} \/ \\mathrm{MJ}$ | новорожденные: 160-1300 <br> взрослые: 200-835 <br> Взрослые старше 60 лет: 110-800 |
| Фолиевая кислота (B9) |  | 500,70 | $\\mathrm{nr} \/ \\mathrm{MJ}$ | новорожденные: 160-1300 <br> взрослые: 200-835 <br> Взрослые старше 60 лет: 110-800 |
| Ферритин | A09.05.076 | 74,60 | $\\mathrm{Hr} \/ \\mathrm{MJ}$ | $\\begin{aligned} & \\text { M- } 22-346 \\\\ & \\text { W-10-147 } \\end{aligned}$ |

Интерпретацию полученных результатов проводит врач в совокупности с данными анамнеза, клиническими данными и результатами других диагностических исследований.

Дата исследования
24.03.2025г

Вот эти "закорючки" потом LLM прекрасно понимаются при повторном анализе для перевода данных в json

Главное - структура таблицы правильная

А надо вытащить именно текст что бы его проиндексировать, расположение не так важно для поиска.

Ну а вот мне для анализов медицинских очень важно где что стоит

Look

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

gmtd Mar 26 at 06:49

У статьи нулевой рейтинг, в комментах - негатив, не вижу смысла, чтобы тратить время на развертывание публичного репозитория

Вон, человек ниже сказал, что такой бот за 3 минуты пишется

Look

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

gmtd Mar 26 at 06:05

Бот никак не пред-обрабатывает изображения. Если текст не обнаружен - значит Mistral OCR не смогла его найти. У нее есть ограничения по качеству документа.

И, да, повернутый набок текст она не понимает

Look

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

gmtd Mar 26 at 06:00

Я сейчас хорошенько потестировал и Gemini flash litе, как у вас и сам Gemini flash

Тестировал на несложном медицинском анализе с таблицей на три строки

И получил совсем противоположные результаты по искажению. Gemini flash ломал структуру таблицы, вытаскивая из нее из определенной ячейки данные и показывая совсем в другом месте, какими бы промптами я его не просил так не делать. Ему казалось, видимо, что по смыслу они относятся к "подписи", которая была под таблицей. Также переносил данные одной ячейки в другую.

Mistral OCR возвращал всегда одну и ту же markdown таблицу, где все данные были в своих ячейках

Скрытый текст

Для данного бота это не критично, для других моих приложений - критично.

Недетерминированность LLM при распознавании изображений и генерации - известный факт, и полагаться на них при работе с подобными документами нельзя.

Look

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

gmtd Mar 25 at 17:23

А сколько будет стоить распознать 1000 страниц А4 на GPT-4o?

Вы сравниваете инструменты из разных ценовых ниш и для разного применения (если у вас текст как угодно может идти)

Look

Телеграм бот для быстрого распознавания текста на фото с помощью Mistral OCR

gmtd Mar 25 at 16:57

Отсканированные пачки документов часто содержат кривой и вообще набок положенный текст, мистраль ocr его как картинки обрабатывает, вставляет в текст надпись <тут картинко>

А кто такой текст хорошо обработает?

Look

Я уехал из России в испанскую глушь, купил дом среди гор и не жалею

gmtd Mar 25 at 06:10

Слова "в России", "безопасно" и "война" в одном предложении - постмодерновый оксюморон

Пройдите, гражданин, для составления протокола об административном правонарушении с уплатой штрафа в 30 тысяч рублей

Look

Frontend-архитектура, которая работает: как я строю Vue-приложения с минимумом сложностей

gmtd Mar 24 at 15:15

Когда статьи с помощью AI генерят, уже вроде как-то привыкли

Но когда и комментарии... (((

Look