Pull to refresh
48
5.8
Руслан @gmtd

Software engineer / vue-faq.org

Send message

Ну, как бы, да - нету открытых, и бесплатных, и такого качества

Такое точно лучше специализированными обученными моделями парсить

Но почему не попробовать )

Вот именно!

Автор как-то упускает расчет своей возможной траектории, если бы Youtube не дал в один прекрасный момент рекомендацию

Что бы было?

Наверное, канал на 5000 пользователей, три лекции в неделю в университете и почти написанная докторская

И вся остальная лирика из статьи в мечтах

Так autofocus - это же плохая практика с точки зрения самой a11y
Линтеры и проверки так говорят
Хотя и раздражает, конечно, когда его нет на очевидной странице

Айтишник-фрилансер у компа проводит больше времени

И геморрой со сколиозом и прочим придут быстрей похорон у курьера

Забыли

5. Христианские устои (любовь и сострадание)

6.Марксистские принципы (социальная справедливость)

Такая вещь должна быть не в чат боте, а в инструменте, с которым ты работаешь

Она есть, например, в Supabase

Я все жду, когда она появится в HeidiSQL, но, наверно, не дождусь...

Благодарю за исследование!

Да, у меня сложилось такое же впечатление, что Мистралю нужен контекст побольше и получше - возможно, его AI / ML функции тогда и включаются.

Чуть изогнутый текст - отказ. Я уже использую Tesseract утилиту для определения ориентации текста и предварительного поворота. Еще у меня на Андроиде есть ClearScaner программка, вот она очень круто все такие искажения исправляет - из фото под углом прям почти чисто скан получается. Но утилиты под Линукс такой не знаю, а она была была прям в самый раз для нормализации

Надеюсь, Мистраль будет дорабатывать свою OCR. Её можно хорошо так улучшить с помощью AI.А FineReader уже никуда не улучшишь )

В боте добавил для фолбэка обычную LLM (Gemini Flash)

Спасибо

Интересный бот. Про Обсидиан тоже думал, но не у него облачного API ), а локально держать открытым процесс неудобно (да еще и на телефоне)

Mistral OCR мне в принципе нравится, использую для изображений и PDF (медицинские документы). И показалась ощутимо лучше локального Tesseract
Но конкретно для этого бота, наверно, добавлю обычную LLM в качестве фолбэка
Щепетильна Мистраль ко входу
Целый документ распознает, а четверть его - нет (как в примере в комментариях выше)

Вторая картинка - это результат Gemini, его не надо распознавать

Ок, давай пробовать

Вот эта картинка, оригинал (почти)

Openrouter FlashLite 2.0, твой промпт:

### **Врач**

| **Исследования**        | **Результат** | **ед/изм** | **норма/ед**                             |
| ----------------------- | ------------- | ---------- | ----------------------------------------- |
| **Витамин B12 (B12)**   | 617,40        | пг/мл      | новорожденные: 160-1300                   |
|                         |               |            | взрослые: 200-835                       |
|                         |               |            | Взрослые старше 60 лет: 110-800         |
|                         |               |            |                                           |
|                         |               |            | новорожденные: 160-1300                   |
| **Фолиевая кислота (B9)** | 500,70        | пг/мл      | взрослые: 200-835                       |
|                         |               |            | Взрослые старше 60 лет: 110-800         |
| **Ферритин**            | A09.05.076    | 74,60      | Hr/мл    |
|                         |               |            | М: 22-346     |
|                         |               |            | Ж: 10-147     |

### **Интерпретацию полученных результатов проводит врач в совокупности с данными анамнеза, клиническими данными и результатами других диагностических исследований.**

### **Дата исследования**
24.03.2025г

### **Исследовал**
```markdown

Видишь поломанное?

Теперь Mistral OCR

| Исследования |  | Результат | ед\/изм | норма\/ед |
| :--: | :--: | :--: | :--: | :--: |
| Витамин B12 (B12) |  | 617,40 | $\\mathrm{nr} \/ \\mathrm{MJ}$ | новорожденные: 160-1300 <br> взрослые: 200-835 <br> Взрослые старше 60 лет: 110-800 |
| Фолиевая кислота (B9) |  | 500,70 | $\\mathrm{nr} \/ \\mathrm{MJ}$ | новорожденные: 160-1300 <br> взрослые: 200-835 <br> Взрослые старше 60 лет: 110-800 |
| Ферритин | A09.05.076 | 74,60 | $\\mathrm{Hr} \/ \\mathrm{MJ}$ | $\\begin{aligned} & \\text { M- } 22-346 \\\\ & \\text { W-10-147 } \\end{aligned}$ |

Интерпретацию полученных результатов проводит врач в совокупности с данными анамнеза, клиническими данными и результатами других диагностических исследований.

Дата исследования
24.03.2025г

Вот эти "закорючки" потом LLM прекрасно понимаются при повторном анализе для перевода данных в json

Главное - структура таблицы правильная

А надо вытащить именно текст что бы его проиндексировать, расположение не так важно для поиска.

Ну а вот мне для анализов медицинских очень важно где что стоит

У статьи нулевой рейтинг, в комментах - негатив, не вижу смысла, чтобы тратить время на развертывание публичного репозитория

Вон, человек ниже сказал, что такой бот за 3 минуты пишется

Бот никак не пред-обрабатывает изображения. Если текст не обнаружен - значит Mistral OCR не смогла его найти. У нее есть ограничения по качеству документа.

И, да, повернутый набок текст она не понимает

Я сейчас хорошенько потестировал и Gemini flash litе, как у вас и сам Gemini flash

Тестировал на несложном медицинском анализе с таблицей на три строки

И получил совсем противоположные результаты по искажению. Gemini flash ломал структуру таблицы, вытаскивая из нее из определенной ячейки данные и показывая совсем в другом месте, какими бы промптами я его не просил так не делать. Ему казалось, видимо, что по смыслу они относятся к "подписи", которая была под таблицей. Также переносил данные одной ячейки в другую.

Mistral OCR возвращал всегда одну и ту же markdown таблицу, где все данные были в своих ячейках

Скрытый текст

Для данного бота это не критично, для других моих приложений - критично.

Недетерминированность LLM при распознавании изображений и генерации - известный факт, и полагаться на них при работе с подобными документами нельзя.

А сколько будет стоить распознать 1000 страниц А4 на GPT-4o?

Вы сравниваете инструменты из разных ценовых ниш и для разного применения (если у вас текст как угодно может идти)

Отсканированные пачки документов часто содержат кривой и вообще набок положенный текст, мистраль ocr его как картинки обрабатывает, вставляет в текст надпись <тут картинко>

А кто такой текст хорошо обработает?

Слова "в России", "безопасно" и "война" в одном предложении - постмодерновый оксюморон

Пройдите, гражданин, для составления протокола об административном правонарушении с уплатой штрафа в 30 тысяч рублей

Когда статьи с помощью AI генерят, уже вроде как-то привыкли

Но когда и комментарии... (((

Вы отстали от жизни. Это бренд региона. Ей губернатор на вертолёте отправляет провизию.

почему сервисы названы именами греческих богов?

Почему нет?

Красиво, и семантика есть.

1
23 ...

Information

Rating
968-th
Registered
Activity