Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Программирование Новый топик    Ответить
 Распознавание текста на мятой/попорченной бумаге  [new]
АлексейС
Member

Откуда: Санкт-Петербург
Сообщений: 815
Доброго всем времени суток

Тысячу лет не был на этом форуме, сколько воды утекло, ух. И вот теперь снова нужна помощь сообщества.
С распознаванием текста всё понятно, tesseract и готово.

Но проблема в том, что источник букв - фотографии плохого качества, на которых изображена мятая бумага, не обязательно выправленная, может быть изогнута (как на бутылке).

По итогу, те участки, что освещены распознаются неплохо, но те, что в тени - нет. Соответственно нужно как-то бумагу выпрямить, выровнять, но алгоритмически. Я думал поэкспериментировать с выравниванием уровня освещённости, чтобы хотя бы участки в тени выровнять по свету с участками что ближе к свету.

При этом, что делать с изогнутыми изображениями (как на бутылке) - непонятно. В распознавании изображений я вообще никак, только вот экспериментирую.

Буду очень благодарен за любые идеи. Желательно чтобы либы на java были, но, в принципе, можно любой язык :) Ну или хотя бы намётки на алгоритмы, которые могут тут помочь
30 июл 19, 10:41    [21937599]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
Соколинский Борис
Member

Откуда: Москва
Сообщений: 10607
АлексейС,
Образцы будут?
30 июл 19, 11:24    [21937657]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
АлексейС, задача сводится к двум шагам.
1) Определение изогнутости. Бочка. Подушка. Цилиндр.
2) Применение обратной операции - выравнивание. Здесь нужен строгий критерий. Например - строки текста
должны занять строго горизонтальное направление. И левый абзац должен отражать линию.
3) Собственно распознавание. Тессеракт.

При чем здесь java - непонятно. Большинство библиотек машинного зрения пишутся на сях поэтому
java может выступать лишь посредником вызывая эти библиотеки.
30 июл 19, 13:55    [21937850]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
Соколинский Борис
Member

Откуда: Москва
Сообщений: 10607
Я бы в общем случае пробовал так использовать image morphing по ключевым точкам.
Примерно так:

1. Разбиваем изображение на кусочки.
2. Находим "хорошие" места, где распознавание работает четко.
3. По ним пытается определить правильный шаблон текста - как бы он выглядел на немятой бумаге.
4. Для имеющегося образца расставляем точки морфинга: хорошие фрагменты - без изменений по периметру, плохие - для краев бумаги определяем куда они должны перейти.
5. Применяем процедуру.
30 июл 19, 14:33    [21937906]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
АлексейС
Member

Откуда: Санкт-Петербург
Сообщений: 815
Спасибо вам! Буду пробовать
1 авг 19, 00:12    [21939374]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
konstantin_got
Member

Откуда:
Сообщений: 28
АлексейС
Спасибо вам! Буду пробовать



а напишите потом, пож-та, результаты. что сработало в итоге. Спасибо
1 авг 19, 16:43    [21940058]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
stenford
Member

Откуда: урал
Сообщений: 2759
есть куда более продвинутые OCR, чем tesseract, например ABBYY, нет смысла писать свои велосипеды. Но он не бесплатный конечно
2 авг 19, 02:10    [21940263]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
Abby детектирует "бочку' ?
2 авг 19, 08:31    [21940317]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
exp98
Member

Откуда:
Сообщений: 1674
stenford
есть куда более продвинутые OCR, ... например ABBYY
Правда? мне пож вот это: 21440210 если что, там сишный текст, возможно с комментами.
9 авг 19, 19:25    [21945901]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
nexoma
Member

Откуда:
Сообщений: 340
более долгий,
тренировка нейронной сети, напечатать лист бумаги,
потом аккуратно освещать с разных сторон, потихоньку сминать-разминать в разных направлениях и делать фото, либо видео.

и подавать мятое и идеальное на вход сети.
11 авг 19, 17:45    [21946532]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
nexoma
более долгий,
тренировка нейронной сети, напечатать лист бумаги,
потом аккуратно освещать с разных сторон, потихоньку сминать-разминать в разных направлениях и делать фото, либо видео.

и подавать мятое и идеальное на вход сети.

Это не будет работать.
11 авг 19, 17:53    [21946535]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
L_argo
Member

Откуда:
Сообщений: 889
Проще распознать текст глазами. Все равно выйдет быстрее.
13 авг 19, 10:16    [21947743]     Ответить | Цитировать Сообщить модератору
 Re: Распознавание текста на мятой/попорченной бумаге  [new]
Изопропил
Member

Откуда:
Сообщений: 31190
Соколинский Борис
АлексейС,
Образцы будут?

это вряд ли
13 авг 19, 11:37    [21947859]     Ответить | Цитировать Сообщить модератору
Все форумы / Программирование Ответить