Size: a a a

ML Boot Camp Official

2020 January 22

ЕТ

Егор Ткаченко in ML Boot Camp Official
как ее можно решить?
источник

IP

Ivan Panchenko in ML Boot Camp Official
Егор Ткаченко
как ее можно решить?
Сегментировать нужные области и каждую через тессеракт прогонять как вариант
источник

AA

Andrew Avdeev in ML Boot Camp Official
Например:
1. Не использовать тессеракт.
2. Запилить маски под каждую из форм
источник

ЕТ

Егор Ткаченко in ML Boot Camp Official
Ivan Panchenko
Сегментировать нужные области и каждую через тессеракт прогонять как вариант
я сначала хотел так сделать, но не придумал как + датасета пока что нет, только 20 сканов на тесты
источник

AA

Andrew Avdeev in ML Boot Camp Official
Ivan Panchenko
Сегментировать нужные области и каждую через тессеракт прогонять как вариант
+1
источник

IP

Ivan Panchenko in ML Boot Camp Official
Попробуй руками вырезать нужные области и проверить, качество тессеракта
источник

ЕТ

Егор Ткаченко in ML Boot Camp Official
Andrew Avdeev
Например:
1. Не использовать тессеракт.
2. Запилить маски под каждую из форм
форма одна, но она бывает растягивается или сужается в зависимости от текста
источник

AA

Andrew Avdeev in ML Boot Camp Official
Егор Ткаченко
я сначала хотел так сделать, но не придумал как + датасета пока что нет, только 20 сканов на тесты
Так а проблема в том, что весь текст не распознаётся, или что куски текста не получается сматчить на нужные поля в форме?
источник

IP

Ivan Panchenko in ML Boot Camp Official
+ можно поиграться с тюнингом тессеракта
источник

ЕТ

Егор Ткаченко in ML Boot Camp Official
Andrew Avdeev
Так а проблема в том, что весь текст не распознаётся, или что куски текста не получается сматчить на нужные поля в форме?
проблема в метчинге
источник

ЕТ

Егор Ткаченко in ML Boot Camp Official
с качеством пользователи смирились)
источник

ЕТ

Егор Ткаченко in ML Boot Camp Official
я пока что выписываю части слов, которые никогда не меняются, ищу их в выдаче тессеракта, а потом по их координатам провожу сегментацию по полям и очистку текста
источник

AA

Andrew Avdeev in ML Boot Camp Official
У меня подобная проблема была в одной страховой.

Там 100+ нестандартизированных форм заказ-нарядов от разных СТО приходило текстом, пдф или картинками. Нужно было вытаскивать инфу, заполнять формы и кидать в хранилище.

Постпроцессинг делал через кучу regexp + unit tests -> определял типовые блоки документа -> по типовым блокам вытаскивал инфу, потом отдельным  слоем собирал форму
источник

ИБ

Иван Брагин in ML Boot Camp Official
тут может лучше объяснят
Я правильно понимаю?
MultiClassOneVsAll решает задачу multilabel (несколько класов в таргете объекта)
MultiClass решает задачу multiclass (один класс в таргете объекта)
какой физический смысл использовать MultiClassOneVsAll для multiclass?
источник

AA

Andrew Avdeev in ML Boot Camp Official
в целом для MVP когда датки было мало норм зашло
источник

ИБ

Иван Брагин in ML Boot Camp Official
@ksstat @DmitrySimakov на вас надежда
источник

ЕТ

Егор Ткаченко in ML Boot Camp Official
Andrew Avdeev
в целом для MVP когда датки было мало норм зашло
а когда сканов и денег  будет больше, что примерно можно будет сделать?
источник

K

K-S in ML Boot Camp Official
Иван Брагин
тут может лучше объяснят
Я правильно понимаю?
MultiClassOneVsAll решает задачу multilabel (несколько класов в таргете объекта)
MultiClass решает задачу multiclass (один класс в таргете объекта)
какой физический смысл использовать MultiClassOneVsAll для multiclass?
А что мешает onevsall использовать для чистого мультикласса?
источник

ИБ

Иван Брагин in ML Boot Camp Official
K-S
А что мешает onevsall использовать для чистого мультикласса?
сумма вероятностей не равна единице
источник

AT

Anton T in ML Boot Camp Official
Иван Брагин
сумма вероятностей не равна единице
Звучит как ранкинг
источник