Size: a a a

Natural Language Processing

2020 July 28

RB

Radion Bikmukhamedov in Natural Language Processing
Спасибо, не знал)
источник

СУ

Сергей Устьянцев... in Natural Language Processing
Всем привет. Мне через третьи руки от знакомых знакомых пришёл вот такой запрос:
Собственник бизнеса ищет специалиста, который знает питон и занимается анализом текста: надо будет достать биг дата, а из него - определенную тему. Сначала просто для консультации, а потом возможно продолжение сотрудничества. Пишите мне, я контакты передам.
Как думаете, сюда с таким можно? Как-то не хочется в ods человека отправлять.
источник

АК

Андрей Ключаревский... in Natural Language Processing
Как я его мог пропустить - заигрался с gpt2:) Спасибо
источник

I

I Апрельский... in Natural Language Processing
Сергей Устьянцев
Всем привет. Мне через третьи руки от знакомых знакомых пришёл вот такой запрос:
Собственник бизнеса ищет специалиста, который знает питон и занимается анализом текста: надо будет достать биг дата, а из него - определенную тему. Сначала просто для консультации, а потом возможно продолжение сотрудничества. Пишите мне, я контакты передам.
Как думаете, сюда с таким можно? Как-то не хочется в ods человека отправлять.
так ты уже же написал :).

а какое количество сотрудников в этом бизнесе?
источник

СУ

Сергей Устьянцев... in Natural Language Processing
I Апрельский
так ты уже же написал :).

а какое количество сотрудников в этом бизнесе?
Так это я написал, а не владелец бизнеса :) Я подробностей не знаю, говорю же - знакомый знакомых. Просто не знаю, стоит ли ему сюда в этот чат обращаться с потенциальным предложением или есть где-то что-то более релевантное.
источник

СУ

Сергей Устьянцев... in Natural Language Processing
так-то наверное лучше всего было бы #_call_4_collaboration в ods, но заявку в ods несколько дней принимают
источник

I

I Апрельский... in Natural Language Processing
Сергей Устьянцев
так-то наверное лучше всего было бы #_call_4_collaboration в ods, но заявку в ods несколько дней принимают
я думал тот канал про какое-то неденежное содействие :)
источник

СУ

Сергей Устьянцев... in Natural Language Processing
I Апрельский
я думал тот канал про какое-то неденежное содействие :)
ну это как пойдёт
источник

I

I Апрельский... in Natural Language Processing
на мой взгляд, можно написать и тут и там. если человек хочет заработать за чужой счет, то это вероятно вызовет неприятие. а если что-то взаимовыгодное, то есть шанс, что кого-то заинтересует.
источник

I

I Апрельский... in Natural Language Processing
Sebastian Pereira
Коллеги, а как бы вы в теории решили задачу при которой необходимо заполнять «промежутки» истории, у которой есть начало, середина и конец, а не генерировать её как у GPT с неизвестным результатом? Может есть такие решения уже, мне не известные?
источник

ck

cnstntn kndrtv in Natural Language Processing
🖖 Покажите, коллеги, пример использования Yargy для разбора числительных. Например "сто две тысячи триста сорок пять" в 102345.
источник

AK

Anton K. in Natural Language Processing
Друзья, поделитесь, пожалуйста, опытом. Вероятно, данный вопрос выходит за рамки обсуждаемых вопросов в сфере NLP, но, возможно, у кого-то был подобный опыт.
Я тренирую сейчас собственную OCR на базе CRNN сети для распознавание текста на документах. Сама OCR работает уже более-менее сносно, следующий шаг находить на изображении сам документ и выделять оттуда области, в которых содержатся искомые данные, вырезать оттуда кусок и передавать на вход нейронной сети. Сразу попробовал сделать еще одну nn для scene-text-detection, но результаты так себе. Сейчас пока думаю, что делать дальше - либо дотренировывать сеть, которая отвечает за выделение блоков с текстом, либо пришла еще идея посмотреть в сторону object detection. Так как документ вполне шаблонный, там есть общая часть и в определенных местах просто прописываются искомые данные, то можно ли свести эту задачу к поиску объектов на фото? Ну, к примеру, разметить на фото блок "фио", "дата рождения" и т. д. Поймет ли CRNN сеть контекст? Сможет ли она понимать конкретные участки шаблонного документа?
источник

I

I Апрельский... in Natural Language Processing
а если сделать правила и разбирать на куски по ним?
источник
2020 July 29

Miss Очепятка... in Natural Language Processing
Anton K.
Друзья, поделитесь, пожалуйста, опытом. Вероятно, данный вопрос выходит за рамки обсуждаемых вопросов в сфере NLP, но, возможно, у кого-то был подобный опыт.
Я тренирую сейчас собственную OCR на базе CRNN сети для распознавание текста на документах. Сама OCR работает уже более-менее сносно, следующий шаг находить на изображении сам документ и выделять оттуда области, в которых содержатся искомые данные, вырезать оттуда кусок и передавать на вход нейронной сети. Сразу попробовал сделать еще одну nn для scene-text-detection, но результаты так себе. Сейчас пока думаю, что делать дальше - либо дотренировывать сеть, которая отвечает за выделение блоков с текстом, либо пришла еще идея посмотреть в сторону object detection. Так как документ вполне шаблонный, там есть общая часть и в определенных местах просто прописываются искомые данные, то можно ли свести эту задачу к поиску объектов на фото? Ну, к примеру, разметить на фото блок "фио", "дата рождения" и т. д. Поймет ли CRNN сеть контекст? Сможет ли она понимать конкретные участки шаблонного документа?
CRNN контекст не поймёт. Участки та она распознает, но нужно выравнивать текст. Вам scene-text-detection надо добивать.
источник

AK

Anton K. in Natural Language Processing
Miss Очепятка
CRNN контекст не поймёт. Участки та она распознает, но нужно выравнивать текст. Вам scene-text-detection надо добивать.
на идею учета контекста меня натолкнула вот эта статья: https://medium.com/saarthi-ai/how-to-build-your-own-ocr-a5bb91b622ba
по сути решают такую же задачу. но смущает, что они очень бегло описывают обучение нейронки, а на выходе только один пример обработки, может быть и фейк
источник

AK

Anton K. in Natural Language Processing
так же в описании к yolo есть такая фраза:
Our model has several advantages over classifier-based systems. It looks at the whole image at test time so its predictions are informed by global context in the image
источник

AK

Anton K. in Natural Language Processing
что и натолкнуло меня на мысль, что какие-то детекторы действительно могут понимать контекст. буду изучать дальше
источник

AK

Anton K. in Natural Language Processing
I Апрельский
а если сделать правила и разбирать на куски по ним?
что за правила?
источник

PM

Pavel Makhnev in Natural Language Processing
Anton K.
Друзья, поделитесь, пожалуйста, опытом. Вероятно, данный вопрос выходит за рамки обсуждаемых вопросов в сфере NLP, но, возможно, у кого-то был подобный опыт.
Я тренирую сейчас собственную OCR на базе CRNN сети для распознавание текста на документах. Сама OCR работает уже более-менее сносно, следующий шаг находить на изображении сам документ и выделять оттуда области, в которых содержатся искомые данные, вырезать оттуда кусок и передавать на вход нейронной сети. Сразу попробовал сделать еще одну nn для scene-text-detection, но результаты так себе. Сейчас пока думаю, что делать дальше - либо дотренировывать сеть, которая отвечает за выделение блоков с текстом, либо пришла еще идея посмотреть в сторону object detection. Так как документ вполне шаблонный, там есть общая часть и в определенных местах просто прописываются искомые данные, то можно ли свести эту задачу к поиску объектов на фото? Ну, к примеру, разметить на фото блок "фио", "дата рождения" и т. д. Поймет ли CRNN сеть контекст? Сможет ли она понимать конкретные участки шаблонного документа?
если конечная цель именно распознавание данных на документах, а не нейронка, то я на хакатоне просто приводил доки в примерно один вид посредством обрезки, потом вырезал из фото доки блоки с текстами (они уже были именованные к этому моменту) и распознавал без лишних шумов маленькие кусочки
источник

AK

Anton K. in Natural Language Processing
Pavel Makhnev
если конечная цель именно распознавание данных на документах, а не нейронка, то я на хакатоне просто приводил доки в примерно один вид посредством обрезки, потом вырезал из фото доки блоки с текстами (они уже были именованные к этому моменту) и распознавал без лишних шумов маленькие кусочки
так чтобы обрезать/повернуть в горизонт, надо как-то найти этот документ на изображении.
источник