Size: a a a

Natural Language Processing

2021 March 04

НК

Николай Карпенко... in Natural Language Processing
Чем лучше классифицировать текст на предмет - новость, статья, худлит, интервью?
источник

d

dePuff in Natural Language Processing
Николай Карпенко
Чем лучше классифицировать текст на предмет - новость, статья, худлит, интервью?
Согласно теореме о бесплатных завтраках нужно пробовать различные подходы)
источник

АК

Александр Календарев... in Natural Language Processing
телеграм обещал соревнование на классификацию текстов
источник

Н

Настя Обрезкова... in Natural Language Processing
Всем привет! Подскажите, пожалуйста. Я только начинаю разбираться в теме. Пишу ВКР "синтаксический анализатор рус языка". Пока нашла SpaCy, UDPipe, Natasha. Какой из них лучше подходит для задачи?
источник

AK

Alexander Kukushkin in Natural Language Processing
Настя Обрезкова
Всем привет! Подскажите, пожалуйста. Я только начинаю разбираться в теме. Пишу ВКР "синтаксический анализатор рус языка". Пока нашла SpaCy, UDPipe, Natasha. Какой из них лучше подходит для задачи?
Deeppavlov еще. Список синт парсеров для русского https://github.com/natasha/naeval#syntax-parser
источник

v

vlad in Natural Language Processing
Настя Обрезкова
Всем привет! Подскажите, пожалуйста. Я только начинаю разбираться в теме. Пишу ВКР "синтаксический анализатор рус языка". Пока нашла SpaCy, UDPipe, Natasha. Какой из них лучше подходит для задачи?
источник

Н

Настя Обрезкова... in Natural Language Processing
спасибо, спасибо!
источник

VR

Vladimir R in Natural Language Processing
Придумал новую тему: берем два трансформера и обучаем их общаться между собой
источник

АК

Александр Календарев... in Natural Language Processing
Vladimir R
Придумал новую тему: берем два трансформера и обучаем их общаться между собой
ага, кто кого переобучит
источник

FF

Futorio Franklin in Natural Language Processing
Александр Календарев
ага, кто кого переобучит
Ахах, один будет печатать "а а а а", другой будет отвечать "б б б б"
источник

FF

Futorio Franklin in Natural Language Processing
Конструктивный диалог
источник

FF

Futorio Franklin in Natural Language Processing
Александр Календарев
ага, кто кого переобучит
Ну справедливости ради в PPLM от убера похожую проблему решали добавлением kl divergence loss между затюненым распределением и распределением исходной lm
источник

SS

Sergey Shulga in Natural Language Processing
Народ, а как бы вы решали такую задачу: необходимо сделать классификатор типа документа. Типов несколько- уставы, договоры, протоколы, соглашения. Тематический контент внутри определяющим не является. Другими словами это может быть договор купли-продажи, а может быть соглашение о намерениях. Важно только понять тип. Датасет небольшой есть по каждому типу. Нюанс в том, что юридическая техника различна. Устав может быть с пунктами и без, аналогично договоры и соглашения. С протоколами чуть проще, там вроде как более менее есть своя структура.
источник

SS

Sergey Shulga in Natural Language Processing
То есть маркеры пунктов могут быть просто нумерованные, могут быть именные.
источник

SS

Sergey Shulga in Natural Language Processing
А качество классификации имеет критическое значение, можно даже пренебречь скоростью.
источник

SS

Sergey Shulga in Natural Language Processing
Сначала думал в сторону классики: токенизация, стоп-слова, лемматизация, затем tf-idf а вот дальше завис..
источник

SS

Sergey Shulga in Natural Language Processing
Одно дело типизировать договор по предмету, там все понятно, как отделить аренду от поставки. А тут?
источник

iu

ilya utekhin in Natural Language Processing
У них в заглавии чаще всего разве не указано, что за тип документа?
источник

SS

Sergey Shulga in Natural Language Processing
ilya utekhin
У них в заглавии чаще всего разве не указано, что за тип документа?
Вот да, но нет. В моем случае на вход приходит документ после OCR, который часто режет хедеры и футеры, особенно если это документ на фирменной бумаге.
источник

DD

David Dale in Natural Language Processing
Sergey Shulga
Сначала думал в сторону классики: токенизация, стоп-слова, лемматизация, затем tf-idf а вот дальше завис..
Классику точно стоит попробовать. Я не удивлюсь, если ключевых слов (или н-грамм) окажется в итоге достаточно.
источник