Size: a a a

Natural Language Processing

2020 March 17

АН

Александр Нагаев in Natural Language Processing
Сам сейчас учу модель seq2seq для исправления пунктуации
источник

э

эдуард in Natural Language Processing
Александр Нагаев
Сам сейчас учу модель seq2seq для исправления пунктуации
о, не трудно будет скинуть, как дообучаешь?
источник

АН

Александр Нагаев in Natural Language Processing
Не могу сорь, по работе делаю
источник

D

Dmitry in Natural Language Processing
эдуард
о, не трудно будет скинуть, как дообучаешь?
Их полно. Точнее тех которые пунктуацию расставляют в тексте без пунктуации
источник

э

эдуард in Natural Language Processing
Dmitry
Их полно. Точнее тех которые пунктуацию расставляют в тексте без пунктуации
а скинете? я за полчаса гуглинга не нашел таких, чтоб взять предобученную на русском языке и запустить
источник

D

Dmitry in Natural Language Processing
Датасетов написано много. Известными российскими авторами)) Гоголь например.
Ссылки кидали тут выше. Сейчас поищу.
источник

D

Dmitry in Natural Language Processing
Вот
источник

D

Dmitry in Natural Language Processing
https://github.com/episodeyang/deep-auto-punctuation
https://github.com/panda-baba/bert_punct
https://github.com/nkrnrnk/BertPunc
https://github.com/miguelballesteros/LSTM-punctuation
https://github.com/dave-chatmost/pytorch-punctuator
https://github.com/bedapudi6788/deepcorrect
https://github.com/tensorflow/lingvo/tree/master/lingvo/tasks/punctuator
https://github.com/alpoktem/punkProse

https://github.com/ottokart/punctuator2
источник

э

эдуард in Natural Language Processing
Dmitry
https://github.com/episodeyang/deep-auto-punctuation
https://github.com/panda-baba/bert_punct
https://github.com/nkrnrnk/BertPunc
https://github.com/miguelballesteros/LSTM-punctuation
https://github.com/dave-chatmost/pytorch-punctuator
https://github.com/bedapudi6788/deepcorrect
https://github.com/tensorflow/lingvo/tree/master/lingvo/tasks/punctuator
https://github.com/alpoktem/punkProse

https://github.com/ottokart/punctuator2
находил это сообщение вчера. русских моделек там нет, а тренить нет времени под эту задачу. только если брать deeppavlov'скую и пихать в bertpunc, но до этого пока не добрался
источник

АК

Андрей Ключаревский in Natural Language Processing
Здравствуйте!
Посоветуйте аналог Копискепу для сопоставления текстов https://www.copyscape.com/compare.php
Хочу проверять уникальность всех неопубликованных статей друг относительно друга.

Сейчас пользуюсь Voyant tools, но копирайтеры не потянут - слишком сложен
источник
2020 March 18

I

Ivan in Natural Language Processing
Привет всем, подскажите пожалуйста на счёт yargy парсера и natasha. Можно ли с использованием Yargy для написании своих правил для извлечения какой-либо информации из текста добавлять в парсер extractor из библиотеки Natasha и использовать их одновременно? Например я хочу вытащить из текста НДС и значение после, но оно может быть либо числом с % либо расписанным числом, дак вот можно ли в написанные правила для извлечения НДС вставить MoneyExtractor в конце чтобы корректно извлекать величину НДС?
источник

AM

Alex Mak in Natural Language Processing
Приветствую всех!

Подскажите, а есть ли какие-то общедоступные датасеты судебных решений? (Интересуют при этом судебные решения по КАСКО.)
источник

V

Vlad in Natural Language Processing
Белый дом, а также группа институтов, включая некоторые компании, просят помощи технического сообщества в исследованиях над COVID-19.

Если вы ML-инженер и вам знакома работа с NLP (natural language processing), вы можете помочь исследователям получить какие-то инсайды исходя из огромного датасета в 30 000 научных статей про короновирус.

Список задач которые пытаются решить:
https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/tasks  
На первом месте: "What is known about transmission, incubation, and environmental stability?".

Датасет:
https://pages.semanticscholar.org/coronavirus-research  

Анонс:
https://www.whitehouse.gov/briefings-statements/call-action-tech-community-new-machine-readable-covid-19-dataset/
источник

СУ

Сергей Устьянцев in Natural Language Processing
Всем привет! А если в берте брать выходы с нескольких слоёв, то как обычно с ними поступают? Суммируют/усредняют? Конкатенируют? Или по обстоятельствам?
источник

YE

Yaroslav Emelianov in Natural Language Processing
Берут взвешенную сумму, а веса обучают
источник
2020 March 19

СУ

Сергей Устьянцев in Natural Language Processing
а с какими весами?
источник

СУ

Сергей Устьянцев in Natural Language Processing
а, понял
источник

СУ

Сергей Устьянцев in Natural Language Processing
спасибо!
источник

DG

Denis Gordeev in Natural Language Processing
Ivan
Привет всем, подскажите пожалуйста на счёт yargy парсера и natasha. Можно ли с использованием Yargy для написании своих правил для извлечения какой-либо информации из текста добавлять в парсер extractor из библиотеки Natasha и использовать их одновременно? Например я хочу вытащить из текста НДС и значение после, но оно может быть либо числом с % либо расписанным числом, дак вот можно ли в написанные правила для извлечения НДС вставить MoneyExtractor в конце чтобы корректно извлекать величину НДС?
да, но мне кажется, что легче просто добавить правило для НДС с использованием  MONEY https://github.com/natasha/natasha/blob/master/natasha/grammars/money.py#L312 и добавить в extractor https://github.com/natasha/natasha/blob/master/natasha/extractors.py#L128
источник

V

Vic in Natural Language Processing
Ребят, а есть датасеты чит-чата (болтовни) подростков? Интересуют типовые темы и жаргон, как они в соцсетках общаются сейчас
источник