Size: a a a

Natural Language Processing

2020 April 27

SP

Sebastian Pereira in Natural Language Processing
Пробовал разные модели с трансформер архитектурой - ещё медленней.
источник

SP

Sebastian Pereira in Natural Language Processing
Пока думаю сформировать датасет с помощью большой  SpaCy и попробовать обучить с ELMo embeddings классификатор, но может есть более простые пути?
источник

SP

Sebastian Pereira in Natural Language Processing
Язык - английский.
источник

A

Aleksandr in Natural Language Processing
А скармливать xml разметку можно или готовый текст?
источник

SP

Sebastian Pereira in Natural Language Processing
Готовый текст
источник

SP

Sebastian Pereira in Natural Language Processing
Причём текст у нас специфический, но SpaCy large справлялся хорошо
источник

SP

Sebastian Pereira in Natural Language Processing
Даты с ошибками, даты с сокращениями
источник

SP

Sebastian Pereira in Natural Language Processing
Но размер модели и скорость работы в Продакшн - оставляет желать лучшего.
источник

A

Aleksandr in Natural Language Processing
Вопрос - математика сильно нужна?
источник

SP

Sebastian Pereira in Natural Language Processing
Aleksandr
Вопрос - математика сильно нужна?
В каком смысле?
источник

A

Aleksandr in Natural Language Processing
Sebastian Pereira
В каком смысле?
При написании кода
источник

A

Aleksandr in Natural Language Processing
матрицы всякие
источник

SP

Sebastian Pereira in Natural Language Processing
Нет, не думаю. В принципе я вижу несколько стандартных решений, которые можно попробовать, но может кто-то уже решал эту задачу.
источник

SP

Sebastian Pereira in Natural Language Processing
Самый простой, насколько я понимаю порезать модель от SpaCy оставив только нужное.
источник

A

Aleksandr in Natural Language Processing
Спасибо)
источник

SP

Sebastian Pereira in Natural Language Processing
Попробовали прунинг большой модели SpaCy - качество сильно упало
источник
2020 April 28

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Ищем даты и гео-таги.
Думаю, для дат можно уменьшить модель векторов (даже взять small), а для геотегов можно взять словарь Geo entities и добавить сравнение текущего слова со словарём в виде дополнительной фичи для модели tok2vec (так называется субмодель для word embeddings в spacy). Тогда опять же вектора можно будет уменьшить. Ну и там вектора ещё сами обычно с размерности 300 до размерности 96 уменьшаются, можно сразу снизить для задачи и перекомпилировать, хотя это скорости почти не добавит. Могу проконсультировать подробнее, пишите.
источник

RE

Ruslan Ermagambetov in Natural Language Processing
Ребята, привет
Задача суммаризации статей, может кто-то подсказать есть ли датасеты на русском и/или предобученные модели? Видел только датасет РИА-новостей, но там текст новости + заголовок к нему, немного не то.
источник

VM

Valentin Malykh in Natural Language Processing
а каких статей?
источник

FF

Futorio Franklin in Natural Language Processing
Ruslan Ermagambetov
Ребята, привет
Задача суммаризации статей, может кто-то подсказать есть ли датасеты на русском и/или предобученные модели? Видел только датасет РИА-новостей, но там текст новости + заголовок к нему, немного не то.
источник