Size: a a a

Natural Language Processing

2021 September 27

NK

Nikolay Karelin in Natural Language Processing
Я бы размером словаря сначала игрался. Ну и желательно немного посмотреть словарь "вглазную" перед дальнейшим моделированием (какие есть слова, мусор, частоты). Кстати, лемматизацию делали?
источник

NU

Nick Unknown in Natural Language Processing
Да, лемматизацию через stanza сделал
источник

NU

Nick Unknown in Natural Language Processing
Думаете расширить словарь?
источник

NK

Nikolay Karelin in Natural Language Processing
Наоборот. Убрать слишком частые и слишком редкие.
источник

A

Andrey in Natural Language Processing
лемматизатор у stanza своеобразный кстати иногда.
"сравни" -> "сразни"
источник

NU

Nick Unknown in Natural Language Processing
Спасибо!
источник

NU

Nick Unknown in Natural Language Processing
Да, а иногда казахские фамилии он видит как глаголы
источник

NK

Nikolay Karelin in Natural Language Processing
Кстати, еще и поэтому есть смысл просмотреть словарь, хотя бы самые частые самые редкие и немного в серединке.

Еще отличная задача: сравнить разные лемматизаторы (stanza, pymorphy, spacy, ...) и посмотреть, на каких словах есть разница.
источник

LS

Lily Sabirzyanova in Natural Language Processing
Всем привет! Подскажите, из неструктурированных вакансий на английском надо извлечь все локации и названия компаний. Пробовала ner spacy и предобученный dslim/ bert-base-NER.   И все равно многое пропускается. Посоветуйте, что ещё посмотреть  можно?
источник

AG

Alexander Gambashidz... in Natural Language Processing
Question answering ?
источник

AG

Alexander Gambashidz... in Natural Language Processing
Ребят, а нет ли случайно какого-то удобного интерфейса чтобы быстро размечать текст для ner ?
источник

T

Timur in Natural Language Processing
проще будет дотюнить модельку на своем домене
источник
2021 September 28

AS

Artem Snegirev in Natural Language Processing
Не знаю на сколько быстро, но в целом довольно удобно

https://github.com/doccano/doccano

У них демо есть
источник

NK

Nikolay Karelin in Natural Language Processing
Еще labelstudio
Кстати, в Слаке ODS был как-то большой пост с обзором инструментов разметки, включая labelstudio и doccano
источник

A

Alexander in Natural Language Processing
источник

МЕ

Максим Ермаков... in Natural Language Processing
Коллеги, кто со spaCy работает, каким параметром определяется, будет ли сохраняться model-best, а не model-last? patience указан.

UPD: Некорректный вопрос. Пошарился по исходникам train loop'а, судя по всему, он сохраняет и то, и то параллельно, а patience просто останавливает процесс.
источник

S

S.o.l. in Natural Language Processing
Друзья, кто работал с переводчиком  Easy-NMT?

Мне нужно подключать заранее скачанные модели Opus-MT из папки а не качать их при первом использовании

Тут описано как это сделать для модели mBART50_m2m

https://github.com/UKPLab/EasyNMT/issues/44#issuecomment-908285722

Как сделать подобное для моделей opus-MT?
источник

M

Maksym in Natural Language Processing
#jobs_Hr
Платим 1000$ за рекомендацию NLP Engineer!

К нам в Metinvest Digital R&D очень нужен NLP Engineer. Ищем уровня Middle/Senior.
Задачи такие, как, conversational solutions, text parsing, mood analysis, Intelligent OCR.

Мало рутины, много рессерча и нестандартных задач. Скучно точно не будет.
Доступен remote, поэтому идеальный кандидат может быть с любой точки Украины.
источник

N

Nadia in Natural Language Processing
Вопрос к украинским и белорусским коллегам. С чем вы работаете, если нужна инфлексия / морфогенерация? Знаю, что есть словарь украинского языка для pymorphy2, но вдруг существуют еще какие-то инструменты, о которых я не знаю.
источник

s

sjdc in Natural Language Processing
источник