Size: a a a

Natural Language Processing

2020 March 12

V

Vlad in Natural Language Processing
Arcady Balandin
Это espeak, увы. Мне бы что нибудь современное, на нейронках
Из готового посмотрите на RHVoice, но там не супер качество, зато работает даже на калькуляторе
источник

NS

Nikolay Shmyrev in Natural Language Processing
через waveglow прогнать и будет на нейронках
источник

V

Vlad in Natural Language Processing
А так все остальные решения нужно или допиливать под себя, или дообучать новые модели нужным голосам, или ещё и добавлять поддержку русского языка, что б красиво было
(Если это не так - поправьте пожалуйста)
источник

И

Илюша in Natural Language Processing
Vladimir R
в общем самый простой путь:

1. Скачать doccano и запустить его (Docker ~ 1 час подниматься будет автоматически)
2. Загрузить туда тексты и разметить их (~ 30  минут)
3. Выгрузить разметку в SpaCy и обучить как NER (~ 2 часа)
а можете поделиться, пожалуйста, сниппетом по конвертации doccano json1 в jsonl, который может быть успешно обработан коммандой -m spacy convert. Так как пробовал разные c medium и получал ошибки.

upd: так и не получилось воспользоваться коммандой -m spacy convert и встроенной коммандой на тренировку, записал тренировочные данные в переменную и обучил по https://medium.com/@manivannan_data/how-to-train-ner-with-custom-training-data-using-spacy-188e0e508c6
источник

AP

Arsen Plus in Natural Language Processing
Всем привет! Я человек в  NLP новый, прошу прощения, если вопрос банален. Подскажите, пожалуйста, где можно посмотреть побольше примеров или найти руководство по relation extraction с помощью SpaCy с использованием Subtree Matching? Заранее спасибо!
источник

M

Milena in Natural Language Processing
источник

D

Den in Natural Language Processing
Den
Всё ещё ННП по Transformers/DistilGPT-2
🙄
источник

MG

Michele Giardino in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Milena кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@michele_giardino, @hitmaker, @quiethorror, @finaevim, @ilyaoki
источник

MV

Maksim Vladimirovich in Natural Language Processing
Arcady Balandin
Это espeak, увы. Мне бы что нибудь современное, на нейронках
Под линуксы ничего нет, только через API гугл, Яндекс, Амазон
источник

VR

Vladimir R in Natural Language Processing
Илюша
а можете поделиться, пожалуйста, сниппетом по конвертации doccano json1 в jsonl, который может быть успешно обработан коммандой -m spacy convert. Так как пробовал разные c medium и получал ошибки.

upd: так и не получилось воспользоваться коммандой -m spacy convert и встроенной коммандой на тренировку, записал тренировочные данные в переменную и обучил по https://medium.com/@manivannan_data/how-to-train-ner-with-custom-training-data-using-spacy-188e0e508c6
Может лучше использовать другой формат, напрмер CoNLL-U
источник

VR

Vladimir R in Natural Language Processing
Обязательно напиши, как попробуешь
источник

VR

Vladimir R in Natural Language Processing
источник

И

Илюша in Natural Language Processing
Vladimir R
Обязательно напиши, как попробуешь
Я преобразовал json1 из docanno в лист, который можно успешно использовать в тренировке. Добавил лейблы в ner модель ru2, провел тренировку. Данных было совсем немного, но модель уже стала распознавать на тестовых данных. Завтра подготовлю чутка побольше тренировочных данных (делал на spacy 2.1.9, не 2.2, т.к. в редми ru2 указано, что 2.2. ещё не поддерживается).
Возникает вопрос: в модели ru2 сразу имеется 3 лейбла в pipe ner, и, как я понимаю, удалить их уже нельзя?
источник

VR

Vladimir R in Natural Language Processing
Ты можешь сделать новый чистый pipe или убрать (удалить) старый
источник

VR

Vladimir R in Natural Language Processing
В примере классификации был кусок, где отключали тренировку всех pipe кроме нового
источник

YB

Yuri Baburov in Natural Language Processing
Илюша
Я преобразовал json1 из docanno в лист, который можно успешно использовать в тренировке. Добавил лейблы в ner модель ru2, провел тренировку. Данных было совсем немного, но модель уже стала распознавать на тестовых данных. Завтра подготовлю чутка побольше тренировочных данных (делал на spacy 2.1.9, не 2.2, т.к. в редми ru2 указано, что 2.2. ещё не поддерживается).
Возникает вопрос: в модели ru2 сразу имеется 3 лейбла в pipe ner, и, как я понимаю, удалить их уже нельзя?
Ты можешь создавать сколько угодно разных ner в одном pipeline . Но если ты сейчас будешь использовать чистый ner, он будет учиться с нуля.
источник

И

Илюша in Natural Language Processing
Yuri Baburov
Ты можешь создавать сколько угодно разных ner в одном pipeline . Но если ты сейчас будешь использовать чистый ner, он будет учиться с нуля.
Я предполагал, что некорректно создавать чистый, так как модель уже предобучена
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
Ты можешь создавать сколько угодно разных ner в одном pipeline . Но если ты сейчас будешь использовать чистый ner, он будет учиться с нуля.
В старом ner появились собственные вектора уже, поэтому он у тебя работает на небольшом количестве данных. Через несколько дней у нас появится версия чистого нер с векторами фасттекст для 2.2.
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
В старом ner появились собственные вектора уже, поэтому он у тебя работает на небольшом количестве данных. Через несколько дней у нас появится версия чистого нер с векторами фасттекст для 2.2.
в spacy-ru ?
источник