Size: a a a

Natural Language Processing

2020 March 14

MS

Mikhail Sumskoy in Natural Language Processing
понял, значит, попробую установить напрямую из репы
источник

MS

Mikhail Sumskoy in Natural Language Processing
спасибо)
источник
2020 March 15

ИГ

Иван Гладуш in Natural Language Processing
Здравствуйте, в мире NER есть берт, который умеет находить имена в текстах на любых языках. А есть ли подобные вещи в мире Анализа Тональности текста?
источник

М

Михаил in Natural Language Processing
Иван Гладуш
Здравствуйте, в мире NER есть берт, который умеет находить имена в текстах на любых языках. А есть ли подобные вещи в мире Анализа Тональности текста?
ner_ontonotes_bert_mult от DeepPavlov. Он, конечно, не для "любых языков", но это один из немногих multilang ner с хорошими результатами для русского (https://towardsdatascience.com/19-entities-for-104-languages-a-new-era-of-ner-with-the-deeppavlov-multilingual-bert-1bfa6d413ea6).
источник

ИГ

Иван Гладуш in Natural Language Processing
Михаил  спасибо за ваш ответ, только я пытаюсь найти такую же точно штуку, как вы кинулю, только для анализа тональности текста
источник

М

Михаил in Natural Language Processing
Иван Гладуш
Михаил  спасибо за ваш ответ, только я пытаюсь найти такую же точно штуку, как вы кинулю, только для анализа тональности текста
Упс, похоже мой Open Domain Question Answering тригернулся только по первому предложению.
источник

ИГ

Иван Гладуш in Natural Language Processing
На самом деле походив по сайту я нашел у них +- то, что похоже на ответ на мой вопрос, спасибо вам за наводку
источник

М

Михаил in Natural Language Processing
Продолжая тему про ner_ontonotes_bert_mult... Кто-нибудь знает другие NER (кроме deeppavlov), которые также могут выделить для русского языка 18 типов сущностей, а не только PER, ORG, LOC. Может есть смысл попробовать перевести ontonotes google.translate'ом и обучить на нём. Я видел что переведённые dataset'ы используются для других задач. Кто-нибудь пробовал делать это для NER?
источник

MM

Mikhail Mashkovich in Natural Language Processing
RCO Fact Extractor SDK умеет, там тоже есть, помимо базовых сущностей, есть и деньги, телефоны, паспортные данные, в общем довольно много всего выделяют.
источник

AK

Alexander Kukushkin in Natural Language Processing
Pullenti https://github.com/pullenti/pullenti-client/blob/master/README.md там другие типы но больше стандартные три
источник
2020 March 16

VI

Vlad Isayko in Natural Language Processing
Всем привет, кто-нибудь занимался обработкой текстов опенсорс лицензий на кейс принадлежности к какому-то виду: MIT, Apache, gpl?
источник

э

эдуард in Natural Language Processing
всем привет. подскажите, пожалуйста, актуальных инструментов на проверку грамматики и пунктуации на русском. фиксить не надо, требуется только знать да/нет
источник

SS

Sergey Shulga in Natural Language Processing
Отличный русский...
источник

И

Илюша in Natural Language Processing
Vladimir R
"Подскажите, пожалуйста, может быть есть путь оптимальнее? Например, сразу пробовать с spacy? ранее с spacy не работал."

для SpaCy нужно меньше примеров, если брать обученную модель, вроде бы хороший результат даже если будет около сотни, дальше можно идти active learning

при этом никакой предварительной обработки не требуется

разметку можно делать через doccano, скоро к нему допишем модуль для автоматизации разметки
можете подсказать, как лучше организовать active learning часть на обученной модели:

Например, я обучил NER ru2 на 100+ файлах. Запускаю ее в работу.
Далее я хочу обновлять модель новыми тренировочными данными по уже старым лейблам (распознаванию которых обучил ранее). Как я понимаю, нет потребности добавлять в новые тренировочные данные старые, так как “catastrophic forgetting” problem актуальна, если бы я попытался добавить новые лейблы.
Например, раз в день я хочу обновлять модель на 5-10 тренировочных примерах. Тренировку я запускаю только с nlp.update, так как resume_training потребовалась бы мне при добавление новых лейблов, а begin_training сбрасывает веса и актуальна только для модели с нуля.

Или я, все же, некорректно понял документацию, и при продолжение тренировки надо вызывать resume_training, которая обращается к rehearse(), а также добавлять к новым данным - старые, на которых изначально обучал модель.
источник

VR

Vladimir R in Natural Language Processing
Илюша
можете подсказать, как лучше организовать active learning часть на обученной модели:

Например, я обучил NER ru2 на 100+ файлах. Запускаю ее в работу.
Далее я хочу обновлять модель новыми тренировочными данными по уже старым лейблам (распознаванию которых обучил ранее). Как я понимаю, нет потребности добавлять в новые тренировочные данные старые, так как “catastrophic forgetting” problem актуальна, если бы я попытался добавить новые лейблы.
Например, раз в день я хочу обновлять модель на 5-10 тренировочных примерах. Тренировку я запускаю только с nlp.update, так как resume_training потребовалась бы мне при добавление новых лейблов, а begin_training сбрасывает веса и актуальна только для модели с нуля.

Или я, все же, некорректно понял документацию, и при продолжение тренировки надо вызывать resume_training, которая обращается к rehearse(), а также добавлять к новым данным - старые, на которых изначально обучал модель.
Добрый день, я напишу ответ чуть позже в личку. Сейчас мы занимаемся этим блоком и возможно есть смысл добавить вас к репозиторию.
источник

VL

Vlad Lialin in Natural Language Processing
Vlad Isayko
Всем привет, кто-нибудь занимался обработкой текстов опенсорс лицензий на кейс принадлежности к какому-то виду: MIT, Apache, gpl?
а их разве не должно быть какое-то очень ограниченное количество (<1000)? ручками разметить и готово
источник
2020 March 17

АН

Александр Нагаев in Natural Language Processing
эдуард
всем привет. подскажите, пожалуйста, актуальных инструментов на проверку грамматики и пунктуации на русском. фиксить не надо, требуется только знать да/нет
Если не умеешь фиксить, то не можешь знать надо или не
источник

АН

Александр Нагаев in Natural Language Processing
Не так ли
источник

э

эдуард in Natural Language Processing
Александр Нагаев
Если не умеешь фиксить, то не можешь знать надо или не
угу, все так. просто цель проверить на ошибки и, если они есть, то делитнуть предложение из датасета. с грамматическими разобрался, с пунктуацией готовых моделек не нашел, чтобы в пару строк запустить. самому обучать затратно по времени для этой задачи
источник

АН

Александр Нагаев in Natural Language Processing
Иначе никак
источник