Телеграмм чат группы natural_language

2020 March 14

MS

Mikhail Sumskoy in Natural Language Processing

понял, значит, попробую установить напрямую из репы

источник

13:50пожаловаться #1

MS

Mikhail Sumskoy in Natural Language Processing

спасибо)

источник

13:51пожаловаться #2

2020 March 15

ИГ

Иван Гладуш in Natural Language Processing

Здравствуйте, в мире NER есть берт, который умеет находить имена в текстах на любых языках. А есть ли подобные вещи в мире Анализа Тональности текста?

источник

17:58пожаловаться #3

М

Михаил in Natural Language Processing

Иван Гладуш

Здравствуйте, в мире NER есть берт, который умеет находить имена в текстах на любых языках. А есть ли подобные вещи в мире Анализа Тональности текста?

ner_ontonotes_bert_mult от DeepPavlov. Он, конечно, не для "любых языков", но это один из немногих multilang ner с хорошими результатами для русского (https://towardsdatascience.com/19-entities-for-104-languages-a-new-era-of-ner-with-the-deeppavlov-multilingual-bert-1bfa6d413ea6).

Medium

19 entities for 104 languages: A new era of NER with the DeepPavlov multilingual BERT

There’s hardly anyone left in the world data science community who wouldn’t agree that the release of BERT was the most exciting event in…

источник

18:16пожаловаться #4

ИГ

Иван Гладуш in Natural Language Processing

Михаил спасибо за ваш ответ, только я пытаюсь найти такую же точно штуку, как вы кинулю, только для анализа тональности текста

источник

18:23пожаловаться #5

М

Михаил in Natural Language Processing

Иван Гладуш

Михаил спасибо за ваш ответ, только я пытаюсь найти такую же точно штуку, как вы кинулю, только для анализа тональности текста

Упс, похоже мой Open Domain Question Answering тригернулся только по первому предложению.

источник

18:30пожаловаться #6

ИГ

Иван Гладуш in Natural Language Processing

На самом деле походив по сайту я нашел у них +- то, что похоже на ответ на мой вопрос, спасибо вам за наводку

источник

18:40пожаловаться #7

М

Михаил in Natural Language Processing

Продолжая тему про ner_ontonotes_bert_mult... Кто-нибудь знает другие NER (кроме deeppavlov), которые также могут выделить для русского языка 18 типов сущностей, а не только PER, ORG, LOC. Может есть смысл попробовать перевести ontonotes google.translate'ом и обучить на нём. Я видел что переведённые dataset'ы используются для других задач. Кто-нибудь пробовал делать это для NER?

источник

21:39пожаловаться #8

MM

Mikhail Mashkovich in Natural Language Processing

RCO Fact Extractor SDK умеет, там тоже есть, помимо базовых сущностей, есть и деньги, телефоны, паспортные данные, в общем довольно много всего выделяют.

источник

21:43пожаловаться #9

AK

Alexander Kukushkin in Natural Language Processing

Pullenti https://github.com/pullenti/pullenti-client/blob/master/README.md там другие типы но больше стандартные три

GitHub

pullenti/pullenti-client

Client for PullentiServer. Contribute to pullenti/pullenti-client development by creating an account on GitHub.

источник

21:48пожаловаться #10

2020 March 16

VI

Vlad Isayko in Natural Language Processing

Всем привет, кто-нибудь занимался обработкой текстов опенсорс лицензий на кейс принадлежности к какому-то виду: MIT, Apache, gpl?

источник

11:13пожаловаться #11

э

эдуард in Natural Language Processing

всем привет. подскажите, пожалуйста, актуальных инструментов на проверку грамматики и пунктуации на русском. фиксить не надо, требуется только знать да/нет

источник

15:00пожаловаться #12

SS

Sergey Shulga in Natural Language Processing

Отличный русский...

источник

15:03пожаловаться #13

И

Илюша in Natural Language Processing

Vladimir R

"Подскажите, пожалуйста, может быть есть путь оптимальнее? Например, сразу пробовать с spacy? ранее с spacy не работал."

для SpaCy нужно меньше примеров, если брать обученную модель, вроде бы хороший результат даже если будет около сотни, дальше можно идти active learning

при этом никакой предварительной обработки не требуется

разметку можно делать через doccano, скоро к нему допишем модуль для автоматизации разметки

можете подсказать, как лучше организовать active learning часть на обученной модели:

Например, я обучил NER ru2 на 100+ файлах. Запускаю ее в работу.
Далее я хочу обновлять модель новыми тренировочными данными по уже старым лейблам (распознаванию которых обучил ранее). Как я понимаю, нет потребности добавлять в новые тренировочные данные старые, так как “catastrophic forgetting” problem актуальна, если бы я попытался добавить новые лейблы.
Например, раз в день я хочу обновлять модель на 5-10 тренировочных примерах. Тренировку я запускаю только с nlp.update, так как resume_training потребовалась бы мне при добавление новых лейблов, а begin_training сбрасывает веса и актуальна только для модели с нуля.

Или я, все же, некорректно понял документацию, и при продолжение тренировки надо вызывать resume_training, которая обращается к rehearse(), а также добавлять к новым данным - старые, на которых изначально обучал модель.

источник

15:15пожаловаться #14

VR

Vladimir R in Natural Language Processing

Илюша

можете подсказать, как лучше организовать active learning часть на обученной модели:

Например, я обучил NER ru2 на 100+ файлах. Запускаю ее в работу.
Далее я хочу обновлять модель новыми тренировочными данными по уже старым лейблам (распознаванию которых обучил ранее). Как я понимаю, нет потребности добавлять в новые тренировочные данные старые, так как “catastrophic forgetting” problem актуальна, если бы я попытался добавить новые лейблы.
Например, раз в день я хочу обновлять модель на 5-10 тренировочных примерах. Тренировку я запускаю только с nlp.update, так как resume_training потребовалась бы мне при добавление новых лейблов, а begin_training сбрасывает веса и актуальна только для модели с нуля.

Или я, все же, некорректно понял документацию, и при продолжение тренировки надо вызывать resume_training, которая обращается к rehearse(), а также добавлять к новым данным - старые, на которых изначально обучал модель.

Добрый день, я напишу ответ чуть позже в личку. Сейчас мы занимаемся этим блоком и возможно есть смысл добавить вас к репозиторию.

источник

15:50пожаловаться #15

VL

Vlad Lialin in Natural Language Processing

Vlad Isayko

Всем привет, кто-нибудь занимался обработкой текстов опенсорс лицензий на кейс принадлежности к какому-то виду: MIT, Apache, gpl?

а их разве не должно быть какое-то очень ограниченное количество (<1000)? ручками разметить и готово

источник

19:36пожаловаться #16

2020 March 17

АН

Александр Нагаев in Natural Language Processing

эдуард

всем привет. подскажите, пожалуйста, актуальных инструментов на проверку грамматики и пунктуации на русском. фиксить не надо, требуется только знать да/нет

Если не умеешь фиксить, то не можешь знать надо или не

источник

12:51пожаловаться #17

АН

Александр Нагаев in Natural Language Processing

Не так ли

источник

12:52пожаловаться #18

э

эдуард in Natural Language Processing

Александр Нагаев

Если не умеешь фиксить, то не можешь знать надо или не

угу, все так. просто цель проверить на ошибки и, если они есть, то делитнуть предложение из датасета. с грамматическими разобрался, с пунктуацией готовых моделек не нашел, чтобы в пару строк запустить. самому обучать затратно по времени для этой задачи

источник

12:58пожаловаться #19

АН

Александр Нагаев in Natural Language Processing

Иначе никак

источник

12:59пожаловаться #20