Телеграмм чат группы natural_language

Я как-раз собираюсь делать штуку для полуавтоматической разметки данных. Пока что получается так: в систему загружается plain text, он автоматически разбивается на предложения и токены, потом делается POS-теггинг. Дальше всё это становится доступным по API, к которому можно подключать всякие программные штуки (та же наташа, например) или асессоров - перекрестные результаты (с учетом некоторого кворума, наверное) можно считать правильными и выгружать для обучения. Если я правильно помню, такую же штуку пилят организаторы FactRuEval-2016, только у них как-то глухо там.
Если есть какие-нибудь хотелки (например, возможность помечать документы / предложения, помимо токенов) - смело пишите ;)

источник

21:23пожаловаться #10

NK

Nikolai Kruglikov in Natural Language Processing

Dima Veselov

Я как-раз собираюсь делать штуку для полуавтоматической разметки данных. Пока что получается так: в систему загружается plain text, он автоматически разбивается на предложения и токены, потом делается POS-теггинг. Дальше всё это становится доступным по API, к которому можно подключать всякие программные штуки (та же наташа, например) или асессоров - перекрестные результаты (с учетом некоторого кворума, наверное) можно считать правильными и выгружать для обучения. Если я правильно помню, такую же штуку пилят организаторы FactRuEval-2016, только у них как-то глухо там.
Если есть какие-нибудь хотелки (например, возможность помечать документы / предложения, помимо токенов) - смело пишите ;)

Создатели spaCy почти сделали похожую штуку.
https://explosion.ai/blog/prodigy-annotation-tool-active-learning

Explosion

Prodigy: A new tool for radically efficient machine teaching · Blog · Explosion

Machine learning systems are built from both code and data. It's easy to reuse the code but hard to reuse the data, so building AI mostly means doing annotation. This is good, because the examples are how you program the behaviour – the learner itself is really just a compiler. What's not good is the current technology for creating the examples. That's why we're pleased to introduce Prodigy, a downloadable tool for radically efficient machine teaching.

источник

22:42пожаловаться #11

2017 August 25

AZ

Andrey Zakharov in Natural Language Processing

Dima Veselov

Я как-раз собираюсь делать штуку для полуавтоматической разметки данных. Пока что получается так: в систему загружается plain text, он автоматически разбивается на предложения и токены, потом делается POS-теггинг. Дальше всё это становится доступным по API, к которому можно подключать всякие программные штуки (та же наташа, например) или асессоров - перекрестные результаты (с учетом некоторого кворума, наверное) можно считать правильными и выгружать для обучения. Если я правильно помню, такую же штуку пилят организаторы FactRuEval-2016, только у них как-то глухо там.
Если есть какие-нибудь хотелки (например, возможность помечать документы / предложения, помимо токенов) - смело пишите ;)

было бы неплохо иметь размечать еще н-граммы

источник

22:39пожаловаться #12

t2

tonko 22 in Natural Language Processing

Andrey Zakharov

было бы неплохо иметь размечать еще н-граммы

уровня слов или букв?

источник

22:41пожаловаться #13

AZ

Andrey Zakharov in Natural Language Processing

tonko 22

уровня слов или букв?

слов

источник

22:41пожаловаться #14

t2

tonko 22 in Natural Language Processing

sticker.webp

(30.61 Кб)

источник

22:42пожаловаться #15

2017 August 28

AZ

Andrey Zakharov in Natural Language Processing

а кто нибудь обучал word2vec на dbpedia ?

источник

11:34пожаловаться #16

АМ

Александр Мамаев in Natural Language Processing

так стандартных примерах есть же

источник

11:35пожаловаться #17

АМ

Александр Мамаев in Natural Language Processing

на google news и википедии

источник

11:35пожаловаться #18

dr

darya rodionova in Natural Language Processing

Подскажите, пожалуйста, а Natasha уметт искать только персон, организации и локации? Можно ли её научить искать другие сущности (названия товаров и пр.)?

источник

13:46пожаловаться #19

t2

tonko 22 in Natural Language Processing

источник

18:55пожаловаться #20