Size: a a a

Natural Language Processing

2017 August 22

t2

tonko 22 in Natural Language Processing
может даже Толоку попробовать стоит
источник

t2

tonko 22 in Natural Language Processing
много текста, кстати?
источник

АМ

Александр Мамаев in Natural Language Processing
Не помню честно говоря
источник

t2

tonko 22 in Natural Language Processing
мне препроцессинг срезает 400к токенов
источник

t2

tonko 22 in Natural Language Processing
из 600к
источник

АМ

Александр Мамаев in Natural Language Processing
?
источник

АМ

Александр Мамаев in Natural Language Processing
Каких токенов
источник

t2

tonko 22 in Natural Language Processing
всех, неуникальных
источник

t2

tonko 22 in Natural Language Processing
просто если вынуть все токены из всех обращений и сложить
источник

DV

Dima Veselov in Natural Language Processing
tonko 22
можно нанять специалистов для разметки
Я как-раз собираюсь делать штуку для полуавтоматической разметки данных. Пока что получается так: в систему загружается plain text, он автоматически разбивается на предложения и токены, потом делается POS-теггинг. Дальше всё это становится доступным по API, к которому можно подключать всякие программные штуки (та же наташа, например) или асессоров - перекрестные результаты (с учетом некоторого кворума, наверное) можно считать правильными и выгружать для обучения. Если я правильно помню, такую же штуку пилят организаторы FactRuEval-2016, только у них как-то глухо там.
Если есть какие-нибудь хотелки (например, возможность помечать документы / предложения, помимо токенов) - смело пишите ;)
источник

NK

Nikolai Kruglikov in Natural Language Processing
Dima Veselov
Я как-раз собираюсь делать штуку для полуавтоматической разметки данных. Пока что получается так: в систему загружается plain text, он автоматически разбивается на предложения и токены, потом делается POS-теггинг. Дальше всё это становится доступным по API, к которому можно подключать всякие программные штуки (та же наташа, например) или асессоров - перекрестные результаты (с учетом некоторого кворума, наверное) можно считать правильными и выгружать для обучения. Если я правильно помню, такую же штуку пилят организаторы FactRuEval-2016, только у них как-то глухо там.
Если есть какие-нибудь хотелки (например, возможность помечать документы / предложения, помимо токенов) - смело пишите ;)
Создатели spaCy почти сделали похожую штуку.
https://explosion.ai/blog/prodigy-annotation-tool-active-learning
источник
2017 August 25

AZ

Andrey Zakharov in Natural Language Processing
Dima Veselov
Я как-раз собираюсь делать штуку для полуавтоматической разметки данных. Пока что получается так: в систему загружается plain text, он автоматически разбивается на предложения и токены, потом делается POS-теггинг. Дальше всё это становится доступным по API, к которому можно подключать всякие программные штуки (та же наташа, например) или асессоров - перекрестные результаты (с учетом некоторого кворума, наверное) можно считать правильными и выгружать для обучения. Если я правильно помню, такую же штуку пилят организаторы FactRuEval-2016, только у них как-то глухо там.
Если есть какие-нибудь хотелки (например, возможность помечать документы / предложения, помимо токенов) - смело пишите ;)
было бы неплохо иметь размечать еще н-граммы
источник

t2

tonko 22 in Natural Language Processing
Andrey Zakharov
было бы неплохо иметь размечать еще н-граммы
уровня слов или букв?
источник

AZ

Andrey Zakharov in Natural Language Processing
tonko 22
уровня слов или букв?
слов
источник

t2

tonko 22 in Natural Language Processing
источник
2017 August 28

AZ

Andrey Zakharov in Natural Language Processing
а кто нибудь обучал word2vec на dbpedia ?
источник

АМ

Александр Мамаев in Natural Language Processing
так стандартных примерах есть же
источник

АМ

Александр Мамаев in Natural Language Processing
на google news и википедии
источник

dr

darya rodionova in Natural Language Processing
Подскажите, пожалуйста, а Natasha уметт искать только персон, организации и локации? Можно ли её научить искать другие сущности (названия товаров и пр.)?
источник

t2

tonko 22 in Natural Language Processing
источник