Size: a a a

Natural Language Processing

2020 February 14

V

Vlad in Natural Language Processing
Есть большой датасет из твитов, размеченных на положительные и отрицательные
источник

FF

Futorio Franklin in Natural Language Processing
Иван Стразов
Добрый день. Подскажите, есть ли готовые решения (в либах) по определению эмоциональной окраски сообщений клиентов (язык - русский, неграмотный)? Или с чего стоит к этому подступиться?
https://github.com/bureaucratic-labs/dostoevsky как вариант на фасттексте, если нужно можно обучить свою модель
источник

ИС

Иван Стразов in Natural Language Processing
Спасибо всем)
источник

NK

Nikolay Karelin in Natural Language Processing
DeepPavlov - у них есть две готовые модели для русского
источник

NF

Nikolai Fominykh in Natural Language Processing
Всем привет. А у NER Natasha - есть UI?
источник

NF

Nikolai Fominykh in Natural Language Processing
Имею в виду этот: https://github.com/natasha/natasha
источник

ID

Ivan Dolgov in Natural Language Processing
Всем привет. Подскажите, пожалуйста, датасеты для Pos Tagging такие, чтобы были размечены с помощью Penn Treebank Tagset. Я нашел  wsj, conll200 и masc. Но последние два достаточно маленькие, может у кого-то есть еще варианты?
источник

SP

Sebastian Pereira in Natural Language Processing
Коллеги, во второй раз обращаюсь к вам со своей бедой. Неужели никто не встречал датасетов с относительными датами на человеческом языке? «К концу года» «В ближайший вторник»? Месяц размечаем сами, страшная мука.
источник

SP

Sebastian Pereira in Natural Language Processing
Думаем на Толоку скинуть, но там и проверять придётся, а как это делать без датасета непонятно.
источник

SP

Sebastian Pereira in Natural Language Processing
Relative dates - и на на английском ноль, или не там ищу.
источник

SP

Sebastian Pereira in Natural Language Processing
Про парсеры забудьте - я опишу наши муки, нет готового решения, только рассуждения про « да я бы за вечер все сделал» dateparser, natty, timeforhuman - все остой
источник

SP

Sebastian Pereira in Natural Language Processing
И так февраль так ещё это.
источник

IK

Ivan Kargapoltsev in Natural Language Processing
Sebastian Pereira
Думаем на Толоку скинуть, но там и проверять придётся, а как это делать без датасета непонятно.
Вы хотите, чтобы толокеры сами написали разные текстовые варианты? Можно же сделать два проекта: в одном толокеры пишут в произвольной форме с пост-оплатой, в другом другие толокеры их перепроверяют.
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Коллеги, во второй раз обращаюсь к вам со своей бедой. Неужели никто не встречал датасетов с относительными датами на человеческом языке? «К концу года» «В ближайший вторник»? Месяц размечаем сами, страшная мука.
а как вы размечаете? мы же обсуждали тут:
берёте по аналогиям кластеры дат из fasttext, их размечаете — вот вам и датасет.
(важно то, что из него попало в даты, и то, что не попало)
источник

SP

Sebastian Pereira in Natural Language Processing
Ivan Kargapoltsev
Вы хотите, чтобы толокеры сами написали разные текстовые варианты? Можно же сделать два проекта: в одном толокеры пишут в произвольной форме с пост-оплатой, в другом другие толокеры их перепроверяют.
Нет, длительность от заданной даты
источник

IK

Ivan Kargapoltsev in Natural Language Processing
Sebastian Pereira
Нет, длительность от заданной даты
А сами текстовые строки уже собраны?
источник

SP

Sebastian Pereira in Natural Language Processing
Через неделю - 14 дней от текущей точки
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
а как вы размечаете? мы же обсуждали тут:
берёте по аналогиям кластеры дат из fasttext, их размечаете — вот вам и датасет.
(важно то, что из него попало в даты, и то, что не попало)
Я не понял как
источник

IK

Ivan Kargapoltsev in Natural Language Processing
Ivan Kargapoltsev
А сами текстовые строки уже собраны?
И все надежные, все — про относительную дату?
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Я не понял как
берёте склеиваете существительные и числительные во фразы.
потом учите word2vec на полученном тексте.
потом берёте слово "вчера" и находите все слова и фразы, что находятся на косинусном расстоянии 0.65 и выше.
берёте фразу "два дня назад" и поступаете так же.
набрали фразы. потом их расширяете таким же образом, ища синонимы через word2vec.
источник