Добрый день. Подскажите, есть ли готовые решения (в либах) по определению эмоциональной окраски сообщений клиентов (язык - русский, неграмотный)? Или с чего стоит к этому подступиться?
Всем привет. Подскажите, пожалуйста, датасеты для Pos Tagging такие, чтобы были размечены с помощью Penn Treebank Tagset. Я нашел wsj, conll200 и masc. Но последние два достаточно маленькие, может у кого-то есть еще варианты?
Коллеги, во второй раз обращаюсь к вам со своей бедой. Неужели никто не встречал датасетов с относительными датами на человеческом языке? «К концу года» «В ближайший вторник»? Месяц размечаем сами, страшная мука.
Про парсеры забудьте - я опишу наши муки, нет готового решения, только рассуждения про « да я бы за вечер все сделал» dateparser, natty, timeforhuman - все остой
Думаем на Толоку скинуть, но там и проверять придётся, а как это делать без датасета непонятно.
Вы хотите, чтобы толокеры сами написали разные текстовые варианты? Можно же сделать два проекта: в одном толокеры пишут в произвольной форме с пост-оплатой, в другом другие толокеры их перепроверяют.
Коллеги, во второй раз обращаюсь к вам со своей бедой. Неужели никто не встречал датасетов с относительными датами на человеческом языке? «К концу года» «В ближайший вторник»? Месяц размечаем сами, страшная мука.
а как вы размечаете? мы же обсуждали тут: берёте по аналогиям кластеры дат из fasttext, их размечаете — вот вам и датасет. (важно то, что из него попало в даты, и то, что не попало)
Вы хотите, чтобы толокеры сами написали разные текстовые варианты? Можно же сделать два проекта: в одном толокеры пишут в произвольной форме с пост-оплатой, в другом другие толокеры их перепроверяют.
а как вы размечаете? мы же обсуждали тут: берёте по аналогиям кластеры дат из fasttext, их размечаете — вот вам и датасет. (важно то, что из него попало в даты, и то, что не попало)
берёте склеиваете существительные и числительные во фразы. потом учите word2vec на полученном тексте. потом берёте слово "вчера" и находите все слова и фразы, что находятся на косинусном расстоянии 0.65 и выше. берёте фразу "два дня назад" и поступаете так же. набрали фразы. потом их расширяете таким же образом, ища синонимы через word2vec.