Size: a a a

Natural Language Processing

2020 April 28

VM

Valentin Malykh in Natural Language Processing
вы можете собрать датасет научных статей относительно несложно
источник

RE

Ruslan Ermagambetov in Natural Language Processing
Valentin Malykh
а каких статей?
есть сервис, где студенты заказывают дипломы/курсовые, а другие ребята выполняют эти заказы. Собственно автосаммари этих работ нужно научиться делать)
источник

VM

Valentin Malykh in Natural Language Processing
посмотрите на TextRank
источник

RE

Ruslan Ermagambetov in Natural Language Processing
Спасибо!
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
Думаю, для дат можно уменьшить модель векторов (даже взять small), а для геотегов можно взять словарь Geo entities и добавить сравнение текущего слова со словарём в виде дополнительной фичи для модели tok2vec (так называется субмодель для word embeddings в spacy). Тогда опять же вектора можно будет уменьшить. Ну и там вектора ещё сами обычно с размерности 300 до размерности 96 уменьшаются, можно сразу снизить для задачи и перекомпилировать, хотя это скорости почти не добавит. Могу проконсультировать подробнее, пишите.
Спасибо! Все попробую сейчас и отпишусь, может у кого тоже такая проблема возникает.
источник

SP

Sebastian Pereira in Natural Language Processing
Ruslan Ermagambetov
Ребята, привет
Задача суммаризации статей, может кто-то подсказать есть ли датасеты на русском и/или предобученные модели? Видел только датасет РИА-новостей, но там текст новости + заголовок к нему, немного не то.
Для суммаризации хорошо решение на rust transformers работает. Для русского из коробки в HuggingFace transformers есть модель от Deep Pavlov с хорошими результатами.
источник

SP

Sebastian Pereira in Natural Language Processing
Кстати, кто-то быстрые токинайзеры от HuggingFace использовал?
источник

SP

Sebastian Pereira in Natural Language Processing
Ещё у меня глупый вопрос - но не могу найти ответ нигде, для обучения модели в SpaCy - Transformers какой алгоритм используется?
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Ещё у меня глупый вопрос - но не могу найти ответ нигде, для обучения модели в SpaCy - Transformers какой алгоритм используется?
там в качестве tok2vec для слов используется выход transformers, а дальше всё как обычно
источник

M

Mineni in Natural Language Processing
Вопрос, а то так и не узнал ничего.
Нужно сделать автокорректировку текста (круче если с пунктуацией). Есть какая та либа/готовое решение? для русского языка

Язык: python3/C++

Есть база слов и всякие книжки
источник

YB

Yuri Baburov in Natural Language Processing
Mineni
Вопрос, а то так и не узнал ничего.
Нужно сделать автокорректировку текста (круче если с пунктуацией). Есть какая та либа/готовое решение? для русского языка

Язык: python3/C++

Есть база слов и всякие книжки
для начала, а что гугл говорит?
источник

M

Mineni in Natural Language Processing
Yuri Baburov
для начала, а что гугл говорит?
Гугл предложил много вариантов)
источник

YB

Yuri Baburov in Natural Language Processing
Mineni
Гугл предложил много вариантов)
тогда почему вы нас спрашиваете?
источник

M

Mineni in Natural Language Processing
Ну стандартные методы поиска расстояний со связкой модели языка. Но возможно есть более интересные и рабочие методы. А возможно, что кто-то этим уже занимался
источник

YB

Yuri Baburov in Natural Language Processing
Mineni
Ну стандартные методы поиска расстояний со связкой модели языка. Но возможно есть более интересные и рабочие методы. А возможно, что кто-то этим уже занимался
ничего бесплатного, лучшего чем имеющееся, вроде бы нет
источник

M

Mineni in Natural Language Processing
Yuri Baburov
ничего бесплатного, лучшего чем имеющееся, вроде бы нет
Просто хочу узнать и самому написать с нуля самый хороший вариант) пора развиваться бы дальше импорта библиотек
источник

M

Mineni in Natural Language Processing
Вот и спросил
источник

АК

Андрей Ключаревский in Natural Language Processing
Недавно сделал классификатор текста c rss через monkeylearn - работает с точностью 90% и загружает гугл табличку отфильтрованными письмами:)
Все бы ничего, вот только лимит queries у monkeylearn всего 300 запросов, да и ограничение на количество обращений к api в единицу времени меньше чем у запьера - дает 429 ошибку.
В день около 200 запросов идет с rss - завтра лимит кончится и monkeylearn будет стоит 200 зеленых.

Посоветуйте, пожалуйста, обучаемый ручками дешевый классификатор кусков текстов из email-ов с api для продакшена, чтобы не нужно было самому облако ставить.
источник
2020 April 29

D

Dmitry in Natural Language Processing
Черт, ну это же простая задачка. Тем более у вас уже есть датасет размеченный через monkeylearn. Теперь хоть наивный байес для начала. Там ведь делать нечего, простенького программиста ещё надо и чтобы он прочитал примеры того как это делается (без мат теории)
источник

АК

Андрей Ключаревский in Natural Language Processing
Dmitry
Черт, ну это же простая задачка. Тем более у вас уже есть датасет размеченный через monkeylearn. Теперь хоть наивный байес для начала. Там ведь делать нечего, простенького программиста ещё надо и чтобы он прочитал примеры того как это делается (без мат теории)
Так они и дали размеченный датасет(на 500 текстах).
Надо будет переучивать - думаю использовать fasttext или лучше сразу что-то в облаке брать от гугла или амазона?
источник