Телеграмм чат группы natural_language

2020 April 28

VM

Valentin Malykh in Natural Language Processing

вы можете собрать датасет научных статей относительно несложно

источник

13:05пожаловаться #1

RE

Ruslan Ermagambetov in Natural Language Processing

Valentin Malykh

а каких статей?

есть сервис, где студенты заказывают дипломы/курсовые, а другие ребята выполняют эти заказы. Собственно автосаммари этих работ нужно научиться делать)

источник

13:06пожаловаться #2

VM

Valentin Malykh in Natural Language Processing

посмотрите на TextRank

источник

13:07пожаловаться #3

RE

Ruslan Ermagambetov in Natural Language Processing

Спасибо!

источник

13:08пожаловаться #4

SP

Sebastian Pereira in Natural Language Processing

Yuri Baburov

Думаю, для дат можно уменьшить модель векторов (даже взять small), а для геотегов можно взять словарь Geo entities и добавить сравнение текущего слова со словарём в виде дополнительной фичи для модели tok2vec (так называется субмодель для word embeddings в spacy). Тогда опять же вектора можно будет уменьшить. Ну и там вектора ещё сами обычно с размерности 300 до размерности 96 уменьшаются, можно сразу снизить для задачи и перекомпилировать, хотя это скорости почти не добавит. Могу проконсультировать подробнее, пишите.

Спасибо! Все попробую сейчас и отпишусь, может у кого тоже такая проблема возникает.

источник

16:49пожаловаться #5

SP

Sebastian Pereira in Natural Language Processing

Ruslan Ermagambetov

Ребята, привет
Задача суммаризации статей, может кто-то подсказать есть ли датасеты на русском и/или предобученные модели? Видел только датасет РИА-новостей, но там текст новости + заголовок к нему, немного не то.

Для суммаризации хорошо решение на rust transformers работает. Для русского из коробки в HuggingFace transformers есть модель от Deep Pavlov с хорошими результатами.

источник

16:51пожаловаться #6

SP

Sebastian Pereira in Natural Language Processing

Кстати, кто-то быстрые токинайзеры от HuggingFace использовал?

источник

16:52пожаловаться #7

SP

Sebastian Pereira in Natural Language Processing

Ещё у меня глупый вопрос - но не могу найти ответ нигде, для обучения модели в SpaCy - Transformers какой алгоритм используется?

источник

16:53пожаловаться #8

YB

Yuri Baburov in Natural Language Processing

Sebastian Pereira

Ещё у меня глупый вопрос - но не могу найти ответ нигде, для обучения модели в SpaCy - Transformers какой алгоритм используется?

там в качестве tok2vec для слов используется выход transformers, а дальше всё как обычно

источник

18:14пожаловаться #9

M

Mineni in Natural Language Processing

Вопрос, а то так и не узнал ничего.
Нужно сделать автокорректировку текста (круче если с пунктуацией). Есть какая та либа/готовое решение? для русского языка

Язык: python3/C++

Есть база слов и всякие книжки

источник

21:12пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

Mineni

Вопрос, а то так и не узнал ничего.
Нужно сделать автокорректировку текста (круче если с пунктуацией). Есть какая та либа/готовое решение? для русского языка

Язык: python3/C++

Есть база слов и всякие книжки

для начала, а что гугл говорит?

источник

22:12пожаловаться #11

M

Mineni in Natural Language Processing

Yuri Baburov

для начала, а что гугл говорит?

Гугл предложил много вариантов)

источник

22:13пожаловаться #12

YB

Yuri Baburov in Natural Language Processing

Mineni

Гугл предложил много вариантов)

тогда почему вы нас спрашиваете?

источник

22:13пожаловаться #13

M

Mineni in Natural Language Processing

Ну стандартные методы поиска расстояний со связкой модели языка. Но возможно есть более интересные и рабочие методы. А возможно, что кто-то этим уже занимался

источник

22:14пожаловаться #14

YB

Yuri Baburov in Natural Language Processing

Mineni

Ну стандартные методы поиска расстояний со связкой модели языка. Но возможно есть более интересные и рабочие методы. А возможно, что кто-то этим уже занимался

ничего бесплатного, лучшего чем имеющееся, вроде бы нет

источник

22:15пожаловаться #15

M

Mineni in Natural Language Processing

Yuri Baburov

ничего бесплатного, лучшего чем имеющееся, вроде бы нет

Просто хочу узнать и самому написать с нуля самый хороший вариант) пора развиваться бы дальше импорта библиотек

источник

22:17пожаловаться #16

M

Mineni in Natural Language Processing

Вот и спросил

источник

22:18пожаловаться #17

АК

Андрей Ключаревский in Natural Language Processing

Недавно сделал классификатор текста c rss через monkeylearn - работает с точностью 90% и загружает гугл табличку отфильтрованными письмами:)
Все бы ничего, вот только лимит queries у monkeylearn всего 300 запросов, да и ограничение на количество обращений к api в единицу времени меньше чем у запьера - дает 429 ошибку.
В день около 200 запросов идет с rss - завтра лимит кончится и monkeylearn будет стоит 200 зеленых.

Посоветуйте, пожалуйста, обучаемый ручками дешевый классификатор кусков текстов из email-ов с api для продакшена, чтобы не нужно было самому облако ставить.

источник

23:07пожаловаться #18

2020 April 29

D

Dmitry in Natural Language Processing

Черт, ну это же простая задачка. Тем более у вас уже есть датасет размеченный через monkeylearn. Теперь хоть наивный байес для начала. Там ведь делать нечего, простенького программиста ещё надо и чтобы он прочитал примеры того как это делается (без мат теории)

источник

04:22пожаловаться #19

АК

Андрей Ключаревский in Natural Language Processing

Dmitry

Черт, ну это же простая задачка. Тем более у вас уже есть датасет размеченный через monkeylearn. Теперь хоть наивный байес для начала. Там ведь делать нечего, простенького программиста ещё надо и чтобы он прочитал примеры того как это делается (без мат теории)

Так они и дали размеченный датасет(на 500 текстах).
Надо будет переучивать - думаю использовать fasttext или лучше сразу что-то в облаке брать от гугла или амазона?

источник

04:30пожаловаться #20