Телеграмм чат группы natural_language

В общем, если
Category=Noun, Type = common, Gender = masculine, Number = singular, Case = accusative, Animate = no

corresponds to the MSD tag Ncmsan.

то что значит
Как P-----r как
или
машина Ncfsnn машина

можете подсказать? Или хотя бы где найти список значений тегов

источник

13:04пожаловаться #4

PM

Pavel Makhnev in Natural Language Processing

или может подскажете какой-то более удобный путь для определения всяких морфологий и тд?

источник

13:08пожаловаться #5

AK

Anton Kazennikov in Natural Language Processing

это похоже на формат морф. признаков из freeling: https://freeling-user-manual.readthedocs.io/en/latest/tagsets/tagset-ru/

источник

13:22пожаловаться #6

PM

Pavel Makhnev in Natural Language Processing

да, похоже ) но я нашел оригинальную - если что тут - http://corpus.leeds.ac.uk/mocky/msd.N-ru.html

corpus.leeds.ac.uk

Noun

источник

13:30пожаловаться #7

D

Denis in Natural Language Processing

Open Data Science: Открытый курс «Deep Learning in NLP» от создателей DeepPavlov на базе курса cs224n https://habr.com/ru/post/487172/?utm_source=habrahabr&utm_medium=rss&utm_campaign=corporate_blog

Хабр

Открытый курс «Deep Learning in NLP» от создателей DeepPavlov на базе курса cs224n

Всем привет! Вступление Меня зовут Алексей Клоков, я хочу рассказать о запуске классного курса по обработке естественного языка (Natural Language Processing), ко...

источник

14:38пожаловаться #8

D

Denis in Natural Language Processing

кто-нибудь в курсе: личное присутствие обязательно?

источник

14:38пожаловаться #9

V

Vlad in Natural Language Processing

А есть ли записи лекций/будут ли? Таким как я, кто не в РФ живёт, очень хотелось бы посмотреть)

источник

14:42пожаловаться #10

D

Denis in Natural Language Processing

+

источник

14:42пожаловаться #11

A

Aragaer in Natural Language Processing

там написано, что лекций нет

источник

14:45пожаловаться #12

A

Aragaer in Natural Language Processing

надо самостоятельно смотреть видео, а на семинарах только обсуждать с преподавателем, чего ты там не понял

источник

14:46пожаловаться #13

В

Владислав in Natural Language Processing

Здравствуйте. Есть ли способы подавать в sklearn tfidf не массив текстов, а массив из массивов предложений? Конечная цель - чтобы в н-граммы не попадали слова подряд из разных предложений

источник

17:09пожаловаться #14

m

mel kaye in Natural Language Processing

в тфидф же частотную матрицу подают

источник

17:40пожаловаться #15

D(

David (ddale) Dale in Natural Language Processing

Владислав

Здравствуйте. Есть ли способы подавать в sklearn tfidf не массив текстов, а массив из массивов предложений? Конечная цель - чтобы в н-граммы не попадали слова подряд из разных предложений

В качестве хака можно отделить предложения друг от друга (n-1) специальными токенами, тогда в n-грамы токены из двух соседних предложений попасть не смогут. Это можно закодить как отдельный препроцессор текста.
Ну или можно сделать только 1 специальный токен, и потом словарь tfidf'а пофильтровать, выкинув все n-граммы, в которых этот токен не в начале/конце.

источник

17:45пожаловаться #16

В

Владислав in Natural Language Processing

David (ddale) Dale

В качестве хака можно отделить предложения друг от друга (n-1) специальными токенами, тогда в n-грамы токены из двух соседних предложений попасть не смогут. Это можно закодить как отдельный препроцессор текста.
Ну или можно сделать только 1 специальный токен, и потом словарь tfidf'а пофильтровать, выкинув все n-граммы, в которых этот токен не в начале/конце.

Спасибо

источник

17:46пожаловаться #17

M

Mark in Natural Language Processing

Привет. Никто не знает, есть ли какие-нибудь статьи по эмбедингу предложений где используют Open Information Extraction для представления предложения в виде логического трипла?

источник

18:13пожаловаться #18

2020 February 11

AK

Anton K. in Natural Language Processing

Добрый день! как сейчас лучше всего делать suggestions для сайта?

источник

13:22пожаловаться #19

КЧ

Квадрат Чёрный in Natural Language Processing

Anton K.

Добрый день! как сейчас лучше всего делать suggestions для сайта?

Autosuggestion для дополнения введенной подстроки?

Trie + частотная статистика запросов (если есть, а иначе близость по левенштейну какому-нибудь)

источник

15:15пожаловаться #20