Телеграмм чат группы natural_language

Всем привет. Только начал осваивать nlp. У меня много вопросов накопилось, но я задам один.
В книге "прикладной анализ текстовых данных на python" в главе о подготовке текста говорится, что в тексте надо сначало выделить абзацы, потом предложения. На хабре и других ресурсах токенизация и лемматизация текста идет сразу, без предварительного разбиения на абзацы и предложения. Какой подход более эффективный?
Моя задача: тематическое моделирование медиатекстов.
На входе - полученный в результате парсинга текст новостной статьи в str.
Модель LDA

источник

12:49пожаловаться #7

D(

David (ddale) Dale in Natural Language Processing

Joseph Katzmaan

Всем привет. Только начал осваивать nlp. У меня много вопросов накопилось, но я задам один.
В книге "прикладной анализ текстовых данных на python" в главе о подготовке текста говорится, что в тексте надо сначало выделить абзацы, потом предложения. На хабре и других ресурсах токенизация и лемматизация текста идет сразу, без предварительного разбиения на абзацы и предложения. Какой подход более эффективный?
Моя задача: тематическое моделирование медиатекстов.
На входе - полученный в результате парсинга текст новостной статьи в str.
Модель LDA

В тематическом моделировании документ обычно представлен тупо мешком слов, без учёта их порядка и отношений между ними.
Поэтому, кажется, границы абзацев и предложений для конкретно этой задачи никаким образом не используются.

источник

12:52пожаловаться #8

AC

Arthur Conan Doyle in Natural Language Processing

Joseph Katzmaan

Всем привет. Только начал осваивать nlp. У меня много вопросов накопилось, но я задам один.
В книге "прикладной анализ текстовых данных на python" в главе о подготовке текста говорится, что в тексте надо сначало выделить абзацы, потом предложения. На хабре и других ресурсах токенизация и лемматизация текста идет сразу, без предварительного разбиения на абзацы и предложения. Какой подход более эффективный?
Моя задача: тематическое моделирование медиатекстов.
На входе - полученный в результате парсинга текст новостной статьи в str.
Модель LDA

Может все же задача состоит в тематической классификации текстов?

источник

14:58пожаловаться #9

JK

Joseph Katzmaan in Natural Language Processing

Arthur Conan Doyle

Может все же задача состоит в тематической классификации текстов?

да, и я решил это делать с помощью тематического моделирования.
Есть альтернативные варианты? я был бы очень признателен если бы вы подсказали, в каком направлении двигаться:)

источник

15:17пожаловаться #10

JK

Joseph Katzmaan in Natural Language Processing

David (ddale) Dale

В тематическом моделировании документ обычно представлен тупо мешком слов, без учёта их порядка и отношений между ними.
Поэтому, кажется, границы абзацев и предложений для конкретно этой задачи никаким образом не используются.

спасибо!

источник

15:17пожаловаться #11

AC

Arthur Conan Doyle in Natural Language Processing

В направлении алгоритмов классификации, а не тематического моделирования, если выборка новостей уже размечена и есть список тем, с новостями думаю все данные есть.

источник

15:20пожаловаться #12

JK

Joseph Katzmaan in Natural Language Processing

Arthur Conan Doyle

В направлении алгоритмов классификации, а не тематического моделирования, если выборка новостей уже размечена и есть список тем, с новостями думаю все данные есть.

Хорошо, спасибо!

источник

15:21пожаловаться #13

A

Alexander in Natural Language Processing

A = torch.tensor([1,2])
B = torch.tensor([[1,2],[2,4]])
print(A+B)
OUT:
tensor([[2, 4],
[3, 6]])
Q:
Почему Torch не ругается? Или это не матрицы? Всем спасибо!

источник

22:18пожаловаться #14

m

mel kaye in Natural Language Processing

векторизация наверное

источник

22:21пожаловаться #15

m

mel kaye in Natural Language Processing

с бродкастом

источник

22:21пожаловаться #16

rb

r-ysshe beiyez-s in Natural Language Processing

Всем привет! Как вы думаете, как бы лучше перевести на русской язык seq2seq? Диплом пишу, ломаю голову

источник

22:22пожаловаться #17

V

Vlad in Natural Language Processing

r-ysshe beiyez-s

Всем привет! Как вы думаете, как бы лучше перевести на русской язык seq2seq? Диплом пишу, ломаю голову

Я в своём дипломе так и писал, но сделал сноску как термин с расшифровкой "последовательность в последовательность" и далее по википедии

Как результат - прокатило))

источник

22:24пожаловаться #18

rb

r-ysshe beiyez-s in Natural Language Processing

Vlad

Я в своём дипломе так и писал, но сделал сноску как термин с расшифровкой "последовательность в последовательность" и далее по википедии

Как результат - прокатило))

спасибо! последовательность в последовательность конечно так странно звучит, не могу смириться. но так наверное и поступлю :)

источник

22:26пожаловаться #19

V

Vlad in Natural Language Processing

У многих терминов нет и вряд ли будет русская адаптация, причём только ради дипломов/диссертаций это уж точно никто не будет делать)

источник

22:27пожаловаться #20