Size: a a a

Natural Language Processing

2020 May 05

RS

Ruslan Sabirov in Natural Language Processing
Привет!
Кто-нибудь занимался обработкой татарского языка? Посоветуйте, пожалуйста, материалы и инструменты для изучения
источник

SV

Sander Van Dorn in Natural Language Processing
всем привет. пытаюсь послать данные с ардуино в просессинг
источник

SV

Sander Van Dorn in Natural Language Processing
но получаю нули
источник

SV

Sander Van Dorn in Natural Language Processing
данные с ардуино не равны 0
источник

A1

Art 141 in Natural Language Processing
Sander Van Dorn
но получаю нули
Это чат не про Arduino Processing.
источник

SV

Sander Van Dorn in Natural Language Processing
Art 141
Это чат не про Arduino Processing.
извените
источник

JK

Joseph Katzmaan in Natural Language Processing
Всем привет. Только начал осваивать nlp. У меня много вопросов накопилось, но я задам один.
В книге "прикладной анализ текстовых данных на python" в главе о подготовке текста говорится, что в тексте надо сначало выделить абзацы, потом предложения. На хабре и других ресурсах токенизация и лемматизация текста идет сразу, без предварительного разбиения на абзацы и предложения. Какой подход более эффективный?
Моя задача: тематическое моделирование медиатекстов.
На входе - полученный в результате парсинга текст новостной статьи в str.
Модель LDA
источник

D(

David (ddale) Dale in Natural Language Processing
Joseph Katzmaan
Всем привет. Только начал осваивать nlp. У меня много вопросов накопилось, но я задам один.
В книге "прикладной анализ текстовых данных на python" в главе о подготовке текста говорится, что в тексте надо сначало выделить абзацы, потом предложения. На хабре и других ресурсах токенизация и лемматизация текста идет сразу, без предварительного разбиения на абзацы и предложения. Какой подход более эффективный?
Моя задача: тематическое моделирование медиатекстов.
На входе - полученный в результате парсинга текст новостной статьи в str.
Модель LDA
В тематическом моделировании документ обычно представлен тупо мешком слов, без учёта их порядка и отношений между ними.
Поэтому, кажется, границы абзацев и предложений для конкретно этой задачи никаким образом не используются.
источник

AC

Arthur Conan Doyle in Natural Language Processing
Joseph Katzmaan
Всем привет. Только начал осваивать nlp. У меня много вопросов накопилось, но я задам один.
В книге "прикладной анализ текстовых данных на python" в главе о подготовке текста говорится, что в тексте надо сначало выделить абзацы, потом предложения. На хабре и других ресурсах токенизация и лемматизация текста идет сразу, без предварительного разбиения на абзацы и предложения. Какой подход более эффективный?
Моя задача: тематическое моделирование медиатекстов.
На входе - полученный в результате парсинга текст новостной статьи в str.
Модель LDA
Может все же задача состоит в тематической классификации текстов?
источник

JK

Joseph Katzmaan in Natural Language Processing
Arthur Conan Doyle
Может все же задача состоит в тематической классификации текстов?
да, и я решил это делать с помощью тематического моделирования.
Есть альтернативные варианты? я был бы очень признателен если бы вы подсказали, в каком направлении двигаться:)
источник

JK

Joseph Katzmaan in Natural Language Processing
David (ddale) Dale
В тематическом моделировании документ обычно представлен тупо мешком слов, без учёта их порядка и отношений между ними.
Поэтому, кажется, границы абзацев и предложений для конкретно этой задачи никаким образом не используются.
спасибо!
источник

AC

Arthur Conan Doyle in Natural Language Processing
В направлении алгоритмов классификации, а не тематического моделирования, если выборка новостей уже размечена и есть список тем, с новостями думаю все данные есть.
источник

JK

Joseph Katzmaan in Natural Language Processing
Arthur Conan Doyle
В направлении алгоритмов классификации, а не тематического моделирования, если выборка новостей уже размечена и есть список тем, с новостями думаю все данные есть.
Хорошо, спасибо!
источник

A

Alexander in Natural Language Processing
A = torch.tensor([1,2])
B = torch.tensor([[1,2],[2,4]])
print(A+B)
OUT:
tensor([[2, 4],
       [3, 6]])
Q:
Почему Torch не ругается? Или это не матрицы? Всем спасибо!
источник

m

mel kaye in Natural Language Processing
векторизация наверное
источник

m

mel kaye in Natural Language Processing
с бродкастом
источник

rb

r-ysshe beiyez-s in Natural Language Processing
Всем привет! Как вы думаете, как бы лучше перевести на русской язык seq2seq? Диплом пишу, ломаю голову
источник

V

Vlad in Natural Language Processing
r-ysshe beiyez-s
Всем привет! Как вы думаете, как бы лучше перевести на русской язык seq2seq? Диплом пишу, ломаю голову
Я в своём дипломе так и писал, но сделал сноску как термин с расшифровкой "последовательность в последовательность" и далее по википедии

Как результат - прокатило))
источник

rb

r-ysshe beiyez-s in Natural Language Processing
Vlad
Я в своём дипломе так и писал, но сделал сноску как термин с расшифровкой "последовательность в последовательность" и далее по википедии

Как результат - прокатило))
спасибо! последовательность в последовательность конечно так странно звучит, не могу смириться. но так наверное и поступлю :)
источник

V

Vlad in Natural Language Processing
У многих терминов нет и вряд ли будет русская адаптация, причём только ради дипломов/диссертаций это уж точно никто не будет делать)
источник