Всем привет. Только начал осваивать nlp. У меня много вопросов накопилось, но я задам один.
В книге "прикладной анализ текстовых данных на python" в главе о подготовке текста говорится, что в тексте надо сначало выделить абзацы, потом предложения. На хабре и других ресурсах токенизация и лемматизация текста идет сразу, без предварительного разбиения на абзацы и предложения. Какой подход более эффективный?
Моя задача: тематическое моделирование медиатекстов.
На входе - полученный в результате парсинга текст новостной статьи в str.
Модель LDA
В тематическом моделировании документ обычно представлен тупо мешком слов, без учёта их порядка и отношений между ними.
Поэтому, кажется, границы абзацев и предложений для конкретно этой задачи никаким образом не используются.