Телеграмм чат группы nlp

Либо вы сдаете полностью ТЗ, под которое можно подогнать что-то конкретное. либо получаете абстрактную ссылку на абстрактный papers with code.
как тут жить? беда с машобом. не работает решение проблем в чате (

источник

10:11пожаловаться #4

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Pavel Zheltouhov

Либо вы сдаете полностью ТЗ, под которое можно подогнать что-то конкретное. либо получаете абстрактную ссылку на абстрактный papers with code.
как тут жить? беда с машобом. не работает решение проблем в чате (

Беда не с машобом, но с верой, что это панацея, причем какие-то конкретные модели для конеретных задач- для всего

источник

10:14пожаловаться #5

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Ну и конечно, есть вопрос с корректностью решения коммерческих задач советами посторонних людей за так

источник

10:16пожаловаться #6

К

Катя in NLP_RU - Natural Language Processing & Text Mining

так, ну во-первых, прежде чем изобретать велосипед, есть смысл ознакомиться с существующими практиками

во-вторых, подобные сообщества (как мне кажется) существуют для обмена опытом, на хабре Вы не платите за прочтение статьи, когда кто-то "за так" делится опытом решения коммерческих задач
а нам medium еще частенько и код прикладывает

в-третьих, я никого не просила решать за меня задачу, поинтересовалась, есть ли у кого-то аналогичный опыт, буду благодарна и за ссылки типа paperswithcode с примерами работы с большими текстами, так как ранее видела только обучение на датасетах по типу CNN news

источник

10:21пожаловаться #7

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Борис Добров

Беда не с машобом, но с верой, что это панацея, причем какие-то конкретные модели для конеретных задач- для всего

адаптация подходов под конкретный домен тоже же вариант работы

источник

10:25пожаловаться #8

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining

Катя

адаптация подходов под конкретный домен тоже же вариант работы

Ну ок. Вы взяли какую-то современную "твиттерную" методику и она плоховато сработала на ваших текстах в следствии чего?

источник

10:26пожаловаться #9

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining

а то получается что вы увидели разные размеры текстов и сделали вывод, что ничего не получится

источник

10:27пожаловаться #10

IS

I Sh in NLP_RU - Natural Language Processing & Text Mining

Pavel Zheltouhov

Ну ок. Вы взяли какую-то современную "твиттерную" методику и она плоховато сработала на ваших текстах в следствии чего?

Что такое твиттерная методика?

источник

10:27пожаловаться #11

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining

I Sh

Что такое твиттерная методика?

я так назвал современные нейросетевые ембединги, когда слова что-то значат общеизвестное, но изолированно от ембедингов никаких толковых знаний извлечь не удается

источник

10:28пожаловаться #12

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Катя

так, ну во-первых, прежде чем изобретать велосипед, есть смысл ознакомиться с существующими практиками

во-вторых, подобные сообщества (как мне кажется) существуют для обмена опытом, на хабре Вы не платите за прочтение статьи, когда кто-то "за так" делится опытом решения коммерческих задач
а нам medium еще частенько и код прикладывает

в-третьих, я никого не просила решать за меня задачу, поинтересовалась, есть ли у кого-то аналогичный опыт, буду благодарна и за ссылки типа paperswithcode с примерами работы с большими текстами, так как ранее видела только обучение на датасетах по типу CNN news

Помилуйте, никто Вам ничего не запрещает. Минимизация услий законное право.
Но не ждите, что кто-то решит за Вас Ваши коммерческие проблемы.
Чат imho для обсуждения "академических" общих сопросов

источник

10:30пожаловаться #13

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Pavel Zheltouhov

а то получается что вы увидели разные размеры текстов и сделали вывод, что ничего не получится

Ну согласитесь, что работа с длинными текстами отличается от работы с короткими

Хотя бы потому, что связь между сущностями предложений в коротких параграфах и в многостраничном документе разная

Я столкнулась с тем, что фреймворки ограничены последовательностями 500-600 токенами на вход
Хочу понять, есть ли вообще физически возможность грамотно передавать длинные последовательности - тексты

источник

10:31пожаловаться #14

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining

Катя

Ну согласитесь, что работа с длинными текстами отличается от работы с короткими

Хотя бы потому, что связь между сущностями предложений в коротких параграфах и в многостраничном документе разная

Я столкнулась с тем, что фреймворки ограничены последовательностями 500-600 токенами на вход
Хочу понять, есть ли вообще физически возможность грамотно передавать длинные последовательности - тексты

рассуждаю как неспециалист в NLP: больше информации - это не меньше.

источник

10:32пожаловаться #15

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Борис Добров

Помилуйте, никто Вам ничего не запрещает. Минимизация услий законное право.
Но не ждите, что кто-то решит за Вас Ваши коммерческие проблемы.
Чат imho для обсуждения "академических" общих сопросов

Я свою задачу постаралась описать, так как Вы спросили про тип суммаризации, а тут как бы и реферат, и акторы вместе

источник

10:32пожаловаться #16

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Pavel Zheltouhov

я так назвал современные нейросетевые ембединги, когда слова что-то значат общеизвестное, но изолированно от ембедингов никаких толковых знаний извлечь не удается

Я бы не был так радикален, можно влить в эмбединги знание, но это надо делать специально обучая на нужеых данных под задачу.
Большая проблема, что часто выделить эти специальные данные - задача такая же как имходная

источник

10:34пожаловаться #17

К

Катя in NLP_RU - Natural Language Processing & Text Mining

Pavel Zheltouhov

я так назвал современные нейросетевые ембединги, когда слова что-то значат общеизвестное, но изолированно от ембедингов никаких толковых знаний извлечь не удается

Я не питаю иллюзий об использовании эмбеддингов, составленных на корпусе новостей и попытках применить их на domain driven текстах))

Вопрос о подходах, которые применяются после их составления

источник

10:39пожаловаться #18

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining

Есть такой анекдот.
Пьяный что-то ищет под фонарем. Его спрашивают - что? Ключи. А где потерял? Где-то там. А почему тут ищешь? Тут светлее.

Так и машобучение. Вера, что перенос обучения универсален, а успех зависит от внутренней структуры данных, про которую и не вспоминают.

источник

10:39пожаловаться #19

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining

Катя

Ну согласитесь, что работа с длинными текстами отличается от работы с короткими

Хотя бы потому, что связь между сущностями предложений в коротких параграфах и в многостраничном документе разная

Я столкнулась с тем, что фреймворки ограничены последовательностями 500-600 токенами на вход
Хочу понять, есть ли вообще физически возможность грамотно передавать длинные последовательности - тексты

есть конкретный текст ошибки и обсуждение того, что люди с ней потом делали?
(по сути предлагаю провести перенос обучения из гугла)

источник

10:42пожаловаться #20