Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 March 15

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Задача не поставлена, рефприрование научных статей или судебных решений радикпльно отличается, или диссертаций.
Цель не названа.
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Опишите проблему точнее
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Давайте я попробую сформулировать конкретнее и приведу абстрактный пример)
источник

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining
Либо вы сдаете полностью ТЗ, под которое можно подогнать что-то конкретное. либо получаете абстрактную ссылку на абстрактный papers with code.
как тут жить? беда с машобом. не работает решение проблем в чате (
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Pavel Zheltouhov
Либо вы сдаете полностью ТЗ, под которое можно подогнать что-то конкретное. либо получаете абстрактную ссылку на абстрактный papers with code.
как тут жить? беда с машобом. не работает решение проблем в чате (
Беда не с машобом, но с верой, что это панацея, причем какие-то конкретные модели для конеретных задач- для всего
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Ну и конечно, есть вопрос с корректностью решения коммерческих задач советами посторонних людей за так
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
так, ну во-первых, прежде чем изобретать велосипед, есть смысл ознакомиться с существующими практиками

во-вторых, подобные сообщества (как мне кажется) существуют для обмена опытом, на хабре Вы не платите за прочтение статьи, когда кто-то "за так" делится опытом решения коммерческих задач
а нам medium еще частенько и код прикладывает

в-третьих, я никого не просила решать за меня задачу, поинтересовалась, есть ли у кого-то аналогичный опыт, буду благодарна и за ссылки типа paperswithcode с примерами работы с большими текстами, так как ранее видела только обучение на датасетах по типу CNN news
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Борис Добров
Беда не с машобом, но с верой, что это панацея, причем какие-то конкретные модели для конеретных задач- для всего
адаптация подходов под конкретный домен тоже же вариант работы
источник

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining
Катя
адаптация подходов под конкретный домен тоже же вариант работы
Ну ок. Вы взяли какую-то современную "твиттерную" методику и она плоховато сработала на ваших текстах в следствии чего?
источник

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining
а то получается что вы увидели разные размеры текстов и сделали вывод, что ничего не получится
источник

IS

I Sh in NLP_RU - Natural Language Processing & Text Mining
Pavel Zheltouhov
Ну ок. Вы взяли какую-то современную "твиттерную" методику и она плоховато сработала на ваших текстах в следствии чего?
Что такое твиттерная методика?
источник

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining
I Sh
Что такое твиттерная методика?
я так назвал современные нейросетевые ембединги, когда слова что-то значат общеизвестное, но изолированно от ембедингов никаких толковых знаний извлечь не удается
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Катя
так, ну во-первых, прежде чем изобретать велосипед, есть смысл ознакомиться с существующими практиками

во-вторых, подобные сообщества (как мне кажется) существуют для обмена опытом, на хабре Вы не платите за прочтение статьи, когда кто-то "за так" делится опытом решения коммерческих задач
а нам medium еще частенько и код прикладывает

в-третьих, я никого не просила решать за меня задачу, поинтересовалась, есть ли у кого-то аналогичный опыт, буду благодарна и за ссылки типа paperswithcode с примерами работы с большими текстами, так как ранее видела только обучение на датасетах по типу CNN news
Помилуйте, никто Вам ничего не запрещает. Минимизация услий законное право.
Но не ждите, что кто-то решит за Вас Ваши коммерческие проблемы.
Чат imho   для обсуждения "академических" общих сопросов
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Pavel Zheltouhov
а то получается что вы увидели разные размеры текстов и сделали вывод, что ничего не получится
Ну согласитесь, что работа с длинными текстами отличается от работы с короткими

Хотя бы потому, что связь между сущностями предложений в коротких параграфах и в многостраничном документе разная

Я столкнулась с тем, что фреймворки ограничены последовательностями 500-600 токенами на вход
Хочу понять, есть ли вообще физически возможность грамотно передавать длинные последовательности - тексты
источник

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining
Катя
Ну согласитесь, что работа с длинными текстами отличается от работы с короткими

Хотя бы потому, что связь между сущностями предложений в коротких параграфах и в многостраничном документе разная

Я столкнулась с тем, что фреймворки ограничены последовательностями 500-600 токенами на вход
Хочу понять, есть ли вообще физически возможность грамотно передавать длинные последовательности - тексты
рассуждаю как неспециалист в NLP: больше информации - это не меньше.
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Борис Добров
Помилуйте, никто Вам ничего не запрещает. Минимизация услий законное право.
Но не ждите, что кто-то решит за Вас Ваши коммерческие проблемы.
Чат imho   для обсуждения "академических" общих сопросов
Я свою задачу постаралась описать, так как Вы спросили про тип суммаризации, а тут как бы и реферат, и акторы вместе
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Pavel Zheltouhov
я так назвал современные нейросетевые ембединги, когда слова что-то значат общеизвестное, но изолированно от ембедингов никаких толковых знаний извлечь не удается
Я бы не был так радикален, можно влить в эмбединги знание, но это надо делать специально обучая на нужеых данных под задачу.
Большая проблема, что часто выделить эти специальные данные - задача такая же как имходная
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Pavel Zheltouhov
я так назвал современные нейросетевые ембединги, когда слова что-то значат общеизвестное, но изолированно от ембедингов никаких толковых знаний извлечь не удается
Я не питаю иллюзий об использовании эмбеддингов, составленных на корпусе новостей и попытках применить их на domain driven текстах))

Вопрос о подходах, которые применяются после их составления
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Есть такой анекдот.
Пьяный что-то ищет под фонарем. Его спрашивают - что? Ключи. А где потерял? Где-то там. А почему тут ищешь? Тут светлее.

Так и машобучение. Вера, что перенос обучения универсален, а успех зависит от внутренней структуры данных, про которую и не вспоминают.
источник

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining
Катя
Ну согласитесь, что работа с длинными текстами отличается от работы с короткими

Хотя бы потому, что связь между сущностями предложений в коротких параграфах и в многостраничном документе разная

Я столкнулась с тем, что фреймворки ограничены последовательностями 500-600 токенами на вход
Хочу понять, есть ли вообще физически возможность грамотно передавать длинные последовательности - тексты
есть конкретный текст ошибки и обсуждение того, что люди с ней потом делали?
(по сути предлагаю провести перенос обучения из гугла)
источник