Size: a a a

Natural Language Processing

2021 March 04

SS

Sergey Shulga in Natural Language Processing
А в том же уставе может часто встречаться слово договор. А в договоре- соглашение и так далее.. однако, когда мы смотрим на документ глазами то сразу понимаем, что за документ мы держим в руках
источник

SS

Sergey Shulga in Natural Language Processing
David Dale
Классику точно стоит попробовать. Я не удивлюсь, если ключевых слов (или н-грамм) окажется в итоге достаточно.
Вот сейчас как раз экспериментирую, но подумал, вдруг есть ещё подход у кого на практике
источник

VR

Vladimir R in Natural Language Processing
Sergey Shulga
А в том же уставе может часто встречаться слово договор. А в договоре- соглашение и так далее.. однако, когда мы смотрим на документ глазами то сразу понимаем, что за документ мы держим в руках
Тогда это не область NLP - можно сразу распознавание образов использовать =)
источник

VR

Vladimir R in Natural Language Processing
David Dale
Классику точно стоит попробовать. Я не удивлюсь, если ключевых слов (или н-грамм) окажется в итоге достаточно.
У SpaCy есть классификатор на нейронке, его обучить на любом наборе документов - 5 минут
источник

VR

Vladimir R in Natural Language Processing
Там даже токенизацию думать не потребуется, все сделает из исходного текста, коммерческий продукт
источник

VR

Vladimir R in Natural Language Processing
только бесплатный
источник

VR

Vladimir R in Natural Language Processing
Vladimir R
У SpaCy есть классификатор на нейронке, его обучить на любом наборе документов - 5 минут
источник

SS

Sergey Shulga in Natural Language Processing
Vladimir R
У SpaCy есть классификатор на нейронке, его обучить на любом наборе документов - 5 минут
Эту либу знаю и использую для других задач. В данном случае подобный классификатор на очень подходит. Особенно если учесть размер документов. Меня ведь не тематика интересует или окрас текста (да за них в этой задаче и цепляться нельзя, это будет преимущественно шум, так как тематика может быть одна для нескольких типов), скорее речь идёт об особенностях структуры документа.
источник
2021 March 05

IK

Ilya Kazakov in Natural Language Processing
https://m.habr.com/ru/post/543826/

Кто-нибудь принимал участие в этом мероприятии? Можете поделиться впечатлениями? Сетап проблемы хорош, но странно, что так плохо с данными.
источник

НК

Николай Карпенко... in Natural Language Processing
Sergey Shulga
Эту либу знаю и использую для других задач. В данном случае подобный классификатор на очень подходит. Особенно если учесть размер документов. Меня ведь не тематика интересует или окрас текста (да за них в этой задаче и цепляться нельзя, это будет преимущественно шум, так как тематика может быть одна для нескольких типов), скорее речь идёт об особенностях структуры документа.
Fasttext ?
источник

НК

Николай Карпенко... in Natural Language Processing
Sergey Shulga
Эту либу знаю и использую для других задач. В данном случае подобный классификатор на очень подходит. Особенно если учесть размер документов. Меня ведь не тематика интересует или окрас текста (да за них в этой задаче и цепляться нельзя, это будет преимущественно шум, так как тематика может быть одна для нескольких типов), скорее речь идёт об особенностях структуры документа.
Тоже интересует классификатор типа документов. Это что-то на уровне литературного жанра. Есть новость, есть техническая документация, есть интервью, есть юридический документ, есть худлит и т.д.
источник

НК

Николай Карпенко... in Natural Language Processing
Любопытно также какие есть решения определить например стиль Толстого или Пушкина.
источник

SS

Sergey Shulga in Natural Language Processing
Николай Карпенко
Тоже интересует классификатор типа документов. Это что-то на уровне литературного жанра. Есть новость, есть техническая документация, есть интервью, есть юридический документ, есть худлит и т.д.
Да, очень похоже
источник

A

Anton in Natural Language Processing
Есть желание попробовать поконтрибьютить в open source либы в NLP. Кто что посоветует? Какого уровня задачки стоит рассматривать на начальном этапе?
источник

DM

Darya Moroz in Natural Language Processing
Anton
Есть желание попробовать поконтрибьютить в open source либы в NLP. Кто что посоветует? Какого уровня задачки стоит рассматривать на начальном этапе?
можете попробовать в DeepPavlov) у нас есть задачки разной сложности
https://github.com/deepmipt/deeppavlov-contrib-drafts/issues
источник

A

Alexander in Natural Language Processing
Sergey Shulga
Эту либу знаю и использую для других задач. В данном случае подобный классификатор на очень подходит. Особенно если учесть размер документов. Меня ведь не тематика интересует или окрас текста (да за них в этой задаче и цепляться нельзя, это будет преимущественно шум, так как тематика может быть одна для нескольких типов), скорее речь идёт об особенностях структуры документа.
А что вы понимаете под структурой документа? Ничего мне не мешает оформить договор по структуре, напоминающий протокол ОСА, или устав оформить, который будет напоминать договор. В юридической практике "тип документа" определяется по существу его содержания, а не по форме.
источник

SS

Sergey Shulga in Natural Language Processing
Alexander
А что вы понимаете под структурой документа? Ничего мне не мешает оформить договор по структуре, напоминающий протокол ОСА, или устав оформить, который будет напоминать договор. В юридической практике "тип документа" определяется по существу его содержания, а не по форме.
Спасибо что рассказали, я в общем сам юрист.  Про "ничего мне не мешает" комментировать не буду. В юридической практике типы документа не определяется. Чтобы понять это, достаточно почитать ГК и вообще понимать приоритет действия НПА.
источник

SL

Shelest Listjev in Natural Language Processing
Ребят, кто может на пару вопросов ответить касательно нового формата трейнинг даты для спейси .spacy — отпишите в личку, пожалуйста!
источник

D•

Dan • Captain in Natural Language Processing
@Alexander_V_C всё ходите со спамом по всем группам? :)
источник

A

Anton in Natural Language Processing
Shelest Listjev
Ребят, кто может на пару вопросов ответить касательно нового формата трейнинг даты для спейси .spacy — отпишите в личку, пожалуйста!
Спросите здесь лучше. В чём именно вопрос?
источник