Size: a a a

Natural Language Processing

2019 December 27

SP

Sebastian Pereira in Natural Language Processing
Много мусора
источник

SP

Sebastian Pereira in Natural Language Processing
надо делать какое-то правило, а хочется обойтись без правил, идея с классификатором - попробую, но может что-то уже более высокоуровневое есть.
источник

SP

Sebastian Pereira in Natural Language Processing
уже есть эмбединги параграфов, например
источник

SP

Sebastian Pereira in Natural Language Processing
сделать что-то на основе косинусной близости
источник

D(

David (ddale) Dale in Natural Language Processing
Sebastian Pereira
уже есть эмбединги параграфов, например
Ну можешь для начала попробовать логрег поверх них
источник

SP

Sebastian Pereira in Natural Language Processing
David (ddale) Dale
Ну можешь для начала попробовать логрег поверх них
можно подробней?
источник

D(

David (ddale) Dale in Natural Language Processing
Sebastian Pereira
можно подробней?
У тебя есть какая-то функция, которая берет параграф и возвращает его эмбеддинг, верно?
Возьми много параграфов-рецептов, и много параграфов-нерецептов (если нет примеров нерецептов - возьми Тайгу или любой другой корпус), извлеки из них эмбеддинги, они будут твоей единственной фичой. И по этой фиче учи логрег отличать рецепты от нерецептов.
источник

ck

cnstntn kndrtv in Natural Language Processing
Посоветуйте пожалуйста, чем сгенерить синтетический датасет?
Тексты по шаблону формата субъект-действие(связь)-объект.
Хорошо бы при этом сохранить стиль исходного корпуса (юридические, строительные документы со своеобразным стилем) и чтобы сгенерированные тексты отличались разнообразием.
Цель - нет возможности размечать датасет для выделения семантических связей, сущностей - хочу синтезировать и обучить на этом модель.
источник

ck

cnstntn kndrtv in Natural Language Processing
как-то так - есть тройка понятий, связанных
мама--имеетСпособностьМыть--рама.
все сущности имеют writenRepresentation и какой-то синсет
мама : [мама, мать],
рама : [рама, окно],
имеетСособностьМыть : [мыть]
Видится что должно быть как-то так:
1. нагенерить по шаблонам предложений: мама мыла раму, моет мама раму, рама мамой моется.
2. какой-то моделькой "украсить" текст. Чтобы "мама мыла раму" стало "мама рано утром эротично мыла тряпкой раму на радость папе")
Текст по шаблонам - что-то видел, но не нашел. Вроде тут кто-то давал ссылку на свой репозиторий - тоже не нашел.
Украшательства текста. Тут GPT-2 справится?
источник

A

Aragaer in Natural Language Processing
я бы просто rivescript-ом нагенерил фраз
источник

D(

David (ddale) Dale in Natural Language Processing
Текст по шаблонам хорошо грамматиками генерить. Если с толком написать, получится богато)
источник

ck

cnstntn kndrtv in Natural Language Processing
Aragaer
я бы просто rivescript-ом нагенерил фраз
а он сможет? когда-то давно был контрибьютором этого проекта и если у них ничего не поменялось - у них движок правил на конечных автоматах (с синтаксисом из ChatScript - проекта из 90х) и вроде всё. Нет?
источник

ck

cnstntn kndrtv in Natural Language Processing
David (ddale) Dale
Текст по шаблонам хорошо грамматиками генерить. Если с толком написать, получится богато)
Как бы мне по-быстрому запилить прототип, чтобы за день протестить идею? Вроде ты ссылку скидывал на свой репозиторий?
источник

D(

David (ddale) Dale in Natural Language Processing
cnstntn kndrtv
Как бы мне по-быстрому запилить прототип, чтобы за день протестить идею? Вроде ты ссылку скидывал на свой репозиторий?
Ну вот тут я nltk'шную CFG  юзаю
https://github.com/avidale/arxivarius
источник

ck

cnstntn kndrtv in Natural Language Processing
David (ddale) Dale
Ну вот тут я nltk'шную CFG  юзаю
https://github.com/avidale/arxivarius
спасибо
источник

A

Aragaer in Natural Language Processing
cnstntn kndrtv
а он сможет? когда-то давно был контрибьютором этого проекта и если у них ничего не поменялось - у них движок правил на конечных автоматах (с синтаксисом из ChatScript - проекта из 90х) и вроде всё. Нет?
ну да, но для генерации фраз для синтетического набора данных мне этого вполне пока хватает
источник

A

Aragaer in Natural Language Processing
ну то есть как - у меня райвскрипт используется для того, чтобы взять входную "базовую фразу" и выдать что-то соответствующее по одному из подготовленных шаблонов. Отдельные куски вставляются/меняются рандомом, поэтому из 100 вызовово получаются 100 разных фраз.
источник

ck

cnstntn kndrtv in Natural Language Processing
Aragaer
ну то есть как - у меня райвскрипт используется для того, чтобы взять входную "базовую фразу" и выдать что-то соответствующее по одному из подготовленных шаблонов. Отдельные куски вставляются/меняются рандомом, поэтому из 100 вызовово получаются 100 разных фраз.
А там как с русским сейчас? Можно подать 3 леммы и чтобы он их согласовал как-нибудь?
источник

A

Aragaer in Natural Language Processing
я сам согласовывал в свое время
источник

A

Aragaer in Natural Language Processing
то есть я к нему относился именно как к генератору, который в определенных местах с разными вероятностями возьмет разные ветки строк
источник