Size: a a a

Natural Language Processing

2019 December 27

A

Aragaer in Natural Language Processing
классификатор и теггер натренил на синтетических данных, которые сгенерил через RiveScript
источник

A

Aragaer in Natural Language Processing
результат меня пока устраивает
источник

A

Aragaer in Natural Language Processing
теперь вот смотрю в сторону генерации
источник

V

Vlad in Natural Language Processing
Aragaer
ну в смысле я не прикрутил. Я взял flair, сделал language model, натренил ее на яндексовском датасете
А можете поделиться ссылкой на этот датасет? Не встречал от Яндекса
источник

A

Aragaer in Natural Language Processing
источник

A

Aragaer in Natural Language Processing
и я вроде вчера скидывал свой код, который его приводит в вид, удобный для обучения
источник

A

Aragaer in Natural Language Processing
https://github.com/aragaer/human2pa/blob/flair/human2pa/tlk.py - тут функции, которые скачивают, распаковывают, расковыривают и сохраняют в виде текста
источник

V

Vlad in Natural Language Processing
Спасибо, поизучаю)
источник

A

Aragaer in Natural Language Processing
идея - а если сделать через автоэнкодер? человеческий текст -> выделить интент и параметры -> переписать в виде входных данных для генератора -> сгенерить и сверить с оригиналом
источник

VB

Vladimir Bougay in Natural Language Processing
источник

VB

Vladimir Bougay in Natural Language Processing
Вот ещё любопытное к вчерашнему эпичному обсуждению
источник

SP

Sebastian Pereira in Natural Language Processing
Коллеги, у меня есть большой датасет (на самом деле понятно, что почти бесконечный при необходимости) с рецептами (это два-три параграфа) , и есть тексты (статьи) в которых я должен находить рецепты. Не очень понимаю с какой стороны подступиться к этой задаче.
источник

SP

Sebastian Pereira in Natural Language Processing
То есть у меня была идея сделать с Flair некое облако векторов, и прверять каждый параграф текста в статье на совпадение с центром этого облака.
источник

SP

Sebastian Pereira in Natural Language Processing
Но  я смутно понимаю, что скорее всего уже решалась подобная задача проще.
источник

D(

David (ddale) Dale in Natural Language Processing
Sebastian Pereira
Коллеги, у меня есть большой датасет (на самом деле понятно, что почти бесконечный при необходимости) с рецептами (это два-три параграфа) , и есть тексты (статьи) в которых я должен находить рецепты. Не очень понимаю с какой стороны подступиться к этой задаче.
Ты можешь взять произвольный корпус текстов в качестве отрицательных примеров, а рецепты в качестве положительных. И обучить любой текстовый классификатор отличать рецепты от нерецептов.  В качестве единицы классификации можно взять предложение или абзац.
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Коллеги, у меня есть большой датасет (на самом деле понятно, что почти бесконечный при необходимости) с рецептами (это два-три параграфа) , и есть тексты (статьи) в которых я должен находить рецепты. Не очень понимаю с какой стороны подступиться к этой задаче.
Размечай с помощью ner продукты, дозировки и действия (взбить, перемешать, добавить). Где есть продукты, дозировки и действия -- там рецепт, особенно, когда весь абзац про это.
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
Размечай с помощью ner продукты, дозировки и действия (взбить, перемешать, добавить). Где есть продукты, дозировки и действия -- там рецепт, особенно, когда весь абзац про это.
Вот это путь в никуда, так у меня сейчас работает.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
Размечай с помощью ner продукты, дозировки и действия (взбить, перемешать, добавить). Где есть продукты, дозировки и действия -- там рецепт, особенно, когда весь абзац про это.
Упрощение -- классификатор, соответственно, он сам внутри себя разметит слова
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Вот это путь в никуда, так у меня сейчас работает.
А что не так?
источник

SP

Sebastian Pereira in Natural Language Processing
я сделал частотный анализ уникальных слов в рецептах - но в статьях часто упоминается один-два иyгрдиента или действия.
источник