Size: a a a

Natural Language Processing

2021 April 12

C

Constantin in Natural Language Processing
Добрый день. Кому-нибудь известны готовые решения исправления опечаток с учётом контекста. Уточню, речь идет про технику типа расстояние Левенштейна + контекст для разрешения неоднозначности.
источник

DD

David Dale in Natural Language Processing
А датасет неразмеченный?
Если да, то ничего сильно лучше "короля+женщины" получить не удастся, а это всего лишь со-встречаемость слов, а не настоящая семантика.
Хорошие sentence encoder'ы нуждаются в supervised сигнале для обучения. Это может быть задача NLI (как в USE и некоторых версиях sentence BERT), задачи перевода (как в LABSE или Laser), задача перефразирования, и тому подобные задачи, которые в явном виде требуют понимать смысл предложения.

Если такого нет, предлагаю просто BERT на вашем датасете пофайнтюнить (на задачу MLM), и в качестве вектора фразы использовать средний вектор токенов с последнего слоя берта.
источник

РН

Роман Некрасов... in Natural Language Processing
Начните с FastText (https://fasttext.cc/). После чего попробуйте Bert (https://huggingface.co/transformers/). Векторные представления вы получите. Вопрос лишь для чего они вам нужны?
источник

EU

Egor Urvanov in Natural Language Processing
Бывают задачи, в которых fasttext, например, будет хуже того же BM25
источник

EU

Egor Urvanov in Natural Language Processing
Так что это не всегда панацея
источник
2021 April 13

L

La in Natural Language Processing
Привет всем. Пытаюсь понять, как сделать программу, которая принимала бы текст и выдавала его краткий смысл.
источник

E

Elena in Natural Language Processing
видимо, это задача суммаризации?
источник

D

Dmitry in Natural Language Processing
Либо задача выделения фактов)
источник

L

La in Natural Language Processing
Спасибо, похоже.
источник

D

Dmitry in Natural Language Processing
Решаются они по разному
источник

C

Constantin in Natural Language Processing
Ищу человека, которые хорошо разбирается в библиотеке transformers (huggingface models) для python. Нужно проконсультироваться по файнтюнингу. Готов заплатить. Проблема на поверхности, лазить в код не нужно особо. Напишите в ЛС.
источник

A

Anton in Natural Language Processing
Напиши какая проблема.
источник

C

Constantin in Natural Language Processing
Уточняю: нужно зафайнтюнить TFXMLRoBERTa на token classification
источник

C

Constantin in Natural Language Processing
проблема будет понятна из контекста, пока не готов её достаточно конкретно описать.
источник

SM

Syuzanna Martirosyan in Natural Language Processing
добрый день! скажите, пожалуйста, можно где-нибудь посмотреть решения или туториалы, как из TFXMLRoBERTa смастерить генератор эмбеддингов для токенов и на выходе получать размеченные данные для NER’a? или может похожие задачи решались где-то
источник

FF

Futorio Franklin in Natural Language Processing
Какой-то хаккатон начался?
источник

SM

Syuzanna Martirosyan in Natural Language Processing
я пишу диплом и мне научный руководитель такую задачу поставил
источник

GF

Grigory Frantsuzov in Natural Language Processing
)) похоже
источник

SM

Syuzanna Martirosyan in Natural Language Processing
потом мне на этих размеченных данных другую модель обучать
источник

SM

Syuzanna Martirosyan in Natural Language Processing
но это когда я смогу нагенерить их
источник