Size: a a a

Natural Language Processing

2021 May 29

РН

Роман Некрасов... in Natural Language Processing
источник

AW

Alex Wortega in Natural Language Processing
Всем привет, а кто нибудь видел годные pre trained dialog gpt?
источник

AW

Alex Wortega in Natural Language Processing
Ну или eng conversational что нибудь?
источник
2021 May 30

SS

Sergey Sikorskiy in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Loreta Agolli кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @SweetThreat, @SamsonovaDaria, @wadimiusz, @winwim
При поддержке Золота Бородача
источник

∫(Dave)dx = ( ͡° ͜ʖ ... in Natural Language Processing
Ребят, есть у кого на памяти датасеты, которые можно использовать для проблемы уникализации текстов. До недавнего времени думал, что это невозможно, но затем наткнулся на этот сервис - https://sin-ai.ru/. В общем теперь вот думаю как повторить, но основная проблема - отсутствие данных..

Возможно есть датасеты по такому типу?
источник

AK

Anton Kolonin in Natural Language Processing
А надо с ошибками перефразировать, как в примере, или без ошибок?
источник

∫(Dave)dx = ( ͡° ͜ʖ ... in Natural Language Processing
Та хотелось бы без ошибок, стандартная проблема повышения уникальности текста (надо чтобы человек смог прочесть и не умереть от фейспалма)
источник

∫(Dave)dx = ( ͡° ͜ʖ ... in Natural Language Processing
Мне вот это сообщение помогло
источник

∫(Dave)dx = ( ͡° ͜ʖ ... in Natural Language Processing
Переслано от David Dale
https://github.com/RussianNLP/russian_paraphrasers - тяжелые и крутые нейросетевые парафразеры от Сбера
https://github.com/avidale/dependency-paraphraser  - маленький дурацкий парафразер на основе словных эмбеддингов и синтаксического дерева; может быть полезен, если хочется проследить, куда при перефразировании переезжают определённые подстроки текста.
источник

D

Djony in Natural Language Processing
Привет всем! Подскажите в какую сторону копать: в данных есть поле с названием товара (допустим ноутбук), есть фирма, модель, какие-то характеристики (ОЗУ, процессор, жёсткий диск (ssd, hdd) и тд). Помимо этого поля есть есть дата, время и цена покупки товара. Итоговая задача - по дате, времени и цене предсказывать какой ноутбук купили. Но тк комплектации разные, необходимо как то работать с полем названия. Как это лучше сделать? Для начала думал объеденить все записи с одинаковыми моделями. Как это лучше сделать? Что использовать? В какую сторону смотреть?  Заранее спасибо!!!
источник

DD

David Dale in Natural Language Processing
Таких датасетов не очень много для русского, но есть:
1) http://paraphraser.ru/download/
2) https://github.com/RussianNLP/russian_paraphrasers/tree/master/dataset
3) https://huggingface.co/datasets/tapaco (тут есть подкорпус русских парафраз, он странненький, но в дополнение с другими данными сойдёт)
источник

VP

Vladimir P in Natural Language Processing
я правильно поонимаю, в название ноутбука входит информация о его характеристиках?
источник

D

Djony in Natural Language Processing
Да, всё верно🙂 например: Ноутбук Apple MacBook Air 13 Late 2020 (Apple M1/13.3"/2560x1600/8GB/256GB SSD/DVD нет/Apple graphics 7-core/Wi-Fi/macOS) 
источник

VP

Vladimir P in Natural Language Processing
А много ли разных ноутбуков с одинаковой ценой? Если очень мало, то почему бы не сделать словарь цена->ноутбук и просто находить соответствие
источник

D

Djony in Natural Language Processing
Цена меняется с течением времени, ну и хотелось бы с nlp  и тд поработать
источник

DD

David Dale in Natural Language Processing
Если входные фичи - только время и цена, то поле с характеристиками можно вообще оставить как есть, и "предсказывать" его методом ближайших соседей. Нужно будет только такой масштаб цены и времени подобрать, чтобы они в одной функции расстояния адекватно вместе участвовали.
Так, конечно, ты никогда не сможешь предсказать такой ноутбук, которого не было в обучающей выборке, но нужно ли тебе это?
источник

∫(Dave)dx = ( ͡° ͜ʖ ... in Natural Language Processing
Спасибо))
источник

D

Djony in Natural Language Processing
Спасибо! Которого не было, конечно не надо🙂 а если улучшать модель дальше? Те цена на одну модель может быть разная в зависимости от начинки
источник

K

Ksenia in Natural Language Processing
А нельзя регулярками поработать и выделить характеристики и в табличную форму привести? Тогда по идее получится задача на предсказание вектора характеристик — многомерная регрессия какая-нибудь (бывает такое вообще)?
источник