Size: a a a

Natural Language Processing

2021 December 06

MB

Mark Baushenko in Natural Language Processing
ну я думал в районе 50к
источник

d

dePuff in Natural Language Processing
Для Gpt верю
источник

MB

Mark Baushenko in Natural Language Processing
сколько вы думаете нужно для Т5?
источник

d

daniil in Natural Language Processing
ну t5 в оригинале вроде бы тоже дообучался и на downstream задачи, так что ему вполне может хватить если не 500, то нескольких тысяч уж точно
источник

TM

Toemik Mnemonic in Natural Language Processing
Скорее даже тупее)) "$Привет" -> "$Привет" так как чистка токенов реализована дальше нативными методами строк python)) Просто токенайзер разбивает "$Привет" на 2 токена (префикс $ +Привет) . А нужен 1 токен с "$Привет". Я сейчас гляжу и более человеческий вариант видимо тот о котором, кажется ты пытаешься рассказать. использовать методы токенов. вроде isalpha или кастомный экстеншн
источник

d

dePuff in Natural Language Processing
Я думаю нужно начать учить и решать сначала возникающие проблемы, а потом биться за нужное качество
источник

KS

Konstantin Shitkov in Natural Language Processing
У меня на 2-3к норм взлетало
источник

🐙

🐙 in Natural Language Processing
Я скорее хотел упомянуть, что в spaCy недеструктивные преобразования, и очистить от лишних токенов методами библиотеки не выйдет. Зато можно заменить токенизатор на свой, это нормально и поддерживается.
источник

TM

Toemik Mnemonic in Natural Language Processing
да, с этим тезисом тоже сейчас ознакомился, спасибо
источник

d

dePuff in Natural Language Processing
🥲🥲🥲
источник

DD

David Dale in Natural Language Processing
По-моему, здесь играет роль, какую именно T5 дообучать.
Если брать гугловскую англоязычную T5 или мою русскую multitask, то они действительно видели десятки задач, и на новые обобщаются довольно быстро.
А если брать гугловскую мультиязычную T5, или сберовские русские T5 "как есть", то они обучались только на MLM, и другие задачи схавывают не сразу.
источник

d

dePuff in Natural Language Processing
Я когда-нибудь поработаю с чат-ботиками, да )
источник

d

dePuff in Natural Language Processing
Они как раз к тому времени никому не нужны будут)
источник

d

dePuff in Natural Language Processing
В общем слушай тех, кто подобное делал

По сути, к отвечалке действительно требований не много.
Грамотное предложение в тему и ок.
источник

MB

Mark Baushenko in Natural Language Processing
Всем спасибо!
источник

VS

Vyacheslav Sherkunov in Natural Language Processing
Добрый день всем! Вопрос по pullenti, что сейчас актуально для работы с последней версией для python? Клиент+сервер или библиотека есть? И есть ли какие-то примеры, поскольку на оф. сайте всё под обертку с C#.
источник

KS

Konstantin Shitkov in Natural Language Processing
Есть либа
источник

VS

Vyacheslav Sherkunov in Natural Language Processing
https://pypi.org/project/pullenti/ если вот эта, то есть ли к ней какие-то примеры и инструкции?
источник

KS

Konstantin Shitkov in Natural Language Processing
На офф сайте есть примеры под питон в том числе
источник

χλ

χоρоший ☽☽☽ λисuчко... in Natural Language Processing
Не писал несколько лет, врываюсь с вопросом странном
источник