Size: a a a

Natural Language Processing

2020 July 16

AH

Alejandro Hernández in Natural Language Processing
I guess I’ll use Bert to translate this group to spanish 😂
источник

Y

Yura in Natural Language Processing
Всем привет! Может кто-принимал участие в соревновании RUSSE WSI 2018 https://nlpub.github.io/russe-wsi-kit/? И сможет подсказать некоторые моменты в личке, например, а то тут долго расписывать)
источник
2020 July 17

A

Anton in Natural Language Processing
1) bertpunc восстанавливает пунктуацию (предобучен на английском языке) мне необходимо на русском языке
2) использует BertForMaskedLM в качестве основы
3) имеет ли смысл использовать DeepPavlov в данном случае?
4) при инициализации DP сообщает что остутствуют веса для некоторых слоев. Потребуется обучение ? Какой примерно должен быть объем текста для такой задачи? (использую русские тексты писателей)

С BERT только-только вникаю. Помогите разобраться.

P.S. своя модель seq2seq с attention по русской пунктуации показала не очень результаты
источник

АН

Александр Нагаев... in Natural Language Processing
очень странно, ибо моя модель seq2seq с attention показала отличные результаты)
источник

D

Den in Natural Language Processing
а по русскому gpt-2 снова всё глухо
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Вам наверняка уже говорили, но русский отличный gpt-2 есть в репозитории ru_transformers. Успешно пользовался, никаких трудностей не возникло.
источник

D

Den in Natural Language Processing
Mikhail Tikhomirov
Вам наверняка уже говорили, но русский отличный gpt-2 есть в репозитории ru_transformers. Успешно пользовался, никаких трудностей не возникло.
вы у нас человек эрудированные, сравните типичную модель совместимую с transformers из коробки и это чудо, токенайзер сделан через жопу. Мало того, работа ведётся в google colab, привязка к скриптам билда крайне не желательна, плюс в самом репозитории отсутствуют инструкции для этого случая.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Да, пришлось потратить на 2 минуты больше времени.
источник

D

Den in Natural Language Processing
Если бы он был сделан не через жопу, этого бы не было
OSError: Model name './all/unfreeze_all/m_checkpoint-3364613/' was not found in tokenizers model name list (gpt2, gpt2-medium, gpt2-large, gpt2-xl, distilgpt2). We assumed './all/unfreeze_all/m_checkpoint-3364613/' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.json', 'merges.txt'] but couldn't find such vocabulary files at this path or url.
источник

D

Den in Natural Language Processing
tl;dr: 📣 YYTM !== transformers
источник

D

Den in Natural Language Processing
а значит цикл замыкается и мы возвращаемся к тому что мне нужна полностью совместимая тренированная русская модель GPT-2 (желательно XL)
источник

MT

Mikhail Tikhomirov in Natural Language Processing
gpt-2 это архитектура, модель присутствует. Чтобы запустить через transformers нужно сделать пару импортов и изменить несколько строк кода.
источник

D

Den in Natural Language Processing
только вот об этом в readme не написано
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Тут Вы либо пробуете это сделать, либо ждёте пока кто-то это сделает за Вас. Но говорить что модели нет / она плохая и тп, не корректно.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Модель обучил и выложил энтузиаст в открытый доступ, это не коммерческий продукт или ещё что-то, поэтому ожидать что могут быть какие либо проблемы или неудобства - нормально.
источник

D

Den in Natural Language Processing
Mikhail Tikhomirov
Модель обучил и выложил энтузиаст в открытый доступ, это не коммерческий продукт или ещё что-то, поэтому ожидать что могут быть какие либо проблемы или неудобства - нормально.
мне бы не хотелось сидеть и ждать лет пять пока кто-нибудь почешется
источник

OS

Oleg Serikov in Natural Language Processing
вот и открывай потом доступ к своему коду...
источник

OS

Oleg Serikov in Natural Language Processing
"где у этих энтузиастов отдел качества саппорта, соедините меня с менеджером"
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Так не сидите, адаптируйте под себя. Время, которое Вы тратите на сообщения с негодованиями хватило бы, чтобы это сделать
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Мне кажется студент первого курса справился бы с этим :)
источник