Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

1772 membersпожаловаться на группу

2020 July 16

Alejandro Hernández in Natural Language Processing

I guess I’ll use Bert to translate this group to spanish 😂

источник

19:53пожаловаться #1

Yura in Natural Language Processing

Всем привет! Может кто-принимал участие в соревновании RUSSE WSI 2018 https://nlpub.github.io/russe-wsi-kit/? И сможет подсказать некоторые моменты в личке, например, а то тут долго расписывать)

источник

23:14пожаловаться #2

2020 July 17

Anton in Natural Language Processing

1) bertpunc восстанавливает пунктуацию (предобучен на английском языке) мне необходимо на русском языке
2) использует BertForMaskedLM в качестве основы
3) имеет ли смысл использовать DeepPavlov в данном случае?
4) при инициализации DP сообщает что остутствуют веса для некоторых слоев. Потребуется обучение ? Какой примерно должен быть объем текста для такой задачи? (использую русские тексты писателей)

С BERT только-только вникаю. Помогите разобраться.

P.S. своя модель seq2seq с attention по русской пунктуации показала не очень результаты

источник

14:53пожаловаться #3

АН

Александр Нагаев... in Natural Language Processing

очень странно, ибо моя модель seq2seq с attention показала отличные результаты)

источник

15:27пожаловаться #4

Den in Natural Language Processing

а по русскому gpt-2 снова всё глухо

источник

15:36пожаловаться #5

Mikhail Tikhomirov in Natural Language Processing

Вам наверняка уже говорили, но русский отличный gpt-2 есть в репозитории ru_transformers. Успешно пользовался, никаких трудностей не возникло.

источник

15:40пожаловаться #6

Den in Natural Language Processing

Mikhail Tikhomirov

вы у нас человек эрудированные, сравните типичную модель совместимую с transformers из коробки и это чудо, токенайзер сделан через жопу. Мало того, работа ведётся в google colab, привязка к скриптам билда крайне не желательна, плюс в самом репозитории отсутствуют инструкции для этого случая.

источник

15:48пожаловаться #7

Mikhail Tikhomirov in Natural Language Processing

Да, пришлось потратить на 2 минуты больше времени.

источник

15:49пожаловаться #8

Den in Natural Language Processing

Если бы он был сделан не через жопу, этого бы не было

OSError: Model name './all/unfreeze_all/m_checkpoint-3364613/' was not found in tokenizers model name list (gpt2, gpt2-medium, gpt2-large, gpt2-xl, distilgpt2). We assumed './all/unfreeze_all/m_checkpoint-3364613/' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.json', 'merges.txt'] but couldn't find such vocabulary files at this path or url.

источник

15:50пожаловаться #9

Den in Natural Language Processing

tl;dr: 📣 YYTM !== transformers

источник

15:53пожаловаться #10

Den in Natural Language Processing

а значит цикл замыкается и мы возвращаемся к тому что мне нужна полностью совместимая тренированная русская модель GPT-2 (желательно XL)

источник

15:55пожаловаться #11

Mikhail Tikhomirov in Natural Language Processing

gpt-2 это архитектура, модель присутствует. Чтобы запустить через transformers нужно сделать пару импортов и изменить несколько строк кода.

источник

15:57пожаловаться #12

Den in Natural Language Processing

только вот об этом в readme не написано

источник

15:57пожаловаться #13

Mikhail Tikhomirov in Natural Language Processing

Тут Вы либо пробуете это сделать, либо ждёте пока кто-то это сделает за Вас. Но говорить что модели нет / она плохая и тп, не корректно.

источник

15:58пожаловаться #14

Mikhail Tikhomirov in Natural Language Processing

Модель обучил и выложил энтузиаст в открытый доступ, это не коммерческий продукт или ещё что-то, поэтому ожидать что могут быть какие либо проблемы или неудобства - нормально.

источник

15:58пожаловаться #15

Den in Natural Language Processing

Mikhail Tikhomirov

мне бы не хотелось сидеть и ждать лет пять пока кто-нибудь почешется

источник

15:59пожаловаться #16

Oleg Serikov in Natural Language Processing

вот и открывай потом доступ к своему коду...

источник

16:01пожаловаться #17

Oleg Serikov in Natural Language Processing