Size: a a a

Natural Language Processing

2020 July 03

РН

Роман Некрасов... in Natural Language Processing
👍
источник

YB

Yuri Baburov in Natural Language Processing
огромное спасибо за вашу работу! paraphrasing datasets — очень важная штука для повышения точности векторных моделей.
источник

SM

Sasha Marova in Natural Language Processing
Друзья привет,помогите,пожалуйста с док2век. Если ее просто инициализировать doc2vec.Doc2Vec(docs,size=100) он и так выдает векторы,зачем же эпохи обучения? Или он выдает просто рандомные значения? Наверное,все- таки нет. И не понятно с build_vocab.в Word2vec он нужен,если изменяем изначальный словарь,а здесь? Я и такие, и такие примеры нахожу,что меня окончательно запутало...
источник

AK

Alexander Kukushkin in Natural Language Processing
Mikhail Tikhomirov
Добрый день! Возник вопрос, доступен ли NewsRuBERT в открытом доступе?
Доступен но не описан. Скрипт для тренировки https://github.com/natasha/slovnet/blob/master/scripts/01_bert_news/main.ipynb
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Alexander Kukushkin
Доступен но не описан. Скрипт для тренировки https://github.com/natasha/slovnet/blob/master/scripts/01_bert_news/main.ipynb
А где можно ссылочку найти?
И также возник вопрос: ExponentialLR лучше работает, чем линейный?
источник

AK

Alexander Kukushkin in Natural Language Processing
Ссылочку на веса? В скрипте закопаны https://storage.yandexcloud.net/natasha-slovnet/01_bert_news/rubert/{emb.pt,encoder.pt,mlm.pt} . Линейны кажется на тестировался
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Спасибо!
источник

MT

Mikhail Tikhomirov in Natural Language Processing
А сколько в сумме шагов было сделано? Не вижу в скрипте итоговое количество шагов \ эпох
источник

AK

Alexander Kukushkin in Natural Language Processing
Mikhail Tikhomirov
А сколько в сумме шагов было сделано? Не вижу в скрипте итоговое количество шагов \ эпох
Да, эта инфа утеряна. Но я кажется примерно восстановил. Там 12Гб тренировочных данных, ~4.7 млн. новостей. Модель видела данные 1 раз. Размер батча 32 x 128, в него влезает ~20 новостных статей. Получается всего батчей было ~235 000. Работало примерно сутки на V100
источник

MT

Mikhail Tikhomirov in Natural Language Processing
А, модель понял, модель недоучилась получается, скорее всего.
Просто обучал схожую модель на 8 миллионах новостей, но там я прогнал 4 миллиона шагов примерно.

Кстати, 128 размер последовательности? На опубликованной страничке указано, что применялись подходы от RoBERTa, там вроде был совет про 512 последовательность на трейне, если я не ошибаюсь.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Хочу просто понять как другие люди решают задачу дообучения берта на предметную область (новости в данном случае) и как это делать лучше.
источник

AK

Alexander Kukushkin in Natural Language Processing
Да, 128 размер последовательности. Ну в этом месте в Slovnet не как в Roberta. В среднем размер новости — 200. То есть мы видим примерно пол статьи за раз, вроде норм. Потребление памяти растёт квадратично. Если сделать 512, нужно в 16 раз больше памяти. Получаются совсем маленькие батчи, долго трнировать
источник

MT

Mikhail Tikhomirov in Natural Language Processing
А есть ли лёгкий способ воспроизвести Ваши измерения на этих ner датасетах с другими весами?
источник

AK

Alexander Kukushkin in Natural Language Processing
Не понял вопрос
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Содержится ли скрипт у Вас по запуску данного эксперимента?
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Хочу запустить со своим бертом
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Интересно, дало ли и сколько качества более длительное обучение
источник

AK

Alexander Kukushkin in Natural Language Processing
Скрипт для тренировки NER https://github.com/natasha/slovnet/blob/master/scripts/02_bert_ner/main.ipynb . Как минимум нужно будет адаптировать веса BERT, с Slovnet немного своя реализация https://github.com/natasha/slovnet/blob/master/slovnet/model/bert.py

Мой опыт подсказывает что смысла мало. Если вставить вместо NewsRuBert RuBert от Deeppavlov разницы в NER особо не будет.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Ну так Ваш NewsRuBert тренировался мало. На Нашем эксперименте по суммаризации был хороший прирост над RuBERT, но это еще не факт, что он будет тут.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
А есть пример адапта весов RuBERT к Вашему формату?
источник