Телеграмм чат группы natural_language

с нуля. Языковая модель это две модели по полмегабайта, классификатор 6 мегов

13:44пожаловаться #1

Alexander Kukushkin

Какие-то попытки были, по-моему мало смысла

теоретически, как понимаю, смысл в том чтобы среднее количество токенов на новость было меньше. Но я даже не уверен, насколько станет лучше, если обучить свою токенизацию. Отличный повод проверить, на самом деле.

Futorio Franklin in Natural Language Processing

13:44пожаловаться #2

Aragaer

с нуля. Языковая модель это две модели по полмегабайта, классификатор 6 мегов

Интересно архитектуру посмотреть

13:47пожаловаться #3

архитектура языковой модели - LanguageModel из flair с одним скрытым слоем размера 128. Таких две - одна forward, другая backward. Эмбеддинги делаются как сочетание их обоих, после чего классификатор через их же DocumentRNNEmbeddings со скрытым слоем 512 и reproject_words 256 (если б я помнил, что это такое...)

Futorio Franklin in Natural Language Processing

13:50пожаловаться #4

Прикольно, а это стандартная практика делать forward и backward эмбеддинги?

13:52пожаловаться #5

не знаю. Я когда-то раньше это делал для других экспериментов, а теперь просто скопировал.

Radion Bikmukhamedov in Natural Language Processing

13:53пожаловаться #6

Aragaer

а я еще тут похвастаюсь. Сделал на flair сетку чтобы наименования товаров из чека превращать в категории типа мясо/овощи/консервы. 200 строк хватило, чтобы выдавать очень неплохие результаты.

Как в сравнении с tfidf- log regr?

17:08пожаловаться #7

не пробовал

17:28пожаловаться #8

2020 July 10

Немного по поводу токенизации, @alexkuk. Я провел следующий маленький эксперимент:
1) Взял первые 100к документов из датасета по ленте
2) Токенизировал их четырьмя токенайзерами: multilingual-bert-base-cased RuBERT, Ваш NewsRuBERT и обученный на 50к сабтокенов на 8 миллионах новостных статях (мой)
3) Посчитал mean и std от длин

multilingual-bert-base-cased: ~120к словарь, mean=362 std=186
RuBERT: ~120к словарь, mean=230 std=121
NewsRuBERT: ~50к словарь, mean=244 std=129
8kk news: ~50к словарь, mean=232 std=124

Итого, в принципе, создание новой токенизации имеет смысл, но вероятно не особо большой, ибо средняя длина документа у NewsRuBERT всего на ~5% больше чем в остальных случаях.

Хотя попробовать и посмотреть что выйдет, все же стоит. Ибо интересно.

14:30пожаловаться #9

@alexkuk А когда Вы обучали новостной берт, вы морозили сам трансформер на какое то время? Или сразу обучали вместе с новой головой?

Alexander Kukushkin in Natural Language Processing

14:56пожаловаться #10

Mikhail Tikhomirov

Сразу

Alexander Kukushkin in Natural Language Processing

15:30пожаловаться #11

@mtikhomi кстати что это за датасет из 8кк новостей?

15:32пожаловаться #12

Который использовался в соревновании по предсказанию гиперонимов на Диалоге этого года, News2017

15:33пожаловаться #13

Такое название использовал в своей статье, какого-то отдельного названия у него нет

15:34пожаловаться #14

https://competitions.codalab.org/competitions/22168
вот компетишн, в котором есть ссылка на датасет

15:34пожаловаться #15

Единственное что, в нем тексты немного неудобно представлены:
там список датафреймов. Каждая строка - документ. Для каждого документа список предложений (надо с помощью json.loads грузить от поля). Текст в предложениях разбит таким образом, что все слова отделены от пунктуации.

15:36пожаловаться #16

И в этом моя вина, на самом деле

15:36пожаловаться #17

Некоторые документы могут быть пустыми еще вроде, надо проверять.

15:37пожаловаться #18

около 22-24 гб если в плейн текст преобразовывать, если правильно помню.

Alexander Kukushkin in Natural Language Processing

15:38пожаловаться #19

Ничесе, сами наскрапили? Нет описания? Не нашел ссылочку, нужно быть участником?