Size: a a a

Natural Language Processing

2020 July 09

A

Aragaer in Natural Language Processing
с нуля. Языковая модель это две модели по полмегабайта, классификатор 6 мегов
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Alexander Kukushkin
Какие-то попытки были, по-моему мало смысла
теоретически, как понимаю, смысл в том чтобы среднее количество токенов на новость было меньше. Но я даже не уверен, насколько станет лучше, если обучить свою токенизацию. Отличный повод проверить, на самом деле.
источник

FF

Futorio Franklin in Natural Language Processing
Aragaer
с нуля. Языковая модель это две модели по полмегабайта, классификатор 6 мегов
Интересно архитектуру посмотреть
источник

A

Aragaer in Natural Language Processing
архитектура языковой модели - LanguageModel из flair с одним скрытым слоем размера 128. Таких две - одна forward, другая backward. Эмбеддинги делаются как сочетание их обоих, после чего классификатор через их же DocumentRNNEmbeddings со скрытым слоем 512 и reproject_words 256 (если б я помнил, что это такое...)
источник

FF

Futorio Franklin in Natural Language Processing
Прикольно, а это стандартная практика делать forward и backward эмбеддинги?
источник

A

Aragaer in Natural Language Processing
не знаю. Я когда-то раньше это делал для других экспериментов, а теперь просто скопировал.
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Aragaer
а я еще тут похвастаюсь. Сделал на flair сетку чтобы наименования товаров из чека превращать в категории типа мясо/овощи/консервы. 200 строк хватило, чтобы выдавать очень неплохие результаты.
Как в сравнении с tfidf- log regr?
источник

A

Aragaer in Natural Language Processing
не пробовал
источник
2020 July 10

MT

Mikhail Tikhomirov in Natural Language Processing
Немного по поводу токенизации, @alexkuk. Я провел следующий маленький эксперимент:
1) Взял первые 100к документов из датасета по ленте
2) Токенизировал их четырьмя токенайзерами: multilingual-bert-base-cased RuBERT, Ваш NewsRuBERT и обученный на 50к сабтокенов на 8 миллионах новостных статях (мой)
3) Посчитал mean и std от длин

multilingual-bert-base-cased: ~120к словарь, mean=362 std=186
RuBERT: ~120к словарь, mean=230 std=121
NewsRuBERT: ~50к словарь, mean=244 std=129
8kk news: ~50к словарь, mean=232 std=124

Итого, в принципе, создание новой токенизации имеет смысл, но вероятно не особо большой, ибо средняя длина документа у NewsRuBERT всего на ~5% больше чем в остальных случаях.

Хотя попробовать и посмотреть что выйдет, все же стоит. Ибо интересно.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
@alexkuk А когда Вы обучали новостной берт, вы морозили сам трансформер на какое то время? Или сразу обучали вместе с новой головой?
источник

AK

Alexander Kukushkin in Natural Language Processing
Mikhail Tikhomirov
@alexkuk А когда Вы обучали новостной берт, вы морозили сам трансформер на какое то время? Или сразу обучали вместе с новой головой?
Сразу
источник

AK

Alexander Kukushkin in Natural Language Processing
@mtikhomi кстати что это за датасет из 8кк новостей?
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Который использовался в соревновании по предсказанию гиперонимов на Диалоге этого года, News2017
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Такое название использовал в своей статье, какого-то отдельного названия у него нет
источник

MT

Mikhail Tikhomirov in Natural Language Processing
https://competitions.codalab.org/competitions/22168
вот компетишн, в котором есть ссылка на датасет
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Единственное что, в нем тексты немного неудобно представлены:
там список датафреймов. Каждая строка - документ. Для каждого документа список предложений (надо с помощью json.loads грузить от поля). Текст в предложениях разбит таким образом, что все слова отделены от пунктуации.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
И в этом моя вина, на самом деле
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Некоторые документы могут быть пустыми еще вроде, надо проверять.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
около 22-24 гб если в плейн текст преобразовывать, если правильно помню.
источник

AK

Alexander Kukushkin in Natural Language Processing
Ничесе, сами наскрапили? Нет описания? Не нашел ссылочку, нужно быть участником?
источник