Size: a a a

Natural Language Processing

2020 July 10

MT

Mikhail Tikhomirov in Natural Language Processing
Описания нет, но это новости за 2017 год, если мне не изменяет память. Да, нужно быть участником. Организаторы обещали  убрать "аппрув" новых участников.
источник

FF

Futorio Franklin in Natural Language Processing
Можно добавить этот датасет в corus
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Возможно вскоре появится наш RuNewsBERT в открытом доступе по этому датасету (просто с месяц дообучали на датасете RuBERT), он так то есть. и статья одного из студентов выйдет в этом году, где он ее использовал и получил прирост на саммаризации по сравнению с рубертом. Но пока еще не принято решение ее выложить.
источник

AK

Alexander Kukushkin in Natural Language Processing
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Точно, ссылка на гитхабе есть
источник

FF

Futorio Franklin in Natural Language Processing
News corpus недоступен по ссылке
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Хм, странно. Мб решили его убрать, хз.
источник

FF

Futorio Franklin in Natural Language Processing
Жаль
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Я уточню у научника, открыт таки он или нет, раз был на соревновании.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Короче скорее всего он открытый да, просто на него нет нигде валидных ссылок. Выложу как нибудь на яндекс диск, данных много не бывает
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Но так то я понимаю есть намного более крупные датасеты по новостям, кстати?
источник

AK

Alexander Kukushkin in Natural Language Processing
Mikhail Tikhomirov
Короче скорее всего он открытый да, просто на него нет нигде валидных ссылок. Выложу как нибудь на яндекс диск, данных много не бывает
Добавлю в https://github.com/natasha/corus . Есть вариант захостить на s3
источник

AK

Alexander Kukushkin in Natural Language Processing
Mikhail Tikhomirov
Но так то я понимаю есть намного более крупные датасеты по новостям, кстати?
Мне не известно
источник

MT

Mikhail Tikhomirov in Natural Language Processing
О, ну тогда я подниму этот вопрос еще раз и как буду уверен что все ок, скину.
Хотя перед этим все же хотелось бы сделать его в нормальном формате, без разделения пунктуации и слов
источник

A

Alexander in Natural Language Processing
Всем привет! Подскажите, не могу сообразить, как мне переписать код чтобы использовать батчи? Наверняка же есть стандартная обертка. Памяти не хватает.
# Using BERT for the First TIme
# !pip install transformers
# model_class, tokenizer_class, pretrained_weights = (ppb.DistilBertModel, ppb.DistilBertTokenizer, 'distilbert-base-uncased')
# model = model_class.from_pretrained(pretrained_weights)
with torch.no_grad():
   last_hidden_states = model(input_ids, attention_mask=attention_mask)
источник

MF

M F in Natural Language Processing
Alexander
Всем привет! Подскажите, не могу сообразить, как мне переписать код чтобы использовать батчи? Наверняка же есть стандартная обертка. Памяти не хватает.
# Using BERT for the First TIme
# !pip install transformers
# model_class, tokenizer_class, pretrained_weights = (ppb.DistilBertModel, ppb.DistilBertTokenizer, 'distilbert-base-uncased')
# model = model_class.from_pretrained(pretrained_weights)
with torch.no_grad():
   last_hidden_states = model(input_ids, attention_mask=attention_mask)
torch.utils.data.DataLoader
источник

A

Alexander in Natural Language Processing
вот и не могу примера найти как его для эмбедингов предложений Bert использовать
источник

A

Alexander in Natural Language Processing
и сообразить тоже не получается 😞
источник

OR

Oleg Ruban in Natural Language Processing
Alexander
вот и не могу примера найти как его для эмбедингов предложений Bert использовать
Берт сам эмбеддинги создает, дополнительно не надо вроде
источник

AK

Anton K. in Natural Language Processing
друзья, есть ли готовые решения для разметки текста на фотографии? у меня есть изображения и координаты найденных кусочков текста. хочу дать возможность пользователям выбирать область и вписывать туда текст, который в этой области
источник