Size: a a a

Natural Language Processing

2021 May 14

SancheZz Мов in Natural Language Processing
Директивный прям
источник

DD

David Dale in Natural Language Processing
Я похожую штуку как-то делал, и она докидывала.
1) использовал готовую модель для поиска сущностей в тексте
2) на вход LSTM подавал для каждого слова сразу два эмбеддинга - один для самого слова, другой для сущности, которая в нём найдена (точнее, для IOB тега). Эмбеддинги можно сложить или конкатенировать, как вам  больше нравится.
источник

AK

Alexander Kukushkin in Natural Language Processing
🎙 Сегодня вечером с Давидом @cointegrated Дале запустим здесь голосовую конфу. Давид — парень, который развернуто и дружелюбно отвечает даже на дурацкие вопросы https://t.me/natural_language_processing/25359, https://t.me/natural_language_processing/28922 в этом чатике. У нас похожие карьерные пути: учились в ШАДе, работали в Яндексе, ушли заниматься своими проектами. Поговорим про работу в крупной компании и на себя, найм и фриланс. Сейчас Давид занимается NLP в Сколтехе, поспрашиваю какие задачи они решают, сравним науку с индустрией.

Где: здесь в чатике @natural_language_processing.

Когда: сегодня, 14 мая в 19:00 по Москве, продлится примерно полтора часа.

Приходите послушать, поучаствовать. Запись с прошлой встречи https://t.me/natural_language_processing/27957, чтобы понимать как это выглядит.
источник

AM

Alex Mak in Natural Language Processing
Гугл вывел вот на такое:
https://stackoverflow.com/questions/62948332/how-to-add-attention-layer-to-a-bi-lstm/62949137#62949137
https://github.com/philipperemy/keras-attention-mechanism
(Мало ли кто еще будет подобный вопрос тут задавать.)
источник

AM

Alex Mak in Natural Language Processing
Спасибо, попробую.
источник

AT

Andrey Tatarinov in Natural Language Processing
Друзья, а есть ли в природе какой-то предобученный миниберт, чтобы можно было использовать как drop-in replacement для RuBERT, но в 4-8 раз меньше по размеру?
источник

DD

David Dale in Natural Language Processing
Русского миниберта не знаю. Но есть mT5-small, у которого если удалить все нерусские токены в словаре и удалить декодер, то останется маленький энкодер.
Насколько маленький? Там 29 млн параметров (112мб), а у BERT от DeepPavlov 178 млн (678 мб). Ну и по скорости инференса он где-то раза в 3 выше.
В этом блокноте я сделал пример использования энкодера от маленького T5.
источник

A

Anton in Natural Language Processing
🔥 Спасибо ✌🏻
источник

AT

Andrey Tatarinov in Natural Language Processing
Огонь, попробуем, спасибо )
источник

DD

David Dale in Natural Language Processing
Ну а для английского есть классный TinyBERT от Хуавея.
И есть ещё мультиязычный distilbert, у которого можно тоже дропнуть нерусские токены.
источник

SancheZz Мов in Natural Language Processing
Будет
источник

SancheZz Мов in Natural Language Processing
источник

AT

Andrey Tatarinov in Natural Language Processing
А когда?
источник

AT

Andrey Tatarinov in Natural Language Processing
Ждем :)
источник

IG

Ilya Gusev in Natural Language Processing
источник

AC

Anton Cherepkov in Natural Language Processing
А как вы определяете для себя опасные для обсуждения темы?
источник

DD

David Dale in Natural Language Processing
Вот пейпер с подробностями: http://bsnlp.cs.helsinki.fi/papers-2021/2021.bsnlp-1.4.pdf
источник

d

dwarf in Natural Language Processing
мб деньги не все решают в жизни?
источник

AC

Anton Cherepkov in Natural Language Processing
Это не правда, что в Яндекс ресерче делают для продакшна
источник

kr

karima rahali in Natural Language Processing
I am looking for works on revealing sarcasm and irony on social networking sites in Python
источник