Size: a a a

Natural Language Processing

2021 November 17

АН

Алексей Ничников... in Natural Language Processing
всем добрый вечер 😊
источник

VF

Vadim Fomin in Natural Language Processing
Они разбиваются на несколько сабворд-токенов типа
источник

DD

David Dale in Natural Language Processing
Во всех современных трансформерных моделях незнакомые слова разбиваются на комбинации знакомых токенов. Токен - это слово, буква, или несколько букв.
Типа так
print(tokenizer.tokenize('НДС')) # ['Н', '##Д', '##С']

Символы ## означают, что этот токен является не началом слова, а продолжением.
Поэтому любое слово берт "видит", разница только в том, как сколько слов он их видит.
источник

АН

Алексей Ничников... in Natural Language Processing
спасибо, ща посмотрю, что токенизатор покажет
у меня было опасение, что те датасеты, на которых эти модели обучались (базовая берта) не встречала такие слова. Тогда норм
источник

АН

Алексей Ничников... in Natural Language Processing
не успел в токенизатор засунуть 😃
источник

DD

David Dale in Natural Language Processing
А так вообще, если у вас есть мнооого неразмеченных бухгалтерских/юридических текстов, рекомендуется расширить словарь модели и дообучить её на этих текстах на MLM-задаче.
Ну или взять модель cointegrated/rubert-tiny2, у неё словарь в несколько раз больше, и слово НДС, например, туда входит целиком.
источник

АН

Алексей Ничников... in Natural Language Processing
сколько то есть, а есть где-нибудь туториал, как дообучать? cointegrated/rubert-tiny2 попробую, спасибо
источник

DD

David Dale in Natural Language Processing
Русского тьюториала по MLM я пока не видел.
Если английский язык устраивает, можно посмотреть официальные примеры huggingface: https://huggingface.co/transformers/notebooks.html.
источник

АН

Алексей Ничников... in Natural Language Processing
более чем, спасибо
источник

B

Banof in Natural Language Processing
🔫 Владимир Николаевич кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @AlexPushkina, @denis_pizhevsky, @igeti, @EryominAnton
При поддержке Золота Бородача
источник

VF

Vadim Fomin in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @michaaaaell кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @Askinkaty, @Pushkinue, @denis_pizhevsky, Petr Maishev
При поддержке Золота Бородача
источник

D

Dmitriy in Natural Language Processing

а существуют датасеты русского рукописного текста?
источник

I

Igor in Natural Language Processing
Конечно, например наш https://github.com/sberbank-ai/htr_datasets 🙂
источник

D

Dmitriy in Natural Language Processing
🙏

может и примеры  обучения есть ? 😄
источник
2021 November 18

BZ

Below Zero in Natural Language Processing
Вариант - неудачно подобранные гиперпараметры. Например, если слишком большой lr, модель может не сойтись
источник

K

Karim in Natural Language Processing
Всем привет, мы ищем опытного NLP инженера для решения сложных бизнес задач
источник

rt

ros tel in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @Rita7172 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@rostel, Andrey, @lzakharov, Quisiariv, @ddaniyarr
При поддержке Золота Бородача
источник

МЕ

Максим Ермаков... in Natural Language Processing
Коллеги, добрый день!
Помогите пожалуйста ссылкой на имлементацию strided rolling window для токенизированного для трансформера текста?

Или просто посоветуйте, как лучше разрешать ситуацию, когда граница window выпала на середину слова? Разрезать и забить? От'pad'ить нулями до предыдущего целого слова?
источник