Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 November 17

АН

Алексей Ничников... in Natural Language Processing

всем добрый вечер 😊

источник

18:51пожаловаться #1

Vadim Fomin in Natural Language Processing

Они разбиваются на несколько сабворд-токенов типа

источник

18:54пожаловаться #2

David Dale in Natural Language Processing

Во всех современных трансформерных моделях незнакомые слова разбиваются на комбинации знакомых токенов. Токен - это слово, буква, или несколько букв.
Типа так

print(tokenizer.tokenize('НДС')) # ['Н', '##Д', '##С']

Символы ## означают, что этот токен является не началом слова, а продолжением.
Поэтому любое слово берт "видит", разница только в том, как сколько слов он их видит.

источник

18:56пожаловаться #3

АН

Алексей Ничников... in Natural Language Processing

спасибо, ща посмотрю, что токенизатор покажет
у меня было опасение, что те датасеты, на которых эти модели обучались (базовая берта) не встречала такие слова. Тогда норм

источник

18:57пожаловаться #4

АН

Алексей Ничников... in Natural Language Processing

не успел в токенизатор засунуть 😃

источник

18:58пожаловаться #5

David Dale in Natural Language Processing

А так вообще, если у вас есть мнооого неразмеченных бухгалтерских/юридических текстов, рекомендуется расширить словарь модели и дообучить её на этих текстах на MLM-задаче.
Ну или взять модель cointegrated/rubert-tiny2, у неё словарь в несколько раз больше, и слово НДС, например, туда входит целиком.

источник

18:58пожаловаться #6

АН

Алексей Ничников... in Natural Language Processing

сколько то есть, а есть где-нибудь туториал, как дообучать? cointegrated/rubert-tiny2 попробую, спасибо

источник

18:59пожаловаться #7

David Dale in Natural Language Processing

Русского тьюториала по MLM я пока не видел.
Если английский язык устраивает, можно посмотреть официальные примеры huggingface: https://huggingface.co/transformers/notebooks.html.

источник

19:01пожаловаться #8

АН

Алексей Ничников... in Natural Language Processing

более чем, спасибо

источник

19:09пожаловаться #9

Banof in Natural Language Processing

🔫 Владимир Николаевич кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @AlexPushkina, @denis_pizhevsky, @igeti, @EryominAnton
При поддержке Золота Бородача

источник

20:41пожаловаться #10

Vadim Fomin in Natural Language Processing

@banofbot

источник

22:00пожаловаться #11

Banof in Natural Language Processing

🔫 @michaaaaell кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @Askinkaty, @Pushkinue, @denis_pizhevsky, Petr Maishev
При поддержке Золота Бородача

источник

22:00пожаловаться #12

Dmitriy in Natural Language Processing

❓
а существуют датасеты русского рукописного текста?

источник

22:53пожаловаться #13

Igor in Natural Language Processing

Конечно, например наш https://github.com/sberbank-ai/htr_datasets 🙂

GitHub

GitHub - sberbank-ai/htr_datasets: Repository containing our datasets for HTR (handwritten text recognition) task.

Repository containing our datasets for HTR (handwritten text recognition) task. - GitHub - sberbank-ai/htr_datasets: Repository containing our datasets for HTR (handwritten text recognition) task.

источник

23:00пожаловаться #14

Dmitriy in Natural Language Processing

🙏

может и примеры обучения есть ? 😄

источник

23:06пожаловаться #15

2021 November 18

Below Zero in Natural Language Processing

Вариант - неудачно подобранные гиперпараметры. Например, если слишком большой lr, модель может не сойтись

источник

00:37пожаловаться #16

Karim in Natural Language Processing

Всем привет, мы ищем опытного NLP инженера для решения сложных бизнес задач

источник

03:10пожаловаться #17

ros tel in Natural Language Processing

@banofbot

источник

04:27пожаловаться #18

Banof in Natural Language Processing

🔫 @Rita7172 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@rostel, Andrey, @lzakharov, Quisiariv, @ddaniyarr
При поддержке Золота Бородача

источник

04:27пожаловаться #19

МЕ

Максим Ермаков... in Natural Language Processing

Коллеги, добрый день!
Помогите пожалуйста ссылкой на имлементацию strided rolling window для токенизированного для трансформера текста?

Или просто посоветуйте, как лучше разрешать ситуацию, когда граница window выпала на середину слова? Разрезать и забить? От'pad'ить нулями до предыдущего целого слова?

источник

13:48пожаловаться #20