Телеграмм чат группы natural_language_processing страница 1433

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 September 12

🐙

🐙 in Natural Language Processing

Я больше спрашивал затем, чтоб не писать свой велосипед для грубой отчистки, ибо задача выглядит крайне распространённой, и, вероятно, где-то уже можно просто передать словарь замен (часто встречаю во внутреннем API библиотек, но ничего припомнить не смог).

источник

22:15пожаловаться #1

YB

Yuri Baburov in Natural Language Processing

У всех очистки разные, и сильно зависят от задачи.
В том смысле, что кому-то одна очистка хороша, а кому-то одна ухудшает ситуацию. Самый наглядный пример: японском "р" и "л" одна фонема, а у нас две. В японском неразличение этих звуков увеличивает качество, а в русском -- уменьшает. И если отсюда появилась мысль про настройку на язык, то в русском есть ещё вологодский окцент, неразличение/различение е/ё и и/й, проблемы с "…" и "...", "-", "—" и "–"... Конкретно с кавычками: "арт-группа «зеленые бампера» устроили потасовку в гостинице «космос»", – сообщают «Известия». Посмотрим, как это будет работать после нормализации кавычек, учитывая, что пробелы и капс не всегда правильно расставлены...
" арт - группа " зелёные бампера " устроили потасовку в гостинице " космос " " ,- сообщают " известия " .
Так хотите сделать? Будет хуже работать, чем без нормализации.

источник

22:34пожаловаться #2

🐙

🐙 in Natural Language Processing

Да не, я хотел волшебные кавычки убрать, которые у берта помечены как UNK :)

источник

22:35пожаловаться #3

O

Olya in Natural Language Processing

привет! а у кого-то есть какие-то предпочтения в плане обработки стопвордов (spacy, nltk) и если да то по каким причинам выбираете ту или иную либу?

источник

23:02пожаловаться #4

NS

Nikolay V. Shmyrev in Natural Language Processing

чистый питон и список в файле

источник

23:48пожаловаться #5

O

Olya in Natural Language Processing

а почему не какую-то либу?

источник

23:49пожаловаться #6

2021 September 13

NS

Nikolay V. Shmyrev in Natural Language Processing

для того, чтобы слова из строки удалить библиотека не нужна

источник

00:03пожаловаться #7

O

Olya in Natural Language Processing

необязательно нужна, но если говорить про какие-то стандартизированные листы, а не костомные, в библиотеке они должны быть более полными, отсюда и вопрос был

источник

00:26пожаловаться #8

GS

George Shushuev in Natural Language Processing

Коллеги, как по вашему, распознавание голоса входит в nlp или это отдельная область?

Анонимный опрос

36%

Входит

57%

Отдельная область

7%

Другой ответ

Проголосовало: 114

источник

03:07пожаловаться #9

YB

Yuri Baburov in Natural Language Processing

В распознавании речи есть Acoustic Model, Language model и пост-обработка (spell checking). LM и пост-обработка -- это вполне себе работа с естественным языком, то есть, NLP. А Acoustic Model -- не NLP.
Поэтому они пересекаются, но не совпадают.

источник

06:02пожаловаться #10

ES

Eugene Solomatin in Natural Language Processing

Коллеги всем привет. Делюсь ссылкой.. 23 сентября будет интересный Вебинар.. Пг
По анализу матриц.

https://www.bcs.org/events/2021/september/webinar-matrices-of-sets-bcs-formal-aspects-of-computing-science-sg-facs/?__cf_chl_jschl_tk__=pmd_0_P32KC35j6xadkG4ZxO0egGWRGsu1V1RolqK_Pczo0-1631514331-0-gqNtZGzNApCjcnBszQiR

источник

09:26пожаловаться #11

TM

Toemik Mnemonic in Natural Language Processing

Ребята, наверняка кто то сталкивался с таким ругательством торча в Colab'e:

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

происходит это при попытке запустить обучение simpletransformer.ClassificationModel на BERT.
Куда смотреть? GPU для данной среды выбрано, в тырнетах что то не нашел ничего полезного, по крайней мере пока что

источник

11:06пожаловаться #12

DD

David Dale in Natural Language Processing

Возможно, у тебя какой-то косяк в данных.
Проще всего перезапустить этот же код на CPU, тогда, возможно, вылезут более информативные сообщения об ошибках.

источник

11:09пожаловаться #13

TM

Toemik Mnemonic in Natural Language Processing

это едва ли, проверки nan имеются, вручную каст текстового поля к соответствующему объекту, лейблов к int32. Ок, спасибо попробую на CPU

источник

11:13пожаловаться #14

AW

Alex Wortega in Natural Language Processing

О, у меня такое было. Обновляй версии трансформеров)))

источник

11:17пожаловаться #15

A

Andrey in Natural Language Processing

вот я тоже с таким сталкивался, не на текстах правда.

это что-то с видюхой или дровами не то. надо смотреть соответствие версий торча и пакетов, как вариант

источник

11:17пожаловаться #16

TM

Toemik Mnemonic in Natural Language Processing

спасибо, буду пробовать, сюда отпишусь

источник

11:21пожаловаться #17

TM

Toemik Mnemonic in Natural Language Processing

Всем спасибо за советы! в конечном итоге ты оказался прав насчет данных. запуская с use_cuda = False удалось узнать что нельзя передавать кастомные int значения классов в модель трансформеров, так как они потом, естественно, в таком же виде передаются в тензоры. В общем в моем случае все как то так: https://discuss.pytorch.org/t/indexerror-target-2-is-out-of-bounds/69614/17

IndexError: Target 2 is out of bounds

After epoch 1 it is throwing this error Model: resnet50 Frozen Layers: False Epoch 1/50 train Loss: 0.2108 Acc: 0.9226 TPR: 0.9270 FPR: 0.0819 IndexError Traceback (most recent call last) in 17 optimizer = optim.Adam(parameters) 18 —> 19 net = train_model(net, criterion, optimizer, num_epochs=num_epochs, name=name) 20 21 net = net.to(torch.device(‘cpu’)) in train_model(model, criterion, optimizer, num_epochs, dataset_sizes, name) ...

источник

12:30пожаловаться #18

A

Andrey in Natural Language Processing

🤷‍♂️

источник

12:40пожаловаться #19

M

Maksym in Natural Language Processing

#job #vacancy #NLP К нам в R&D Metinvest Digital очень нужен NLP Engineer. Ищем уровня Middle/Senior.
Задачи такие, как, conversational solutions, text parsing, mood analysis, Intelligent OCR.
Мало рутины, много рессерча и нестандартных задач. Скучно точно не будет.
Доступен remote, поэтому идеальный кандидат может быть с любой точки Украины

источник

13:53пожаловаться #20