Size: a a a

Natural Language Processing

2021 September 12

🐙

🐙 in Natural Language Processing
Я больше спрашивал затем, чтоб не писать свой велосипед для грубой отчистки, ибо задача выглядит крайне распространённой, и, вероятно, где-то уже можно просто передать словарь замен (часто встречаю во внутреннем API библиотек, но ничего припомнить не смог).
источник

YB

Yuri Baburov in Natural Language Processing
У всех очистки разные, и сильно зависят от задачи.
В том смысле, что кому-то одна очистка хороша, а кому-то одна ухудшает ситуацию. Самый наглядный пример: японском "р" и "л" одна фонема, а у нас две. В японском неразличение этих звуков увеличивает качество, а в русском -- уменьшает. И если отсюда появилась мысль про настройку на язык, то в русском есть ещё вологодский окцент, неразличение/различение е/ё и и/й, проблемы с "…" и "...", "-", "—" и "–"... Конкретно с кавычками: "арт-группа «зеленые бампера» устроили потасовку в гостинице «космос»", – сообщают «Известия». Посмотрим, как это будет работать после нормализации кавычек, учитывая, что пробелы и капс не всегда правильно расставлены...
" арт - группа " зелёные бампера " устроили потасовку в гостинице " космос " " ,- сообщают " известия  " .
Так хотите сделать? Будет хуже работать, чем без нормализации.
источник

🐙

🐙 in Natural Language Processing
Да не, я хотел волшебные кавычки убрать, которые у берта помечены как UNK :)
источник

O

Olya in Natural Language Processing
привет! а у кого-то есть какие-то предпочтения в плане обработки стопвордов (spacy, nltk) и если да то по каким причинам выбираете ту или иную либу?
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
чистый питон и список в файле
источник

O

Olya in Natural Language Processing
а почему не какую-то либу?
источник
2021 September 13

NS

Nikolay V. Shmyrev in Natural Language Processing
для того, чтобы слова из строки удалить библиотека не нужна
источник

O

Olya in Natural Language Processing
необязательно нужна, но если говорить про какие-то стандартизированные листы, а не костомные, в библиотеке они должны быть более полными, отсюда и вопрос был
источник

GS

George Shushuev in Natural Language Processing
Коллеги, как по вашему, распознавание голоса входит в nlp или это отдельная область?
Анонимный опрос
36%
Входит
57%
Отдельная область
7%
Другой ответ
Проголосовало: 114
источник

YB

Yuri Baburov in Natural Language Processing
В распознавании речи есть Acoustic Model, Language model и пост-обработка (spell checking). LM и пост-обработка -- это вполне себе работа с естественным языком, то есть, NLP. А Acoustic Model -- не NLP.
Поэтому они пересекаются, но не совпадают.
источник

ES

Eugene Solomatin in Natural Language Processing
Коллеги всем привет. Делюсь ссылкой.. 23 сентября будет интересный Вебинар.. Пг
По анализу матриц.

https://www.bcs.org/events/2021/september/webinar-matrices-of-sets-bcs-formal-aspects-of-computing-science-sg-facs/?__cf_chl_jschl_tk__=pmd_0_P32KC35j6xadkG4ZxO0egGWRGsu1V1RolqK_Pczo0-1631514331-0-gqNtZGzNApCjcnBszQiR
источник

TM

Toemik Mnemonic in Natural Language Processing
Ребята, наверняка кто то сталкивался с таким ругательством торча в Colab'e:
RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

происходит это при попытке запустить обучение simpletransformer.ClassificationModel на BERT.
Куда смотреть? GPU для данной среды выбрано, в тырнетах что то не нашел ничего полезного, по крайней мере пока что
источник

DD

David Dale in Natural Language Processing
Возможно, у тебя какой-то косяк в данных.
Проще всего перезапустить этот же код на CPU, тогда, возможно, вылезут более информативные сообщения об ошибках.
источник

TM

Toemik Mnemonic in Natural Language Processing
это едва ли, проверки nan имеются, вручную каст текстового поля к соответствующему объекту, лейблов к int32. Ок, спасибо попробую на CPU
источник

AW

Alex Wortega in Natural Language Processing
О, у меня такое было. Обновляй версии трансформеров)))
источник

A

Andrey in Natural Language Processing
вот я тоже с таким сталкивался, не на текстах правда.

это что-то с видюхой или дровами не то. надо смотреть соответствие версий торча и пакетов, как вариант
источник

TM

Toemik Mnemonic in Natural Language Processing
спасибо, буду пробовать, сюда отпишусь
источник

TM

Toemik Mnemonic in Natural Language Processing
Всем спасибо за советы! в конечном итоге ты оказался прав насчет данных. запуская с use_cuda = False удалось узнать что нельзя передавать кастомные int значения классов в модель трансформеров, так как они потом, естественно, в таком же виде передаются в тензоры. В общем в моем случае все как то так: https://discuss.pytorch.org/t/indexerror-target-2-is-out-of-bounds/69614/17
источник

A

Andrey in Natural Language Processing
🤷‍♂️
источник

M

Maksym in Natural Language Processing
#job #vacancy #NLP                                                                                                                             К нам в R&D Metinvest Digital очень нужен NLP Engineer. Ищем уровня Middle/Senior.
Задачи такие, как, conversational solutions, text parsing, mood analysis, Intelligent OCR.
Мало рутины, много рессерча и нестандартных задач. Скучно точно не будет.
Доступен remote, поэтому идеальный кандидат может быть с любой точки Украины
источник