Size: a a a

Natural Language Processing

2021 October 13

М

Максим in Natural Language Processing
Не подскажете, что могут спросить на собеседовании джуна, помимо устройства трансформера/берта? Предполагаемая задача - MT/PEMT (построение моделей, оптимизация, оценка качества)
источник

D

Dima in Natural Language Processing
Всем привет
Можете подсказать,как можно интерпретировать трансформеры в задаче суммаризации текста
источник
2021 October 14

AF

Alexander Fedorenko in Natural Language Processing
Может я и не по теме, но есть живой и простой пример sbert и суммаризация, если перейти по ссылке с этой страницы)
https://www.sbert.net/examples/applications/text-summarization/README.html
источник

IA

Ivan Abramov in Natural Language Processing
Всем привет, подскажите, есть ли готовые либы для перевода текста в эмодзи? (Чтобы в real time было или макс 3-5 секунд)

В инете все что находил не работает
источник

B

Bruddah in Natural Language Processing
мб где-то в Апи телеграма, т.к тут это реализовано
источник

МЕ

Максим Ермаков... in Natural Language Processing
Тут, насколько мне кажется, просто мапим слово на символ, никакого особого перевода.
источник

B

Banof in Natural Language Processing
🔫 @RachelThompson кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @kitaiskypanda, @SamsonovaDaria, @fl666m4nn, @Kithogue
При поддержке Золота Бородача
источник

B

Banof in Natural Language Processing
🔫 @KarenMartinez1 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @kitaiskypanda, @RedBeardedT, @SamsonovaDaria, @fl666m4nn
При поддержке Золота Бородача
источник

V

Vic in Natural Language Processing
Переслано от Vic
Вышла наша статья на Хабре!
Читаем и комментим там желательно.

В этой статье мы покажем, как был разработан, как устроен и как работает разработанный нами умный Ранжировщик ответов для нейросеток Трансформер и какой эффект он оказывает на качество разговора любых генеративных чатботов.
Мы в Аватар Машина считаем, что важность данного исследования обусловлена его центральным местом в науке и исследовании работы мозга и, как следствие, работы нейросетевых архитектур, которые, как известно, во многом калькированно повторяют архитектуру некоторых его отделов.
В статье описан один кейс ранжирования, однако идея его намного шире: его можно применять для задач тонкого анализа смысла, а точнее, "осей смысла", а это, помимо тематик: наклонение(приказной стиль), эмоции, эмпатия, дискуссионный стиль(чтобы бот не соглашался, а спорил с юзером), научный и тп.

https://habr.com/ru/post/583516/
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
А стоп слова зачем обрезать? берт вроде с ними обучен.
источник

ZP

Z P in Natural Language Processing
Там не удаляются стоп слова и не проводится лемматизация, Bert использовался "как есть", для сравнения.
источник

EI

Evgeniy Ivanov in Natural Language Processing
Всем привет.
Может кто сталкивался или может кто подскажет, как лучше парсить(NER) CV при их огромной вариативности ?
Как быть с доками где есть колонки, как на фото?
Насколько парсеры (spacy и тд.) смогут вытащить данные о "Месте работы" например ?
источник

DD

David Dale in Natural Language Processing
Тут две задачи: распознавание текста на изображении с учётом колонок и прочих сложностей, и поиск сущностей в тексте.
Про изображения подсказать не могу , а вот что касается сущностей, то, скорее всего, придётся самостоятельно данные размечать и собственную модель учить. Это не так страшно, как кажется. RoBERTa на задачу token classification буквально с нескольких десятков обучающих примеров заводится)
источник

EI

Evgeniy Ivanov in Natural Language Processing
Понял, спасибо. Думал может можно малой кровью отделаться без BERTообразных )
источник

DD

David Dale in Natural Language Processing
Может быть, удастся отделаться yargy, но это будет по трудоемкости не сильно быстрее, чем разметить данные для обучения.
источник

EI

Evgeniy Ivanov in Natural Language Processing
А не знаешь случайно время инференса модели (RoBERTo) на CPU и GPU ?
источник

AN

Aydar Nasyrov in Natural Language Processing
https://towardsdatascience.com/bert-roberta-distilbert-xlnet-which-one-to-use-3d5ab82ba5f8

Не то?
Там табличка есть с показателями и характеристиками
источник

DD

David Dale in Natural Language Processing
Зависит от размера модели, длины текста, и характеристик железок. Я в посте про русские берты habr.com/ru/post/562064/ делал некоторые замеры (в гугл колабе), а у RoBERTA архитектура та же, так что время инференса не должно сильно отличаться.
источник

DD

David Dale in Natural Language Processing
Относительно моих замеров модели ещё можно ускорить за счёт запуска в onnx runtime или ещё какой-то специализированной среде, и за счёт квантизации.
источник

AN

Aydar Nasyrov in Natural Language Processing
Всем Доброго вечера!
Что делать, если обученный BERT для задачи token-classification объединяет слова в одну группу и дает им один токен? (Пример ниже был адаптирован на русский язык для наглядности)

x_input : ['В', 'данное', 'время', 'система', 'ЖКХ', 'справляется', 'не', 'лучшим', 'образом']
y_true: ['PART', 'PROP', 'PROP', 'N', 'O', 'VERB', 'PART', 'ADJ', 'N']

x_output: ['В данное время', 'система ЖКХ', 'справляется', 'не', 'лучшим образом']
y_pred: ['PROP', 'N', 'VERB', 'PART', 'ADJ']

Это сильно ломает любые тесты, как это можно исправить?
источник