Size: a a a

Natural Language Processing

2021 October 26

AB

Arcady Balandin in Natural Language Processing
Я даже не знаю как бс работает. Все равно без рендеринга хтмл древа никак. Сейчас все сайты на реактах и ангулярах
источник

SB

Stepan Barkhatov in Natural Language Processing
Все так
Например Интерфакс с их беспонечнлй подгрузкой ленты новостей иначе как через селениум не знаю как можно скачать
источник

A

Alexander in Natural Language Processing
Коллеги, осваиваю huggingface.com, хочу зафайтюнить cointegrated/rubert-tiny-toxicity и получаю ошибку KeyError: 'loss'. Мне нужно как-то отдельно указать что у меня является label? Или я выбрал не ту модель для тонкой настройки? https://colab.research.google.com/drive/1MsrZCHxtxKnIu94LSzfdpVL-byym0rJ3?usp=sharing
источник

SancheZz Мов in Natural Language Processing
источник

DD

David Dale in Natural Language Processing
С ходу кажется, что проблема может быть в нескольких местах:
1) в нумерации лейблов: при num_labels=3 лейблы должны быть из [0, 1, 2], а в датасете стоят [1, 2, 3].
2) AutoModel - это просто голая тушка берта, без последнего слоя для классификации. Нужно запускать AutoModelForSequenceClassification
источник

DD

David Dale in Natural Language Processing
Из-за расхождения в числе классов создать это можно таким костылём
from transformers import AutoModel, AutoModelForSequenceClassification
model = AutoModel.from_pretrained('cointegrated/rubert-tiny-toxicity')
model.save_pretrained('tmp')
model = AutoModelForSequenceClassification.from_pretrained('tmp', num_labels=3)
источник

DD

David Dale in Natural Language Processing
А проблему с лейблами можно полечить вот такой припиской
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True).map(lambda x: {'labels': [y-1 for y in x['labels']]}, batched=True)

вместо
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
источник

A

Alexander in Natural Language Processing
@cointegrated David, спасибо!
источник

DD

David Dale in Natural Language Processing
А вообще, если хочется дообучаться на задачу, не связанную с токсичностью, лучше брать базовую версию модели - cointegrated/rubert-tiny. Она должна быть чуть более дообучабельная)
источник

A

Alexander in Natural Language Processing
Да, действительно проблема была в обоих местах и только 👍 модельки лайкнул ☺️
источник
2021 October 27

DK

Daniel Kornev in Natural Language Processing
Андрей, привет! Я из DeepPavlov. Скажите, а можно с вами поговорить о вашем опыте работы с RASA?
источник

AT

Andrey Tatarinov in Natural Language Processing
О, класс, конечно.

Я давно искал повода с вами познакомиться. :)
источник

AV

Artem Vishnya in Natural Language Processing
Добрый день! Подскажите, пожалуйста, записаны ручками правила yargy для цифр ('ноль': 0, 'один': 1 и так далее). Запускается экстрактор natasha на куске текста. Всё хорошо работает в общем случае, но захватывает и слова вида "во-первых", заменяя их на "во-1". Есть ли варианты без костылей формирования правил / какой-то магии вокруг токенизатора, например, чтобы избежать "во-1", "во-2" и еже с ними?
источник
2021 October 28

TM

Toemik Mnemonic in Natural Language Processing
Есть два вопроса:
1)что бы вы предложили в качестве метрики точности классификации конкретного запроса ? Детальнее : как можно идентифицировать фразы которые нельзя отнести к тому или другому классу . Ещё детальнее: сейчас для классификации
используем  сумму cos similarity входящей фРазы к i-му в массиве контрольных ключевых  фраз . А для оценки точности классификации Используем ср Значение i-ого к остальным в контрольном классе. Это не очень нам нравится и делает решение очень негибким )кроме того интересно что используют для оценки точности при работе с  бертооьращными моделями (softmax’ы  результата классификации ?)
2. есть ли у кого то под рукой датасет или иной источник данных с русскоязычными флудящими словосочетаниями  ? С ненормативной лексикой проблем нет , есть хороший датасет а вот тут не знаю. Всем спасибо
источник

M

Max in Natural Language Processing
Здравствуйте! Подскажите, пожалуйста, библиотеки для преобразования даты рождения из распознавания речи в числовой вид?
Например:
- двадцать девятое ноль девятое две тысячи восемнадцать
- 29 09 2018
источник

ni

n i in Natural Language Processing
источник

SS

Sergey Shulga in Natural Language Processing
А обертки под питон нет?
источник

ni

n i in Natural Language Processing
лучше просто запустить докер и уже общаться с даклингом через http
источник

M

Max in Natural Language Processing
Спасибо!
А кто-нибудь сравнивал duckling с heideltime?
источник

M

Maksym in Natural Language Processing
#vacancy #hr_job                                                                                                     К нам в R&D Metinvest Digital очень нужен NLP Engineer. Ищем уровня Middle/Senior.
Задачи такие, как, conversational solutions, text parsing, mood analysis, Intelligent OCR.
Мало рутины, много рессерча и нестандартных задач. Скучно точно не будет.
Доступен remote, поэтому идеальный кандидат может быть с любой точки Украины.
источник