Size: a a a

Natural Language Processing

2020 April 22

AM

Aleksandr Mester in Natural Language Processing
Большое спасибо
источник

АН

Александр Нагаев in Natural Language Processing
Хелп, вопрос от глупых, как заменить слой nn.Embedding на Берта или проще вобще не использовать Embedding, а вектора Берта получать в даталоадере?
источник

Y

Yevhen in Natural Language Processing

Можно загружать через Dataset, где в getitem написать преобразования БЕРТ. Иначе - в инициализации модели добавить уровень self.bert = BERT_model() (вместо nn.Enbedding) и затем в forward вызвать
источник

Y

Yevhen in Natural Language Processing
источник

Y

Yevhen in Natural Language Processing
Тут пример есть кода
источник

Y

Yura in Natural Language Processing
Привет! Есть датасет из диалогов с техподдержкой на русском языке. Датасет очень грязный и есть много диалогов с пропущенными фразами, с обрезанным началом или концом диалога. Пытаюсь решить задачу определения таких некорректных диалогов.

Пока посчитал некоторые метрики, например, кол-во фраз в диалоге, кол-во фраз первого и второго участника диалога, максимальное кол-во фраз идущих подряд, средняя длина фразы в диалоге, пытался просто фильтровать по этим метрикам, но результаты так себе, не знаю, что с ними еще можно сделать.

Есть еще идея:  взять другой датасет с корректными диалогами, часть диалогов этого датасета "испортить" (повыкидывать реплики или пообрезать их) и попробовать обучить классификатор таких диалогов.

В какую сторону копать?
источник

Y

Yura in Natural Language Processing
У меня немного опыта с conversational данными, каким вообще способом можно векторизовать целый диалог, если он представлен отдельными строками в датастете? В каком виде его можно подать на вход модели? Какая тут обычно практика?

Диалог вида:

Клиент: добрый день, у меня сломалось то и то
Оператор: добрый день, мне нужна дополнительная информация
Оператор: скажите пожалуйста такой-то идентификационный номер
Клиент: вот мой идентификационный номер
источник

D

Dmitry in Natural Language Processing
Yura
У меня немного опыта с conversational данными, каким вообще способом можно векторизовать целый диалог, если он представлен отдельными строками в датастете? В каком виде его можно подать на вход модели? Какая тут обычно практика?

Диалог вида:

Клиент: добрый день, у меня сломалось то и то
Оператор: добрый день, мне нужна дополнительная информация
Оператор: скажите пожалуйста такой-то идентификационный номер
Клиент: вот мой идентификационный номер
Самый простой способ - размечаешь все твои вопросы по категориям (меткам), обучаешь классификатор, коих уже бесчисленное множество.
источник

D

Dmitry in Natural Language Processing
Ну а ответы просто забиты в базу
источник

M

Munawwar in Natural Language Processing
Deos anyone have nlp project source code
источник

OS

Oleg Serikov in Natural Language Processing
хочется запинить
источник

SP

Sebastian Pereira in Natural Language Processing
Коллеги, функция
model = AutoModel.from_pretrained("canwenxu/BERT-of-Theseus-MNLI")
на сервере неожиданно убивает сервер.
На локальной машине все работает.
Проверили с distilbert - то же самое, никто не сталкивался? Никаких ошибок не выдает, неожиданный скачек расхода памяти (но далеко в пределах характеристик сервера) и перегружается сервер.
источник

SP

Sebastian Pereira in Natural Language Processing
Я вот думаю, можно эту функцию как-то разбить на несколько, посмотреть, на какой стадии происходит ошибка?
источник

w

weakSB in Natural Language Processing
Приветствую, товарищи.

Надеюсь , данное письмо застигнет Вас в добром здравии.

Алгоритмы кластеризации используют различные метрики расстоянии между объектами, ну, вроде Чебышева, Манхэтонское расстояние и прочие.

Например, в  k-means Евклидово.

Вопрос следующий: есть ли техническая возможность, используя популярную реализацию алгоритма кластеризации (например, в  sklearn) , предложить алгоритму свою метрику ?

Мол, делаем всё как обычно, но, вот, уважаемый алгоритм DecisionTreeClassifier(), вместо индекса Джинни (если не ошибаюсь , там это используется для метрики расстояний между объектами) используй мою.
источник

DL

Dmitry Legchikov in Natural Language Processing
кажется в sklearn такой возможности нет
источник

m

mel kaye in Natural Language Processing
источник

w

weakSB in Natural Language Processing
Dmitry Legchikov
кажется в sklearn такой возможности нет
Благодарю
источник

w

weakSB in Natural Language Processing
Благодарю, на что то подобное надеялся
источник

m

mel kaye in Natural Language Processing
но есть модели которые принимают callable в види метрики
источник

m

mel kaye in Natural Language Processing
например

https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

>metric: string or callable, default ‘minkowski’
источник