Size: a a a

Natural Language Processing

2021 December 08

TM

Toemik Mnemonic in Natural Language Processing
там смешанный дата сет, где часть  данных да автоматически размечены, это логи классификатора
источник

d

dePuff in Natural Language Processing
В рамках абстрактной задачи, я пока придерживаюсь мнения, что да, эвристиками мы что-то улучшим, но слишком переплюнуть авторазметчик в итоге скорее всего не получится
источник

TM

Toemik Mnemonic in Natural Language Processing
то есть откровенный мусор вроде запросов "2!$$#@$!" зачищать любым подходом, а ложноположительные и л.отрицательные воспринять как выбросы которые трансформеры при обучении проигнорируют? UPD ну то есть вклад такого мусора будет мал
источник

IG

Ilya Gusev in Natural Language Processing
можно переразметить только примеры, в которых классификатор не уверен по энтропии или по monte-carlo dropout
источник

IG

Ilya Gusev in Natural Language Processing
такой типичный active learning
источник

DD

David Dale in Natural Language Processing
Если ты боишься, что  трансформеры не проигнорируют плохие примеры, можно разбить обучающую выборку пополам. На части 1 обучить модель, проскорить ей часть 2, и руками осмотреть (и при необходимости переразметить) примеры, где предсказание модели не совпало с меткой в данных. Если таких примеров слишком много, то отсортировать их по уверенности модели в "неправильном" ответе и отсмотреть хотя бы топ. Потом поменять половинки местами и повторить процесс.
источник

TM

Toemik Mnemonic in Natural Language Processing
Всем спасибо за комментарии
источник
2021 December 09

XZ

Xenia Zharskaya in Natural Language Processing
💥 14 декабря (вторник) в 19:00 (мск)
Онлайн в zoom проведем

Онлайн-встреча:
Тема: Подготовка данных для обучения движков машинного перевода (МП) и автоматические метрики оценки качества на примере компании EGO Translating

Спикеры онлайн-встречи:
✅Анастасия Емельянова  - Руководитель направления программных разработок EGO TRANSLATING Company
✅Маргарита Меняйлова
- Руководитель направления машинного перевода EGO TRANSLATING Company

Будем обсуждать:
🔹 Разные подходы к подготовке данных для кастомизации систем машинного перевода (СМП)
🔹 Использование метрик для оценки результативности работы систем машинного перевода (СМП)
🔹 Интерпретация результатов обучения

Регистрируйся и присоединяйся!  
Приходи сам, приглашай коллег и друзей.
Бесплатно. Онлайн.

📌 Форма регистрации
источник

🐙

🐙 in Natural Language Processing
Ребят, всем привет! OCR: попробовал tesseract, под задачу подходит, но использую из CLI. Посоветуйте нормальную обёртку, которой пользуетесь из питона? В PyPi их дофига в разном состоянии заброшенности...
источник

AV

Artem Vishnya in Natural Language Processing
https://pypi.org/project/pytesseract/ вот это юзаем, и она вроде живая, обновляется
источник

🐙

🐙 in Natural Language Processing
Спасибо большое :)
источник

AN

Alexandr N in Natural Language Processing
Всем привет, очень прошу ткнуть в нужную статью или примерно подсказать шаги. В NLP совсем новичок, но хочу вкатиться, причем сначала через практику.
Имеем 500 фильмов и по 10 отзывов на каждый. Задача: по запросу выдавать рекомендацию. Например "грустный фильм про тюрьму" = побег из шоушенка :)
Данные спарсены, находятся в сыром виде, просто текст. Первым делом очистка насколько понимаю, дальше нужно для каждого фильма сделать что-то вроде частотной матрицы? Или же должна быть общая унифицированная матрица на все 500 фильмов, но с разными частотами для каждого? И самое главное, как это сделать? :) И каким методом/библиотекой затем искать наиболее подходящий?
источник

OA

Oluwaseun Alagbe in Natural Language Processing
Good day.

I have a little question.

If I want to train a model to classify text in Deep learning, and my classes are in numeric form like "123487","3849394" and like 469 more. Would the machine understand these classes?
источник

IG

Ilya Gusev in Natural Language Processing
Выглядит так, что вот такой алгоритм должен работать:
1) Разбить отзывы на предложения
2) Собрать выборки:
- единички: пары (фильм, предложение из отзыва про фильм)
- нолики: пары (фильм, предложение из отзыва про другой фильм)
3) Обучаем сетку с двумя тушками: для фильма просто один Embedding слой, для предложений любой энкодер типа LaBSE. Учим сетку давать маленькое косинусное расстояние для единичек и большое для ноликов. В применении тем же доученным энкодером обрабатываем запрос и ищем ближайший по косинусу фильм.

Альтренативный алгоритм: сведём задачу к многоклассовой классификации предложений, где один фильм - один класс. Можно использовать классические фичи, а можно и такой же энкодер, как и в прошлом варианте.
источник

DD

David Dale in Natural Language Processing
Мне кажется, в базовом варианте тут даже ничего дообучать не надо, а можно просто разбить отзывы на предложения, заэмбеддить эти предложения готовым LaBSE, и положить в KNN. И дальше по запросу с помощью этого KNN определять, на фразы из описания каких фильмов этот запрос больше всего похож.
источник

IG

Ilya Gusev in Natural Language Processing
согласен, так гораздо проще
источник

IG

Ilya Gusev in Natural Language Processing
но, вероятно, работать будет пошумнее
источник
2021 December 10

ММ

Михаил Митрофанов... in Natural Language Processing
Всем привет! Подскажите, как в spacy сделать новую модель на базе ru_core_news_sm но без ner ?
источник

🐙

🐙 in Natural Language Processing
Привет!
Есть три варианта:
1. Ты в коде создаёшь новый пайплайн просто перетаскивая пайплайны из ru_core_news_sm, но без NER; примерный код можно вот тут посмотреть: https://github.com/explosion/projects/blob/v3/pipelines/ner_demo_replace/scripts/create_config.py
2. Можешь просто выключить NER: https://spacy.io/usage/processing-pipelines#disabling
3. Можно написать свой конфиг пайплайна, который бы переиспользовал компоненты из готового пайплайна: https://spacy.io/usage/processing-pipelines#sourced-components
источник

ММ

Михаил Митрофанов... in Natural Language Processing
Сделал вот так
import spacy
nlp spacy.load('ru_core_news_lg', exclude=['ner'])
nlp.to_disk('./ru_core_news_lg’)
источник