Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3244 membersпожаловаться на группу

2021 December 08

Toemik Mnemonic in Natural Language Processing

там смешанный дата сет, где часть данных да автоматически размечены, это логи классификатора

источник

19:53пожаловаться #1

dePuff in Natural Language Processing

В рамках абстрактной задачи, я пока придерживаюсь мнения, что да, эвристиками мы что-то улучшим, но слишком переплюнуть авторазметчик в итоге скорее всего не получится

источник

19:55пожаловаться #2

Toemik Mnemonic in Natural Language Processing

то есть откровенный мусор вроде запросов "2!$$#@$!" зачищать любым подходом, а ложноположительные и л.отрицательные воспринять как выбросы которые трансформеры при обучении проигнорируют? UPD ну то есть вклад такого мусора будет мал

источник

19:59пожаловаться #3

Ilya Gusev in Natural Language Processing

можно переразметить только примеры, в которых классификатор не уверен по энтропии или по monte-carlo dropout

источник

20:06пожаловаться #4

Ilya Gusev in Natural Language Processing

такой типичный active learning

источник

20:07пожаловаться #5

David Dale in Natural Language Processing

Если ты боишься, что трансформеры не проигнорируют плохие примеры, можно разбить обучающую выборку пополам. На части 1 обучить модель, проскорить ей часть 2, и руками осмотреть (и при необходимости переразметить) примеры, где предсказание модели не совпало с меткой в данных. Если таких примеров слишком много, то отсортировать их по уверенности модели в "неправильном" ответе и отсмотреть хотя бы топ. Потом поменять половинки местами и повторить процесс.

источник

21:04пожаловаться #6

Toemik Mnemonic in Natural Language Processing

Всем спасибо за комментарии

источник

21:25пожаловаться #7

2021 December 09

Xenia Zharskaya in Natural Language Processing

💥 14 декабря (вторник) в 19:00 (мск)
Онлайн в zoom проведем

Онлайн-встреча:
Тема: Подготовка данных для обучения движков машинного перевода (МП) и автоматические метрики оценки качества на примере компании EGO Translating

Спикеры онлайн-встречи:
✅Анастасия Емельянова - Руководитель направления программных разработок EGO TRANSLATING Company
✅Маргарита Меняйлова - Руководитель направления машинного перевода EGO TRANSLATING Company

Будем обсуждать:
🔹 Разные подходы к подготовке данных для кастомизации систем машинного перевода (СМП)
🔹 Использование метрик для оценки результативности работы систем машинного перевода (СМП)
🔹 Интерпретация результатов обучения

Регистрируйся и присоединяйся!
Приходи сам, приглашай коллег и друзей.
Бесплатно. Онлайн.

📌 Форма регистрации

источник

12:18пожаловаться #8

🐙

🐙 in Natural Language Processing

Ребят, всем привет! OCR: попробовал tesseract, под задачу подходит, но использую из CLI. Посоветуйте нормальную обёртку, которой пользуетесь из питона? В PyPi их дофига в разном состоянии заброшенности...

источник

16:38пожаловаться #9

Artem Vishnya in Natural Language Processing

https://pypi.org/project/pytesseract/ вот это юзаем, и она вроде живая, обновляется

PyPI

pytesseract

Python-tesseract is a python wrapper for Google's Tesseract-OCR

источник

16:44пожаловаться #10

🐙

🐙 in Natural Language Processing

Спасибо большое :)

источник

16:44пожаловаться #11

Alexandr N in Natural Language Processing

Всем привет, очень прошу ткнуть в нужную статью или примерно подсказать шаги. В NLP совсем новичок, но хочу вкатиться, причем сначала через практику.
Имеем 500 фильмов и по 10 отзывов на каждый. Задача: по запросу выдавать рекомендацию. Например "грустный фильм про тюрьму" = побег из шоушенка :)
Данные спарсены, находятся в сыром виде, просто текст. Первым делом очистка насколько понимаю, дальше нужно для каждого фильма сделать что-то вроде частотной матрицы? Или же должна быть общая унифицированная матрица на все 500 фильмов, но с разными частотами для каждого? И самое главное, как это сделать? :) И каким методом/библиотекой затем искать наиболее подходящий?

источник

21:59пожаловаться #12

Oluwaseun Alagbe in Natural Language Processing

Good day.

I have a little question.

If I want to train a model to classify text in Deep learning, and my classes are in numeric form like "123487","3849394" and like 469 more. Would the machine understand these classes?

источник

21:59пожаловаться #13

Ilya Gusev in Natural Language Processing

Выглядит так, что вот такой алгоритм должен работать:
1) Разбить отзывы на предложения
2) Собрать выборки:
- единички: пары (фильм, предложение из отзыва про фильм)
- нолики: пары (фильм, предложение из отзыва про другой фильм)
3) Обучаем сетку с двумя тушками: для фильма просто один Embedding слой, для предложений любой энкодер типа LaBSE. Учим сетку давать маленькое косинусное расстояние для единичек и большое для ноликов. В применении тем же доученным энкодером обрабатываем запрос и ищем ближайший по косинусу фильм.

Альтренативный алгоритм: сведём задачу к многоклассовой классификации предложений, где один фильм - один класс. Можно использовать классические фичи, а можно и такой же энкодер, как и в прошлом варианте.

источник

23:17пожаловаться #14

David Dale in Natural Language Processing

Мне кажется, в базовом варианте тут даже ничего дообучать не надо, а можно просто разбить отзывы на предложения, заэмбеддить эти предложения готовым LaBSE, и положить в KNN. И дальше по запросу с помощью этого KNN определять, на фразы из описания каких фильмов этот запрос больше всего похож.

источник

23:19пожаловаться #15

Ilya Gusev in Natural Language Processing

согласен, так гораздо проще

источник

23:20пожаловаться #16

Ilya Gusev in Natural Language Processing

но, вероятно, работать будет пошумнее

источник

23:21пожаловаться #17

2021 December 10

ММ

Михаил Митрофанов... in Natural Language Processing

Всем привет! Подскажите, как в spacy сделать новую модель на базе ru_core_news_sm но без ner ?

источник

09:27пожаловаться #18

🐙

🐙 in Natural Language Processing

Привет!
Есть три варианта:
1. Ты в коде создаёшь новый пайплайн просто перетаскивая пайплайны из ru_core_news_sm, но без NER; примерный код можно вот тут посмотреть: https://github.com/explosion/projects/blob/v3/pipelines/ner_demo_replace/scripts/create_config.py
2. Можешь просто выключить NER: https://spacy.io/usage/processing-pipelines#disabling
3. Можно написать свой конфиг пайплайна, который бы переиспользовал компоненты из готового пайплайна: https://spacy.io/usage/processing-pipelines#sourced-components

GitHub

projects/create_config.py at v3 · explosion/projects

🪐 End-to-end NLP workflows from prototype to production - projects/create_config.py at v3 · explosion/projects

источник

10:40пожаловаться #19

ММ

Михаил Митрофанов... in Natural Language Processing

Сделал вот так

import spacy
nlp spacy.load('ru_core_news_lg', exclude=['ner'])
nlp.to_disk('./ru_core_news_lg’)

источник

10:44пожаловаться #20