Size: a a a

Natural Language Processing

2021 November 25

М

Майя in Natural Language Processing
Я брала NERModel из simpletransformers и просто BIO формат туда в df.

А разметку делала в INCEpTION. Очень удобно было.
источник

AW

Alex Wortega in Natural Language Processing
А, окей спасибо
источник

AW

Alex Wortega in Natural Language Processing
Я думал что то новое придумали(
источник

ММ

Михаил Митрофанов... in Natural Language Processing
Всем привет, есть задача матчинга товарных предложений в аггрегаторе. Планирую попробовать использовать yargy с набором фактов. Вот только не пойму как сопоставлять факт => продукт, чтобы потом можно было группировать похожие предложения в один продукт. Может что подскажете, заранее спасибо.
источник
2021 November 26

M

Maksim in Natural Language Processing
привет всем!  наш стартап CopyMonkey.ai на передовой борется с OpenAI в области генерации текстов.
Но мы делаем это на ограниченной области - генерации продуктовых описаний для екоммерса.

В отличие от конкурентов, которые просто берут Open AI API, файнтьюним собственные модели и не зависим от тарифов и доступности OpenAI.

сегодня запустили продукт на Product Hunt и собираем апвоуты (кнопка Upvote)
буду очень признателен, если проголосуете за нас - https://www.producthunt.com/posts/copymonkey
источник

DV

Dima Veselov in Natural Language Processing
источник

A

Alexander in Natural Language Processing
Всем привет! А есть какие готовые инструменты/идеи, как можно анализировать логи сервера? Обычно используются регулярки, но это когда мы знаем что искать. А хочется находить, например аномалии, когда известно только время события.
источник

A

Andrey in Natural Language Processing
см. elk stack. аномалии - платненька правда
источник

VL

Valery Lazarev in Natural Language Processing
Построить tf/idf вектора на корпусе логов или другие быстрые эмьединги
Идти плавающим окном по событиям и усреднять вектор
Смотреть насколько в среднем распределено полученное среднее в окне
Если выходит за порог +/- 1.5 стд — звать человека
источник

VL

Valery Lazarev in Natural Language Processing
Задачу не решал такую но попробовал бы так сперва
источник

VL

Valery Lazarev in Natural Language Processing
Ну и плюс какую-то эвристику или статистику на частоту временную. Типа если резко сыпать начало, то что-то не так
источник

A

Alexander in Natural Language Processing
У меня была идея считать tf/idf для интервалов, например длинной час, за последние несколько дней, и смотреть на какие значения в проблемный интервал выпали высокие значения.
источник

A

Andrey in Natural Language Processing
не, серьезно, изучите эластик. в нем есть в частности косинусное сходство (ранжирование) для произвольных векторов.

плюс анализ логов для elk stack - вообще родной функционал. другое дело аномалия в логах это что? редкое событие? понятно что нет. редкое событие которое сильно отличается от остальных? от каких остальных?...

что бы не придумали в спецификации - elastic должен смочь)
источник

A

Alexander in Natural Language Processing
Для мониторинга инфраструктуры наверно лучше elastic, но есть задача собрать инфу с одного сервера и проанализировать ее в определенный момент времени. Посмотреть аномалии по логам. Тут наверное лучше что-то попроще(
источник

A

Andrey in Natural Language Processing
если разово, то парсите, и pd.value_counts()[::-1]
источник

A

Alexander in Natural Language Processing
спасибо, буду пробовать)
источник

RK

R K in Natural Language Processing
Hidden Markov Model Based Named Entity Recognition System https://www.amazon.com/dp/B09M4YJKBX/ref=cm_sw_r_awdo_navT_g_SSXKYPAW230V2V0BNEYN
источник

A

Alexander in Natural Language Processing
Подскажите, построил Tf-Idf для списка документов. Здесь одна строка - один документ. Я ожидал что самое высокое значение будет для 8 документа, для слова error. Так как это единственное слово которое встречается один раз. А получилось, что его значение хоть и высокое, но ниже чем у более частотных слов.
источник

A

Alexander in Natural Language Processing
источник

A

Alexander in Natural Language Processing
источник