Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 November 06

Sergey Shulga in Natural Language Processing

Вот в этом вопрос, а так то да, все для этого есть.

источник

13:27пожаловаться #1

Ilya Gusev in Natural Language Processing

Можно просто это делать по словарю/TF-IDF/TextRank/<тематические модели>/<любой другой метод выделения ключевых слов>

источник

13:29пожаловаться #2

Anton in Natural Language Processing

Поделитесь опытом как Т5 контролировать при "заговаривании"
Модель исправляет опечатки и ставит пунктуацию. В целом работает приемлемо. Но есть случаи когда происходит зацикливание и либо она генерирует дубли, либо просто ничего не делает, на выходе даёт текст один в один.
Пример - фраза с большим количеством числительных - "триста сорок шесть тысяч двести семьдесят три рубля", ещё такое происходит при повторе в тексте - "добрый день меня зовут антон добрый день меня зовут антон"
Подаю по 200 слов на инференсе.
Обучение было на такой же длине.

источник

14:17пожаловаться #3

Cookie Thief in Natural Language Processing

А параметры для генерации какие?

источник

14:45пожаловаться #4

Anton in Natural Language Processing

Beam_search 5

источник

14:55пожаловаться #5

Cookie Thief in Natural Language Processing

советую поиграться с параметрами no_repeat_ngram_size и repetition_penalty

источник

15:51пожаловаться #6

Aleksey Kulnevich in Natural Language Processing

У бим серча есть проблема в «зацикливании» периодическом, в зависимости от фреймворка есть альтернативы, вроде top k-sampling. Возможно, поможет улучшить результаты

источник

16:08пожаловаться #7

Banof in Natural Language Processing

🔫 Jerrica L. Sager кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
Al Dyachkov, @wadimiusz, @Spiralhead, @kasha131, @Orzhan
При поддержке Золота Бородача

источник

19:33пожаловаться #8

I am Groot in Natural Language Processing

Привет. Накидайте плиз сервисы или готовые решения чтобы из коробки можно было для текста получить теги. Как в блогах делают ручками. И да, нужно для eng

источник

19:53пожаловаться #9

Alex Smolyakov in Natural Language Processing

https://towardsdatascience.com/topic-modeling-and-latent-dirichlet-allocation-in-python-9bf156893c24

Medium

Topic Modeling and Latent Dirichlet Allocation (LDA) in Python

Topic modeling is a type of statistical modeling for discovering the abstract “topics” that occur in a collection of documents. Latent…

источник

19:57пожаловаться #10

Prohor Gladkikh in Natural Language Processing

#qa #demo #nlp #pr
Всем привет!
Недавно искал QA модельку, обученную на SberQuAD, в итоге, нашел модель от Alexander Kaigorodov (https://huggingface.co/AlexKay) и мне она настолько понравилась, что решил сделать на ее основе демку 🤩:
http://demos.prokh.org/qa
Из интересного, есть поддержка контекста длиннее 512 bpe, правда без скользящего окна пока что.
Исходники👨‍💻: https://github.com/prohor33/qa-roberta-ru-saas
Если Вам понравится демка, поставьте плиз 🌟 репе, мне будет приятно ☺️

источник

22:16пожаловаться #11

Dmitriy in Natural Language Processing

🔴 NER
А что сейчас лучше всего работает с абревиатурами (сокращения кабельной продукции) ?
Spacy / natasha / deepavlov ?

источник

23:19пожаловаться #12

Prohor Gladkikh in Natural Language Processing

Регулярки?

источник

23:21пожаловаться #13

Dmitriy in Natural Language Processing

нее
слишком много вариаций, ошибок и корпоративных девиаций

пишут в заявках что угодно