Size: a a a

Natural Language Processing

2021 December 21

IG

Ilya Gusev in Natural Language Processing
https://habr.com/ru/post/596481/
Всем привет!
Я выпустил третью часть цикла статей про суммаризацию.
На этот раз про абстрактивные методы, в том числе про известные трансформерные модели: GPT, BART, T5.
источник

A

Anton in Natural Language Processing
Подскажите, пожалуйста, что сейчас sota для создания эмбеддингов русского текста на юридическом домене (законы, бухгалтерия, кадры)?
Задача - найти ближайших к источнику (заголовок, аннотация, ключевые слова, текст - всё есть и создано человеком)
источник

БЧ

Бакытжан Четтикбаев... in Natural Language Processing
интересная статья 👍
источник

IG

Ilya Gusev in Natural Language Processing
Как будто бы для юридических текстов должно работать примерно всё то же самое: LaBSE из коробки,  дообучение fasttext'а. Более того, я в жизни видел fasttext классификатор приговоров суда.
источник

A

Anton in Natural Language Processing
👍🏻точно, попробую фасттекст дообучить.
Сейчас USE тестирую. В целом неплохо, только не получается им задать бОльший вес для ключевых слов.
источник

NK

Nikolay Karelin in Natural Language Processing
Если совсем уже ключевые слова нужны - то может лучше старый добрый TF-IDF, а не эмбеддинги? Там и веса можно подкручивать.
источник

FF

Futorio Franklin in Natural Language Processing
Можно взвешивать эмбеддинги слов с помощью tf-idf
источник

A

Anton in Natural Language Processing
Неа, он не летит. Контекст не захватывает, а он очень важен. (временами)
источник

FF

Futorio Franklin in Natural Language Processing
Для компромиса
источник

A

Anton in Natural Language Processing
Попробую методику от keybert наверное, там есть реализация двух алгоритмов из коробки.
источник

NK

Nikolay Karelin in Natural Language Processing
Тогда пробовать комбинировать
источник

A

Anton in Natural Language Processing
Сходу не догоняю как это сделать.
источник

IG

Ilya Gusev in Natural Language Processing
Просто домножать на tfidf во время усреднения
источник

КМ

Константин Маркион... in Natural Language Processing
Коллеги, подскажите, я верно понял, что у Yargy нет подробного описания документации? Чтобы было перечисление, что interpretation() - это то-то, а is_capitalized() - это то-то?
источник

КМ

Константин Маркион... in Natural Language Processing
Сколько не искал, везде только примеры.
источник

VF

Vadim Fomin in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @Hansklaus12 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @markyon, @kamane_margane, @nekrasov_anton, @ohnekit, @IvanMalakhovVl
При поддержке Золота Бородача
источник

MB

Mark Baushenko in Natural Language Processing
Всем привет, новенький в нлп. Есть задача по слову или словосочетанию понять что это(человек, фио, место и тд). Необязательно такие сущности, но какой то разбор хотелось бы. В какую сторону нужно думать и какие методы есть для этого? Заранее спасибо!
источник

FF

Futorio Franklin in Natural Language Processing
Звучит как задача NER
источник

Б

Борис in Natural Language Processing
Добрый день. Есть задача собирать статьи, комменты и тд с разных ресурсов, затем анализировать. Вопрос как лучше их хранить и обрабатывать? Можно на диске в txt формате складывать грубо говоря. Но может есть какие то фреимворки, заточенные под это базы данных или инструменты, практики, подходы? Сейчас пока объём маленький, складываю на диск.
источник