https://habr.com/ru/post/596481/ Всем привет! Я выпустил третью часть цикла статей про суммаризацию. На этот раз про абстрактивные методы, в том числе про известные трансформерные модели: GPT, BART, T5.
Подскажите, пожалуйста, что сейчас sota для создания эмбеддингов русского текста на юридическом домене (законы, бухгалтерия, кадры)? Задача - найти ближайших к источнику (заголовок, аннотация, ключевые слова, текст - всё есть и создано человеком)
Как будто бы для юридических текстов должно работать примерно всё то же самое: LaBSE из коробки, дообучение fasttext'а. Более того, я в жизни видел fasttext классификатор приговоров суда.
Коллеги, подскажите, я верно понял, что у Yargy нет подробного описания документации? Чтобы было перечисление, что interpretation() - это то-то, а is_capitalized() - это то-то?
Всем привет, новенький в нлп. Есть задача по слову или словосочетанию понять что это(человек, фио, место и тд). Необязательно такие сущности, но какой то разбор хотелось бы. В какую сторону нужно думать и какие методы есть для этого? Заранее спасибо!
Добрый день. Есть задача собирать статьи, комменты и тд с разных ресурсов, затем анализировать. Вопрос как лучше их хранить и обрабатывать? Можно на диске в txt формате складывать грубо говоря. Но может есть какие то фреимворки, заточенные под это базы данных или инструменты, практики, подходы? Сейчас пока объём маленький, складываю на диск.