Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 June 24

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
Отлично, спасибо за ответ, но сущность потом используется еще в одной модельке и начинает страдать скорость, вот если бы безМЛьным способом это решить
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
БезMLный способ - это намайнить словарь всех возможных сущностей и ахокорастиком их в тексте матчить. Или FSTшкой, если вы можете написать какую-то грамматику, описывающую многословные сущности.
Я так матчил топонимы и названия песен. И для того, и для другого были готовые большие каталоги, так что нужно было только просколнять все элементы каталога всеми возможными способами (с помощью pymorphy), скомпилировать в ахокорасик, и потом ручками выкинуть несколько элементов, которые давали очень много ложноположительных срабатываний.
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
А вот как решить это без ML и без словаря, я не знаю 🤷‍♂
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Ну и не пропущу случай прорекламировать свой маленький Берт (https://huggingface.co/cointegrated/rubert-tiny), который на CPU одно предложение в среднем за 6 миллисекунд обрабатывает (и это время ещё можно ускорить трюками типа квантизации) - может быть, такая скорость будет удовлетворительной.
источник

М

Михаил in NLP_RU - Natural Language Processing & Text Mining
ок, спасибо, попробую сформировать словарь, за берт спасибо, действия примерно след.: образовать словарь(искать сущности словарем), искать сущности бертой
источник

СШ

Слава Шишкам... in NLP_RU - Natural Language Processing & Text Mining
Всем привет, насколько мне известно, NER обычно делается через классификацию отдельных токенов, когда-то сотой в этом плане были разные вариации рннок-энкодеров с последующим использованием CRF. Сейчас услышал мнение, что для NER хорошо подходит seq2seq. Очевидно, что при большом желании к этой проблеме можно подойти и с этой стороны, но лично у меня возникает вопрос, зачем? В общем, перейду к сути вопроса, использует ли в своей практики кто-то именно seq2seq подход вместо классификации токенов и есть ли публикации, в которых сравнивают эти подходы без использования multitask learning?
источник
2021 June 25

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Очень странное мнение, если честно. Текущая SOTA (например, согласно http://nlpprogress.com/english/named_entity_recognition.html) по NER - это в основном BERT-подобные либо LSTM модели , которые делают как раз классификацию токенов.
источник

СШ

Слава Шишкам... in NLP_RU - Natural Language Processing & Text Mining
Спасибо за ответ! Вообще, сейчас подумал, если мы используем seq2seq подход, мы можем использовать beam search, но beam search в сравнении с CRF будет более слабым алгоритмом поиска оптимального размещения лейблов, тк CRF строится так, чтобы выбирать оптимальное размещение среди всех возможных в то время как beamsearch обладает куда более скромной "областью видимости"
источник

И

Информациоман... in NLP_RU - Natural Language Processing & Text Mining
Доброго времени суток, подскажите пожалуйста такой момент:

у НКРЯ есть страничка где описаны семантические метки слов

https://ruscorpora.ru/new/corpora-sem.html

Есть какое-то API у них, чтобы получить эту самую семантику для слов? Или может быть можно как-то скачать их модели и программно ее получить?
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Я сам с НКРЯ не работал, но знаю, что, договорившись с его разработчиками, часть корпуса можно скачать. Возможно, эта разметка туда включена.  
https://ruscorpora.ru/new/corpora-usage.html
источник

И

Информациоман... in NLP_RU - Natural Language Processing & Text Mining
Попробую уточнить у них, спасибо
источник

PZ

Pavel Zheltouhov in NLP_RU - Natural Language Processing & Text Mining
А слышали такую штуку "36 драматических ситуаций" ?) о том что в художественных текстах всего 36 классов
https://ru.wikipedia.org/wiki/%D0%A2%D1%80%D0%B8%D0%B4%D1%86%D0%B0%D1%82%D1%8C_%D1%88%D0%B5%D1%81%D1%82%D1%8C_%D0%B4%D1%80%D0%B0%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D1%81%D0%B8%D1%82%D1%83%D0%B0%D1%86%D0%B8%D0%B9

может есть исследования за или против на основе NLP?
просто так интересно почитать бы. без выгоды
Wikipedia
Тридцать шесть драматических ситуаций
Тридцать шесть драматических ситуаций (фр. Les 36 situations dramatiques) — книга французского театроведа Жоржа Польти (1895), посвящённая доказательству того, что все драматические произведения основываются на какой-либо из тридцати шести сюжетных коллизий. Современные исследователи характеризуют труд Польти как «протоструктуралистский» , указывая на его уверенность в том, что разработанная им типология объективно существует в действительности, — важность идей Польти видится не в самой его классификации, а в принципиальном подходе, согласно которому основу вдохновения составляют логика и культурные образцы, а теоретическое осмысление этой основы полезно для искусства : «сама идея ограниченности тезауруса возможных действий и событий драматического героя заслуживает серьёзного внимания».
источник
2021 June 26

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
Telegram
Котики Кодят: Перезагрузка
#котикикодят #дайджест #подкаст #выпуск #10

Наступила суббота, а значит —
Десятый эпизод дайджест подкаста
«Котики Кодят» от 26 июня 2021 года.

🖇 Ссылки выпуска:
• Регистрация на конференцию Podlodka Backend Crew
• Apple Store в здании старого кинотеатра
• Исследования о скорости процессоров Intel
• Видеокарты дешевеют! Правда пока только в Китае и немного в США

Ещё немного классных ссылок:
• НАСА пытается перезагрузить компьютер на телескопе "Хаббл"
• Разработан новый алгоритм машинного зрения для беспилотников
• В Корее создали натрий-ионный аккумулятор с ёмкостью в 1,5 раза больше литий-ионного
• NVIDIA выложила бесплатный графический генераторный редактор Canvas, который работает на нейросети GauGAN

📡  VPS "Котиков" работает на Cloud4box. Шустренькие серверы, минимальные цены, активная техподдержка! Повод выбрать хороший VPS!

@ccoder
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
а что за tts?
источник

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
tts?
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
text2speech
источник

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
а, это очень продвинутая нейросеть :)
источник

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
тут надо бы добавить: не имеющая аналогов, уникальная, лучшая из существующих. но мы не сильно любим хвалиться
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
😐
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
ну ты чего тролешь....
источник