Size: a a a

Natural Language Processing

2019 October 09

V

V in Natural Language Processing
да, с вашей помощью понял в чём тут проблема, благодарю. это загоняет меня в тупик, так как dependency tree parsing не подходит для извлечения нужных мне признаков из входных текстовых данных.
источник

PL

Pavel Lebedev in Natural Language Processing
каковы признаки?
источник

V

V in Natural Language Processing
Pavel Lebedev
каковы признаки?
в общем, я пытаюсь воспроизвести syntax embedding, описанный в этой работе: https://www.aclweb.org/anthology/D18-1294.pdf. не уверен, что dependency tree parsing здесь в принципе применим, и что он выдаст такие же по информативности фичи.
источник

B

Brenoritvrezorkre in Natural Language Processing
А я хотел податься к выч. лингвистам, но не было аспирантур по этой теме, все закрыли. Но, быть может, я когда-нибудь этим всё-таки займусь.
источник

SS

Sergey Sikorskiy in Natural Language Processing
Pavel Lebedev
в русском много возможных перестановок и constituency проблемен в применении (если только делать отдельную логику для «распутывания» непроективных предложений, недавно вроде обсуждали тут, но я не знаю, насколько это эффективно работает), поэтому для русского используют dependency. примеров constituency для русского я даже не знаю.
Непроективные предложения обсуждали в @pro_linguistics ...
источник

DK

Denis Kirjanov in Natural Language Processing
V
в общем, я пытаюсь воспроизвести syntax embedding, описанный в этой работе: https://www.aclweb.org/anthology/D18-1294.pdf. не уверен, что dependency tree parsing здесь в принципе применим, и что он выдаст такие же по информативности фичи.
Синтаксис для русского использовали, посмотрите тезисы последнего аиста
источник

DK

Denis Kirjanov in Natural Language Processing
Смысл тот же — синтаксические фичи, просто немного другое извлечение
источник

DK

Denis Kirjanov in Natural Language Processing
Denis Kirjanov
Синтаксис для русского использовали, посмотрите тезисы последнего аиста
Там для авторства именно есть, это лучшая работа была присуждена им даже
источник

V

V in Natural Language Processing
Denis Kirjanov
Синтаксис для русского использовали, посмотрите тезисы последнего аиста
благодарю, нашёл репозиторий по мотивам этой работы (самой работы, кажется, в открытом доступе ещё нет). странно, что не наткнулся на это дело раньше
источник

DK

Denis Kirjanov in Natural Language Processing
можно с авторами связаться, я думаю, дадут работу
источник
2019 October 10

PL

Pavel Lebedev in Natural Language Processing
источник

PL

Pavel Lebedev in Natural Language Processing
в презентации ссылка на гитхаб: https://github.com/OlegDurandin/AuthorStyle
источник

D

Dmitry in Natural Language Processing
В Yargy для работы с морфологией используется Pymorphy2 Про Pymorphy2 найти информацию непроблема
А где можно почитать про тот как работает токенизация в Yargy?
источник

Г

Герман in Natural Language Processing
источник

AM

Aleksandr Mester in Natural Language Processing
Привет, снова вопрос про deeppavlolv. Обучил bertclassifier (через терминал). Теперь пытаюсь понять как получить предикты на тестовой выборке. Есть deeppavlolv predict но его результат выводится в консоль. Не могу найти, как направить предикт в файл. Кто-нибудь может подсказать?
источник

AB

Aleksey B in Natural Language Processing
Dmitry
В Yargy для работы с морфологией используется Pymorphy2 Про Pymorphy2 найти информацию непроблема
А где можно почитать про тот как работает токенизация в Yargy?
неплохой доклад по теме
https://www.youtube.com/watch?v=NQxzx0qYgK8
источник

D

Dmitry in Natural Language Processing
Вообще забыл что существует эта страница, а в исходном коде копатся не особо хочется Спасибо
источник

T

Teemoor in Natural Language Processing
David (ddale) Dale
Потому что "смысл" - это очень сложно.
Есть модельки типа гугловского universal sentence encoder, они пытаются тексты представлять в виде векторов фиксированного размера, и для ряда задач это нормально работает.
Например, в Алисе поверх таких эмбеддингов делается классификация интентов.
Но когда текст (произвольной длины) переводится в вектор (фиксированного размера), информация точно теряется. Для задач классификации это часто окей, но для ряда других задач (например, перевода) потери информации слишком высоки, чтобы это работало приемлемо.
а если не секрет фирмы, какие сентенс эмбеддинги заехали в алисе? USE?
источник

D(

David (ddale) Dale in Natural Language Processing
Teemoor
а если не секрет фирмы, какие сентенс эмбеддинги заехали в алисе? USE?
Нечто внутрияндексовое, USE-подобное.
источник

T

Teemoor in Natural Language Processing
David (ddale) Dale
Нечто внутрияндексовое, USE-подобное.
👌
источник