Size: a a a

Natural Language Processing

2020 May 08

АН

Александр Нагаев... in Natural Language Processing
Ну я копирую веса и потом сверяю выходы кераса и торча
источник

АН

Александр Нагаев... in Natural Language Processing
Они координально разные
источник

АН

Александр Нагаев... in Natural Language Processing
А должны быть хотябы похожие
источник

KS

Konstantin Smith in Natural Language Processing
Pavel Gulyaev
Подскажите, пожалуйста, существует ли какая-то технология согласования вопросов и ответов по времени, числу, падежу и т.д.. К примеру я ищу ответ на вопрос с помощью squad - он вырезает кусок из предлагаемого контекста. Но что делать, если вырезанный ответ не согласуется с предполагаемым ответ по числу или падежам?
В Pullenti в классе ... Ner.Core.MiscHelper есть функция GetTextMorphVarByCase, преобразующая строку (не только слово, но м.б. сложная именная группа, причастный оборот и др.) к нужному числу и падежу. Там много и других полезных функций по морфологическим преобразованиям. А если каких нет, то можно обратиться к автору для доработки.
источник

PG

Pavel Gulyaev in Natural Language Processing
Konstantin Smith
В Pullenti в классе ... Ner.Core.MiscHelper есть функция GetTextMorphVarByCase, преобразующая строку (не только слово, но м.б. сложная именная группа, причастный оборот и др.) к нужному числу и падежу. Там много и других полезных функций по морфологическим преобразованиям. А если каких нет, то можно обратиться к автору для доработки.
Спасибо, буду разбираться
источник

JK

Joseph Katzmaan in Natural Language Processing
Всем привет!
Столкнулся с проблемой.
Есть около 1000 новостей портала x по теме n.
Я объединил их в один документ, удалил стоп-слова, пунктуацию, токенизировал и привел токены в нормальную форму.
на выходе получил список чистых токенов
этот список я пропустил через LDA gensim  (словарь и корпус получили на вход список токенов)
в итоге я получил темы, но их состав по ключевым словам практически идентичный, видимо в силу того, что все документы и так написаны на одну тему
Какую проблему я хочу решить: увеличить точность, чтобы модель выделяла более контрастные подтемы внутри одной темы.
Что можно сделать в этом направлении?
мне советовали обратить внимание на методы тематической классификации, но я пока что хочу разобраться с LDA
работаю в Python
источник

RS

Ruslan Sabirov in Natural Language Processing
Joseph Katzmaan
Всем привет!
Столкнулся с проблемой.
Есть около 1000 новостей портала x по теме n.
Я объединил их в один документ, удалил стоп-слова, пунктуацию, токенизировал и привел токены в нормальную форму.
на выходе получил список чистых токенов
этот список я пропустил через LDA gensim  (словарь и корпус получили на вход список токенов)
в итоге я получил темы, но их состав по ключевым словам практически идентичный, видимо в силу того, что все документы и так написаны на одну тему
Какую проблему я хочу решить: увеличить точность, чтобы модель выделяла более контрастные подтемы внутри одной темы.
Что можно сделать в этом направлении?
мне советовали обратить внимание на методы тематической классификации, но я пока что хочу разобраться с LDA
работаю в Python
Привет!
Попробуй:
1) Использовать TF-IDF, а не простую матрицу количества
2) Убрать слова, которые встречаются часто и характеризуют все топики
источник

Bo

Blen obema in Natural Language Processing
>sudo pip3 install vosk-0.3.7-cp38-cp38-macosx_10_12_x86_64.whl
ERROR: vosk-0.3.7-cp38-cp38-macosx_10_12_x86_64.whl is not a supported wheel on this platform.

>sudo pip3 install vosk
ERROR: Could not find a version that satisfies the requirement vosk (from versions: none)
ERROR: No matching distribution found for vosk
источник

NS

Nikolay Shmyrev in Natural Language Processing
Blen obema
>sudo pip3 install vosk-0.3.7-cp38-cp38-macosx_10_12_x86_64.whl
ERROR: vosk-0.3.7-cp38-cp38-macosx_10_12_x86_64.whl is not a supported wheel on this platform.

>sudo pip3 install vosk
ERROR: Could not find a version that satisfies the requirement vosk (from versions: none)
ERROR: No matching distribution found for vosk
питон и пип каких версий
источник

Bo

Blen obema in Natural Language Processing
Nikolay Shmyrev
питон и пип каких версий
>pip3 -V
pip 20.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

>python3 -V
Python 3.8.2

Самого смущает, что для pip в конце написано python 3.7, но все остальные либы ставятся
источник

K

Kamil in Natural Language Processing
Попробуйте pip3.8 - V
источник

YB

Yuri Baburov in Natural Language Processing
Alexandra Panina
привет! Есть UDPipe у него можно взять модель русского языка и использовать в spacy, на гите есть их соединение
https://github.com/TakeLab/spacy-udpipe
http://ufal.mff.cuni.cz/udpipe/models#universal_dependencies_25_models_download
Так качество сейчас примерно одинаковое у spacy и udpipe, можно и spacy-ru брать сразу
источник

V

Vlad in Natural Language Processing
А у slovnet качество в этой задаче будет хуже, чем у udpipe/spacy-ru?

https://github.com/natasha/slovnet#syntax
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
А у slovnet качество в этой задаче будет хуже, чем у udpipe/spacy-ru?

https://github.com/natasha/slovnet#syntax
Сейчас тоже примерно одинаковое, потому что новые модели spacy-ru ещё недолетели до релиза, и поэтому, кажется, на процент или два лучше результаты у словнета сейчас на бенчмарке naeval . А бертовские модели гораздо лучше.(Я привык на синтагрусе смотреть, а там чуть другой датасет тестовый сейчас, там тоже словнет по всем показателям чуть лучше.)
источник

EI

Eugene Istomin in Natural Language Processing
Vlad
А у slovnet качество в этой задаче будет хуже, чем у udpipe/spacy-ru?

https://github.com/natasha/slovnet#syntax
Странно, что тут нет сравнения с pullenti
источник

V

Vlad in Natural Language Processing
Бертовские понятное дело топовые, но для работы нужна видеокарта, что б хорошую скорость получить)

А вот spacy/slovnet могут и без gpu довольно быстро работать
источник

EI

Eugene Istomin in Natural Language Processing
Eugene Istomin
Странно, что тут нет сравнения с pullenti
источник

~

~ in Natural Language Processing
привет всем! есть какая-нибудь программа, которая может загружать массив научных статей и формировать карту связей между понятиями? я понимаю, что задача слишком объёмная, чтобы сходу её решить, но я помню некие новости про такое, когда нейросетке скармливали работы, а на выходе она предсказывала новые научные открытия. что почитать на эту тему?
источник

AS

Artem Semenov in Natural Language Processing
~
привет всем! есть какая-нибудь программа, которая может загружать массив научных статей и формировать карту связей между понятиями? я понимаю, что задача слишком объёмная, чтобы сходу её решить, но я помню некие новости про такое, когда нейросетке скармливали работы, а на выходе она предсказывала новые научные открытия. что почитать на эту тему?
источник

AS

Artem Semenov in Natural Language Processing
~
привет всем! есть какая-нибудь программа, которая может загружать массив научных статей и формировать карту связей между понятиями? я понимаю, что задача слишком объёмная, чтобы сходу её решить, но я помню некие новости про такое, когда нейросетке скармливали работы, а на выходе она предсказывала новые научные открытия. что почитать на эту тему?
Мб ещё на awesomeopensource.com чё лежит
источник