Size: a a a

Natural Language Processing

2021 April 14

DD

David Dale in Natural Language Processing
Можно завернуть pymorphy2 в lru_cache. Из-за закона ципфа большую часть текстов составляет очень небольшое число слов. Если их леммы запомнить, леммер ускоряется на порядок.
источник

MK

Max Kuznetsov in Natural Language Processing
Так для этого контейнеры придуманы, чтобы сегфаулты не лечить )
источник

RK

Renat K in Natural Language Processing
Насколько понял из статьи, еще и не распараллелили. Мне кажется, что cache+multiprocessing значительно должны ускорить
источник

S(

Sirius 阿狐狸 (Sergey I... in Natural Language Processing
вообще хорошая идея. может помочь. благодарю.
источник

FF

Futorio Franklin in Natural Language Processing
У меня такая цепочка ускоряла в 1.5-2 раза примерно
источник

FF

Futorio Franklin in Natural Language Processing
Не сказать, чтобы очень-очень много, но лучше, чем ничего
источник

DD

David Dale in Natural Language Processing
У меня кэш ускорял раз в 10 точно Оо
источник

FF

Futorio Franklin in Natural Language Processing
А какой размер был?
источник

FF

Futorio Franklin in Natural Language Processing
Видимо, я на препроцессинге дургой ботлнек словил
источник

FF

Futorio Franklin in Natural Language Processing
Поэтому и не получил 10 раз рост
источник

FF

Futorio Franklin in Natural Language Processing
Там скорее всего каждый раз одтельный процесс поднимается морф анализатора
источник

FF

Futorio Franklin in Natural Language Processing
Где-то был хак как можно его постоянно держать и по пайпу общаться
источник

SY

Sergey Yaroshchak in Natural Language Processing
Подскажите, пожалуйста можно ли в yargy для английских слов использовать вместо pymorphy2 другой лематизатор?
источник

S(

Sirius 阿狐狸 (Sergey I... in Natural Language Processing
Это только для mystem верно
источник
2021 April 15

VM

Victor Maslov in Natural Language Processing
какой аналог mystem посоветуете для английского языка?
я пробовал hunpos, tree-tagger, ark-tagger, textblob, но они маловато инфы дают
источник

SW

Space Wanderer in Natural Language Processing
spacy неплох и умеет удобный интерфейс для python
источник

N

Natalia in Natural Language Processing
а какая инфа в принципе нужна?
источник

VM

Victor Maslov in Natural Language Processing
инфа нужна такая, чтоб скормив кучу текста, я понимал, что два каких-нить слова грамматически одинаково используются в предложениях, и если я одно на другое заменю, то получу новое грамматически валидное предложение
источник

VM

Victor Maslov in Natural Language Processing
по тому, как много инфы дает mystem, и как мало дают те тулзы, что я пробовал для английского, я пришел к выводу, что русский текст в этом плане прост в анализе, потому что у слов есть окончания и пр., а в английском их нет, и роль слова в предложении понять сложней, но я хз, я не лингвист
источник

VM

Victor Maslov in Natural Language Processing
после пары дней шлифовки я добился того, что половина оставшихся ошибок в генерации обусловлена лишь ошибками mystem-а, а с какой стороны подойти к тому, чтоб чинить английскую несуразицу, я чот не понял
источник