Size: a a a

Natural Language Processing

2017 November 24

AB

Artur Bekerov in Natural Language Processing
Nick Turusin
Ребят, а на какой аналог natasha+yargy посоветуете посмотреть для английского?
источник

AZ

Andrey Zakharov in Natural Language Processing
интересная штука)
источник

TM

Timophey Molchanov in Natural Language Processing
Ага, а как он работает? Там для языка заданны примеры, а потом на них какой-то обобщающий алгоритм запускается?
источник
2017 November 27

NT

Nick Turusin in Natural Language Processing
Спасибо, наверное лучшее из того, что видел, хотя грамматики в их документации скромное место занимают
источник
2017 November 30

NT

Nick Turusin in Natural Language Processing
Слушайте, а если допустим долго и сложно писать грамматику для улиц, а хочется использовать тупой поиск по всем возможным улицам, которые могут состоять из слов и дефисом между, нескольких слов и так далее (вариантов много). Как в yargy  проще всего такое получить?
S -> STREET, NOT_(STREET), STREET, NOT_(STREET)... и так далее, как вы поняли STREET это по сути поиск из списка
источник

NT

Nick Turusin in Natural Language Processing
То есть допустим есть "ул. Академика Вернова", наш токенизатор побьёт на слова, так что ни одно стандартное правило для токенизатора не обработает эту улицу как 3 слова вместе, а по отдельности
источник

NT

Nick Turusin in Natural Language Processing
С ходу как бы идея тогда сделать regexp правило своё, где идёт поиск строк и списка, но какой-то моветон получается уж совсем
источник

NT

Nick Turusin in Natural Language Processing
И, кстати, пример с улицей с потолка, в natasha они есть вроде, но интересно как решается в общем случае
источник

TM

Timophey Molchanov in Natural Language Processing
Мне кажется это принципиально два разных подхода когда мы хотим токены и когда сущности, и вытаскивать второе из первого принципиально не верный подхох и просто другие инструменты надо использовать. Но я еще не до конца шарю в Ярге
источник

NT

Nick Turusin in Natural Language Processing
Да, ты абсолютно прав, грамматики не для этого. Но если возможно такой костыль заиспользовать с yargy, то это бы сильно время сэкономило
источник
2017 December 01

G

GrayAnt (Сергей) in Natural Language Processing
Пропуская текст через spacy сразу получаешь всё - и части речи и сущности и токены и формы слов и много чего только с русским языком spacy считай не работает (
источник

t2

tonko 22 in Natural Language Processing
Построим свой спэйси
источник

PK

Polina Kazakova in Natural Language Processing
там вроде можно свою модель обучить
источник

PK

Polina Kazakova in Natural Language Processing
https://spacy.io/models/xx#xx_ent_wiki_sm

и для сущностей есть вот эта, но я не тестила)
источник

TM

Timophey Molchanov in Natural Language Processing
@brnzz @tonko22 Я очень-очень хочу сделать русскую модель для Spacy, если кто-то тоже готов - давайте объединим усилия!
источник

PK

Polina Kazakova in Natural Language Processing
вообще очень хорошая идея
источник

TM

Timophey Molchanov in Natural Language Processing
А кто готов сколько времени на это потратить?)
источник

t2

tonko 22 in Natural Language Processing
мне по работе нужен хороший пос теггер который бы учитывал контекст, врде в наташу обещали завезти, но я еще не тестил
источник

TM

Timophey Molchanov in Natural Language Processing
Ох. А контектс как? Сложными регулярками или нейронками, так я не очень понимаю. И или разбивая на дерево и вытаскивая наличие других сущностей?
источник

t2

tonko 22 in Natural Language Processing
Timophey Molchanov
Ох. А контектс как? Сложными регулярками или нейронками, так я не очень понимаю. И или разбивая на дерево и вытаскивая наличие других сущностей?
Да я сам не знаю как это правильно делать, но я думаю что-то вроде lstm туда можно прикрутить
источник