Size: a a a

Natural Language Processing

2017 June 18

DV

Dima Veselov in Natural Language Processing
Привет. С 5kb текстом проблем быть не должно.
Если документ больше - можно разбить по абзацам (или по предложениям) и запустить по парсеру на ядро процессора.
источник
2017 June 21

EV

Egor V. in Natural Language Processing
Добрый день. Скажи, есть ли какие-то задачи, которые можно помочь решить? У меня появилось свободное время. Хотелось бы принять участие в разработке.
источник

EV

Egor V. in Natural Language Processing
🕵🏻 Макс
Где можно будет почитать обзор? :)
Там буквально пара строк про томиту, наташу и пуллэнти. 😊
источник

🕵

🕵🏻 Макс in Natural Language Processing
И как, Наташа рулит? )
источник

EV

Egor V. in Natural Language Processing
🕵🏻 Макс
И как, Наташа рулит? )
Я использовал Томиту, потому что уже были кое-какие наброски грамматик. Были другие важные задачи, поэтому не стал разбираться с Наташей)
источник

x

x in Natural Language Processing
определение негативного или позитивного контекста у произвольного текста это стандартная задача?
источник

EV

Egor V. in Natural Language Processing
x
определение негативного или позитивного контекста у произвольного текста это стандартная задача?
много кто таким занимается
источник
2017 June 22

EV

Egor V. in Natural Language Processing
@dveselov так что, можно принять участие?
источник

DV

Dima Veselov in Natural Language Processing
Привет! Спасибо за проявленный интерес, но прямо сейчас нет того, с чем можно помочь :) Сейчас @alexkuk делает новые внутренности для парсера - поэтому у нас немного встал процесс (но это ненадолго)
источник

AK

Alexander Kukushkin in Natural Language Processing
Есть ещё https://github.com/bureaucratic-labs/models , мне кажется, там есть несколько приятных небольших задач
источник
2017 June 23

EV

Egor V. in Natural Language Processing
Что за задачи?
источник
2017 June 25

AK

Alexander Kukushkin in Natural Language Processing
Продублирую то, что писал @dveselov . Это вещи которые мне самому было бы интересно сделать. https://github.com/bureaucratic-labs/models библиотека для сегментации русского текста на предложения и слова. Эта задача часто встречается. Люди про неё спрашивают. Нормального инструмента для русского мне не известно, поэтому инициатива по-моему полезная. Вот что, мне кажется, было бы полезно сделать
1. Написано, что качество >98%. Было бы интересно знать какое качество у супер-простых подходов: разбить по пробелу, по точке. Какое качество у чего-нибудь посложнее: у регулярок как в yargy.tokenizer у правил типа http://ideone.com/pNpffv
2. Нужен простой интерфейс. Можно как у yargy.tokenizer
3. Интересно посмотреть на ошибки. И на случаи где простые методы ошибаются, а CRF нет
4. Интересно посмотреть на замеры скорости. И сравнить с супер простыми методами
источник
2017 June 29

DV

Dima Veselov in Natural Language Processing
Привет.
источник

DV

Dima Veselov in Natural Language Processing
Если не нужно искать по правилам типа <должность> такой-то такой, можно просто их отключить. Вот пример такого правила: https://github.com/bureaucratic-labs/natasha/blob/master/natasha/grammars/person/grammars.py#L406
источник

DV

Dima Veselov in Natural Language Processing
т.е. сделать свой класс, в котором переопределить грамматики, примерно так: https://gist.github.com/dveselov/d1dff4d4d4d4611ec57d40d7491e2f2d
источник

DV

Dima Veselov in Natural Language Processing
И в парсер передавать его, а не natasha.grammars.Person.
источник

DV

Dima Veselov in Natural Language Processing
Примерно так, если я правильно понял вопрос.
источник

DV

Dima Veselov in Natural Language Processing
источник

DV

Dima Veselov in Natural Language Processing
Её тоже можно переопределить и передавать вместо оригинала.
источник
2017 July 01

DV

Dima Veselov in Natural Language Processing
Друзья, в ближайшие пару месяцев мы будем менять интерфейс парсера. Посмотреть как будут выглядеть правила можно здесь: https://alexanderkuk.github.io/yargy/index.html
Если вы пишите свои правила, на базе yargy, будьте готовы к изменениям :)
источник