Size: a a a

Natural Language Processing

2017 March 23

DV

Dima Veselov in Natural Language Processing
Привет. Нужно поставить версию из мастер-бранча (:
источник

DV

Dima Veselov in Natural Language Processing
pip install -U git+https://github.com/bureaucratic-labs/yargy.git
источник
2017 April 02

AK

Alexander Kukushkin in Natural Language Processing
@dveselov Пробую расширить набор грамматик для извлечения адресов. Оператор OR ведёт себя неожиданно для меня. Вот пример https://pastebin.com/raw/ZBgz5Jpk . Он выводит "А" -> А (без кавычек), я ожидаю "А" ->  " А " . Это я что-то не понимаю, или проблема в OR ?
источник
2017 April 03

DV

Dima Veselov in Natural Language Processing
Привет! HOUSE_LETTER_ONLY_LETTER_GRAMMAR отрабатывает первой, поэтому возвращается только А.
Я думал над этим и скорее всего нужно будет менять поведение OR.
источник

DV

Dima Veselov in Natural Language Processing
(чтобы тот возвращал наибольшее совпадение, по кол-ву токенов)
источник

AK

Alexander Kukushkin in Natural Language Processing
Угу. Ясно, спасибо
источник

AK

Alexander Kukushkin in Natural Language Processing
Попробовал добавить номера домов с разделителем, типа 5/3, 4-1. Вот пример https://pastebin.com/raw/wedFH82h . Почему-то часть первого предложения попала во второе:
улица д.5
улица 76
       улица д . 5 76
Это из-за двух подряд optional или OR или я что-то делаю не так
источник

AK

Alexander Kukushkin in Natural Language Processing
Что если я хочу использовать готовые грамматики из natasha внутри своих? Например, есть строчки типа "решение Кировского районного суда г. Уфы Республики Башкортостан от 29.04.2013", "решение Советского районного суда г. Владивостока от 24.10.2008". Я хотел бы использовать Location и Date из natasha, чтобы сделать грамматику типа Location + "от" + Date. Такое вообще предполагается?
источник

DV

Dima Veselov in Natural Language Processing
Alexander Kukushkin
Попробовал добавить номера домов с разделителем, типа 5/3, 4-1. Вот пример https://pastebin.com/raw/wedFH82h . Почему-то часть первого предложения попала во второе:
улица д.5
улица 76
       улица д . 5 76
Это из-за двух подряд optional или OR или я что-то делаю не так
Привет! Так почти работает (только почему-то пропускает д., из-за проблем с OR, наверное): https://gist.github.com/dveselov/df07dbc918535397a639a219b80d956c
источник

DV

Dima Veselov in Natural Language Processing
Alexander Kukushkin
Что если я хочу использовать готовые грамматики из natasha внутри своих? Например, есть строчки типа "решение Кировского районного суда г. Уфы Республики Башкортостан от 29.04.2013", "решение Советского районного суда г. Владивостока от 24.10.2008". Я хотел бы использовать Location и Date из natasha, чтобы сделать грамматику типа Location + "от" + Date. Такое вообще предполагается?
Да, обязательно будет.
источник
2017 April 04

AK

Alexander Kukushkin in Natural Language Processing
Есть текст типа: "Цикл фильмов «Игры богов», состоящий из восьми актов: «Театр», «Артисты и зрители», «Эстетика», «Общение. Музыка. Слово», «Правильное образование»". Я хотел бы по аналогии с OR написать что-то типа REPEATABLE(QUOTED_TITLE_GRAMMAR + ",").
источник

AK

Alexander Kukushkin in Natural Language Processing
Также бывает "суд г. Магнитогорска Челябинской области от 25 мая" и "суд города Москвы от 27.09.2011". По аналогии c OR можно было бы сделать Location + OPTIONAL(Location) + Date
источник
2017 April 06

AK

Alexander Kukushkin in Natural Language Processing
Похоже repeatable не работает в сочетании с OR https://pastebin.com/raw/L0MRYWb9
источник

AK

Alexander Kukushkin in Natural Language Processing
@dveselov Я хотел бы в ближайшее время расширить набор грамматик natasha https://github.com/bureaucratic-labs/natasha/pull/14 . Но для этого нужно поправить пару проблем в yargy https://github.com/bureaucratic-labs/yargy/issues/12 https://github.com/bureaucratic-labs/yargy/issues/13 . Скажи, что у тебя сейчас со временем? Ты не мог бы мне помочь сделать правки в yargy или сам заняться этими тикетами?
источник

DV

Dima Veselov in Natural Language Processing
Alexander Kukushkin
@dveselov Я хотел бы в ближайшее время расширить набор грамматик natasha https://github.com/bureaucratic-labs/natasha/pull/14 . Но для этого нужно поправить пару проблем в yargy https://github.com/bureaucratic-labs/yargy/issues/12 https://github.com/bureaucratic-labs/yargy/issues/13 . Скажи, что у тебя сейчас со временем? Ты не мог бы мне помочь сделать правки в yargy или сам заняться этими тикетами?
Привет! У меня сейчас совсем нет времени, но если будут какие-то вопросы - обязательно пиши.
источник

DV

Dima Veselov in Natural Language Processing
(в любом случае спасибо!)
источник
2017 April 09

AK

Alexander Kukushkin in Natural Language Processing
Ну основной вопрос вот в этой строчке https://github.com/bureaucratic-labs/yargy/blob/master/yargy/parser.py#L152 . Когда optional или repeatable rule не сметчилось, мы переходим к следующему rule. Но когда repeatable rule стоит в конце грамматике, завёрнутой в OR, нужно перейти к rule следующему за OR. Похоже, чтобы это сделать нужно прилично пропатчить yargy/parser.py , а там сложная логика
источник

AK

Alexander Kukushkin in Natural Language Processing
А, даже проще. Проблема, когда rule с repeatable находится в конце грамматики https://pastebin.com/raw/jSZviJQQ . Необязательно заворачивать в OR
источник
2017 April 12

DV

Dima Veselov in Natural Language Processing
Alexander Kukushkin
А, даже проще. Проблема, когда rule с repeatable находится в конце грамматики https://pastebin.com/raw/jSZviJQQ . Необязательно заворачивать в OR
Займусь этим на выходных
источник

AK

Alexander Kukushkin in Natural Language Processing
источник