Size: a a a

Natural Language Processing

2019 December 04

NS

Nikolay Shmyrev in Natural Language Processing
Alfredo Diezo
Ребят, всем привет
Кто-нибудь имел дело с deeppavlov в оффлайне? Просто есть проблема с запуском его предобученной модели -- dp пытается сам скачать ее со своего оф сайта, а мне нужно ее просто перенести с другого компа и подцепить к нему
На днях обсуждали https://t.me/natural_language_processing/11838
источник

YB

Yuri Baburov in Natural Language Processing
источник

Y

Yurii in Natural Language Processing
источник

YB

Yuri Baburov in Natural Language Processing
Ну, я смотрел, но там я пока нашёл только регэксы. Если кто из razdel их перетащит, то будет работать как там.
источник

Y

Yurii in Natural Language Processing
Yuri Baburov
Ну, я смотрел, но там я пока нашёл только регэксы. Если кто из razdel их перетащит, то будет работать как там.
А поподробнее можно чего куда таскать?) По хорошему наверное все это надо добавить к модели spacy_ru, а то использование по умолчанию будет неоч.
источник

AD

Alfredo Diezo in Natural Language Processing
Благодарю!
источник

YB

Yuri Baburov in Natural Language Processing
Yurii
А поподробнее можно чего куда таскать?) По хорошему наверное все это надо добавить к модели spacy_ru, а то использование по умолчанию будет неоч.
да, надо добавлять к модели.
правила РазделаНаташи: https://github.com/natasha/razdel/blob/master/razdel/segmenters/tokenize.py
а в spacy можно посмотреть примеры тут: https://github.com/explosion/spaCy/blob/master/spacy/lang/fr/tokenizer_exceptions.py

вот текущие русские:
https://github.com/explosion/spaCy/blob/master/spacy/lang/ru/tokenizer_exceptions.py
там даже нет "какой-то", "как-то".
```>>> display([(x, x.pos_) for x in nlp('какой-то мальчик-с-пальчик выглянул из-за красно-синего дома на 3.5 сантиметра')])
[(какой, 'DET'),
(-, 'PUNCT'),
(то, 'PART'),
(мальчик, 'NOUN'),
(-, 'PUNCT'),
(с, 'ADP'),
(-, 'PUNCT'),
(пальчик, 'NOUN'),
(выглянул, 'VERB'),
(из, 'ADP'),
(-, 'PUNCT'),
(за, 'ADP'),
(красно, 'ADJ'),
(-, 'PUNCT'),
(синего, 'ADJ'),
(дома, 'NOUN'),
(на, 'ADP'),
(3.5, 'NUM'),
(сантиметра, 'NOUN')]
```
источник

Y

Yurii in Natural Language Processing
Yuri Baburov
да, надо добавлять к модели.
правила РазделаНаташи: https://github.com/natasha/razdel/blob/master/razdel/segmenters/tokenize.py
а в spacy можно посмотреть примеры тут: https://github.com/explosion/spaCy/blob/master/spacy/lang/fr/tokenizer_exceptions.py

вот текущие русские:
https://github.com/explosion/spaCy/blob/master/spacy/lang/ru/tokenizer_exceptions.py
там даже нет "какой-то", "как-то".
```>>> display([(x, x.pos_) for x in nlp('какой-то мальчик-с-пальчик выглянул из-за красно-синего дома на 3.5 сантиметра')])
[(какой, 'DET'),
(-, 'PUNCT'),
(то, 'PART'),
(мальчик, 'NOUN'),
(-, 'PUNCT'),
(с, 'ADP'),
(-, 'PUNCT'),
(пальчик, 'NOUN'),
(выглянул, 'VERB'),
(из, 'ADP'),
(-, 'PUNCT'),
(за, 'ADP'),
(красно, 'ADJ'),
(-, 'PUNCT'),
(синего, 'ADJ'),
(дома, 'NOUN'),
(на, 'ADP'),
(3.5, 'NUM'),
(сантиметра, 'NOUN')]
```
Спасибо)
источник

YB

Yuri Baburov in Natural Language Processing
Yurii
Спасибо)
а вот что razdel выдаёт:
list(razdel.tokenize('какой-то мальчик-с-пальчик выглянул из-за красно-синего дома на 3.5 сантиметра'))
[Substring(0, 8, 'какой-то'),
Substring(9, 26, 'мальчик-с-пальчик'),
Substring(27, 35, 'выглянул'),
Substring(36, 41, 'из-за'),
Substring(42, 55, 'красно-синего'),
Substring(56, 60, 'дома'),
Substring(61, 63, 'на'),
Substring(64, 67, '3.5'),
Substring(68, 78, 'сантиметра')]
источник

Y

Yurii in Natural Language Processing
Да, разница ощутима.
источник

YB

Yuri Baburov in Natural Language Processing
Ну, тут конечно вопрос, как делить правильно (можно ввести специальный тип зависимости в синтаксисе для ярко-красный, интернет-магазин, он-то и по-прежнему), но "из-за" и "какой-то", "Рио-де-Жанейро" и "Нью-Йорк" наверное надо соединять в одно слово. Это тогда просто словарь исключений, получается.
В общем, ваши соображения приветствуются.
источник

Y

Yurii in Natural Language Processing
Yuri Baburov
Ну, тут конечно вопрос, как делить правильно (можно ввести специальный тип зависимости в синтаксисе для ярко-красный, интернет-магазин, он-то и по-прежнему), но "из-за" и "какой-то", "Рио-де-Жанейро" и "Нью-Йорк" наверное надо соединять в одно слово. Это тогда просто словарь исключений, получается.
В общем, ваши соображения приветствуются.
Мне кажется нужен просто словарь исключений, который можно взять в pymorphy2.
источник
2019 December 06

M

Manoj in Natural Language Processing
Couldn't everybody use English here?
Please.
источник

AE

Anton Eryomin in Natural Language Processing
For what?
источник

NK

Nikolay Karelin in Natural Language Processing
Manoj
Couldn't everybody use English here?
Please.
To discuss mostly Russian NLP?
источник

VF

Vadim Fomin in Natural Language Processing
Learn Olbanian!
источник

M

Manoj in Natural Language Processing
Anton Eryomin
For what?
So that everybody could understand
источник

YB

Yuri Baburov in Natural Language Processing
Manoj
So that everybody could understand
only 30% of russians know english,
only 30% of germans know english,
only 15% of chinese know english...
english writing skills are even worse.
so there's no easy solution for this.

So we discuss questions about russian language processing in Russian, but everything else in English (if anyone would ask a question in English).
источник

VI

Vitaly Ivanin in Natural Language Processing
Manoj
Couldn't everybody use English here?
Please.
what's the problem with creating english-speaking telegram chat? you can do this, if you want. as far as i know there are no popular english chat on this topic in telegram
источник

M

Manoj in Natural Language Processing
Vitaly Ivanin
what's the problem with creating english-speaking telegram chat? you can do this, if you want. as far as i know there are no popular english chat on this topic in telegram
Okay.
источник