Size: a a a

Natural Language Processing

2019 October 24

A1

Art 141 in Natural Language Processing
Кто-нибудь встречал датасеты с размеченными членами преложения в текстах на русском языке?
источник

AK

Anton Kiselëv in Natural Language Processing
Art 141
Кто-нибудь встречал датасеты с размеченными членами преложения в текстах на русском языке?
источник

A1

Art 141 in Natural Language Processing
Спасибо.
источник

A1

Art 141 in Natural Language Processing
Там получается только части речи и завимости? Самих членов предложения нет?
источник

DK

Denis Kirjanov in Natural Language Processing
Art 141
Там получается только части речи и завимости? Самих членов предложения нет?
есть, см. предпоследнюю колонку
источник

A1

Art 141 in Natural Language Processing
Denis Kirjanov
есть, см. предпоследнюю колонку
Речь про punct, case, conj, nmod... ?
источник

DK

Denis Kirjanov in Natural Language Processing
Art 141
Речь про punct, case, conj, nmod... ?
да
источник

A1

Art 141 in Natural Language Processing
По идее это же зависимости между словами. Я думал есть прямо размеченные subject, predicate, object, adverbial и attribute?
источник

S

Sergey in Natural Language Processing
https://colab.research.google.com/drive/1Q5kWR4ypIdIFNhbrwqyMvjpYuFNyNP0Y
делал для русского языка заготовку для запроса к api модели syntagrus- может поможет
источник

DK

Denis Kirjanov in Natural Language Processing
Art 141
По идее это же зависимости между словами. Я думал есть прямо размеченные subject, predicate, object, adverbial и attribute?
а что, по вашему, члены предложения -- как не зависимости между словами?)
источник

A1

Art 141 in Natural Language Processing
Denis Kirjanov
а что, по вашему, члены предложения -- как не зависимости между словами?)
Я же написал, что думал, что есть прямо размеченные на эти 5 групп. Чтобы не надо было из связей между словами вычислять сами члены предложения.
источник

DK

Denis Kirjanov in Natural Language Processing
Art 141
Я же написал, что думал, что есть прямо размеченные на эти 5 групп. Чтобы не надо было из связей между словами вычислять сами члены предложения.
не, ну именно так никто не размечает, этот формализм никому особо не нужен
а вам, если не секрет, для какой задачи?
источник

A1

Art 141 in Natural Language Processing
Denis Kirjanov
не, ну именно так никто не размечает, этот формализм никому особо не нужен
а вам, если не секрет, для какой задачи?
В данном случае просто в универе задание такое.
источник

DK

Denis Kirjanov in Natural Language Processing
а в каком универе, какой курс? а смысл задания?
источник

A1

Art 141 in Natural Language Processing
Denis Kirjanov
а в каком универе, какой курс? а смысл задания?
Система анализа текстов. Это одна из необходимых функций. Думал на примере этой задачи подтянуть навыки в ml.
источник

DK

Denis Kirjanov in Natural Language Processing
Art 141
Система анализа текстов. Это одна из необходимых функций. Думал на примере этой задачи подтянуть навыки в ml.
тогда полезнее сразу учиться на universal dependencies, мне неизвестны кейсы, когда в индустрии модельки учили на членах предложения (хотя может они и есть)
источник

V

Vlad in Natural Language Processing
Кто-нибудь может подсказать качественный и быстрый детектор языка, на котором написан текст? Задача очень простая, определять на данный момент нужно только английский и русский языки (в перспективе ещё украинский и немецкий). Определять нужно по одному слову

Я пробовал langid и langdetect, работают мягко говоря не очень... (именно по словам, если подавать текст, то всё хорошо)
Вот результаты мини-теста:
TEST LANGID
hello: en, time 0.0026
hi: en, time 0.0033
привет: bg, time 0.0050
галя: be, time 0.0046
I: en, time 0.0042
чел: ru, time 0.0044
am: en, time 0.0041
your: en, time 0.0040
что: ru, time 0.0044
friend: en, time 0.0042
galya: en, time 0.0041
плиз: bg, time 0.0046

TEST LANGDETECT
hello: fi, time 0.8736
hi: sw, time 0.0323
привет: mk, time 0.2464
галя: ru, time 0.0085
I: id, time 0.0352
чел: ru, time 0.0092
am: so, time 0.0323
your: tr, time 0.0249
что: ru, time 0.0075
friend: da, time 0.0256
galya: so, time 0.1049
плиз: bg, time 0.1084

Есть ли ещё что-нибудь более точное и быстрое? Ибо время обработки предложения из 10 слов должно быть не более 0.1 сек, а тут иногда только одно слово обрабатывается столько.

Пришёл в голову вариант сделать простое сравнение букв, если слово на n% состоит из русских букв, то язык русский, для англа так же. Только вот в этом случае детектить немецкий и украинский язык не получится... только если по специфичным символам, но это ещё менее точно, чем вышеприведенные варианты
источник

OS

Oleg Serikov in Natural Language Processing
Vlad
Кто-нибудь может подсказать качественный и быстрый детектор языка, на котором написан текст? Задача очень простая, определять на данный момент нужно только английский и русский языки (в перспективе ещё украинский и немецкий). Определять нужно по одному слову

Я пробовал langid и langdetect, работают мягко говоря не очень... (именно по словам, если подавать текст, то всё хорошо)
Вот результаты мини-теста:
TEST LANGID
hello: en, time 0.0026
hi: en, time 0.0033
привет: bg, time 0.0050
галя: be, time 0.0046
I: en, time 0.0042
чел: ru, time 0.0044
am: en, time 0.0041
your: en, time 0.0040
что: ru, time 0.0044
friend: en, time 0.0042
galya: en, time 0.0041
плиз: bg, time 0.0046

TEST LANGDETECT
hello: fi, time 0.8736
hi: sw, time 0.0323
привет: mk, time 0.2464
галя: ru, time 0.0085
I: id, time 0.0352
чел: ru, time 0.0092
am: so, time 0.0323
your: tr, time 0.0249
что: ru, time 0.0075
friend: da, time 0.0256
galya: so, time 0.1049
плиз: bg, time 0.1084

Есть ли ещё что-нибудь более точное и быстрое? Ибо время обработки предложения из 10 слов должно быть не более 0.1 сек, а тут иногда только одно слово обрабатывается столько.

Пришёл в голову вариант сделать простое сравнение букв, если слово на n% состоит из русских букв, то язык русский, для англа так же. Только вот в этом случае детектить немецкий и украинский язык не получится... только если по специфичным символам, но это ещё менее точно, чем вышеприведенные варианты
кеш какой-нить?)
источник

OS

Oleg Serikov in Natural Language Processing
по слову одному самое то
источник

V

Vlad in Natural Language Processing
ну это только если заранее известен словарь модели и принадлежность слов к конкретному языку)
источник