Телеграмм чат группы natural_language

https://colab.research.google.com/drive/1Q5kWR4ypIdIFNhbrwqyMvjpYuFNyNP0Y
делал для русского языка заготовку для запроса к api модели syntagrus- может поможет

Google

Google Colaboratory

источник

18:22пожаловаться #9

DK

Denis Kirjanov in Natural Language Processing

Art 141

По идее это же зависимости между словами. Я думал есть прямо размеченные subject, predicate, object, adverbial и attribute?

а что, по вашему, члены предложения -- как не зависимости между словами?)

источник

18:22пожаловаться #10

A1

Art 141 in Natural Language Processing

Denis Kirjanov

а что, по вашему, члены предложения -- как не зависимости между словами?)

Я же написал, что думал, что есть прямо размеченные на эти 5 групп. Чтобы не надо было из связей между словами вычислять сами члены предложения.

источник

18:23пожаловаться #11

DK

Denis Kirjanov in Natural Language Processing

Art 141

Я же написал, что думал, что есть прямо размеченные на эти 5 групп. Чтобы не надо было из связей между словами вычислять сами члены предложения.

не, ну именно так никто не размечает, этот формализм никому особо не нужен
а вам, если не секрет, для какой задачи?

источник

18:25пожаловаться #12

A1

Art 141 in Natural Language Processing

Denis Kirjanov

не, ну именно так никто не размечает, этот формализм никому особо не нужен
а вам, если не секрет, для какой задачи?

В данном случае просто в универе задание такое.

источник

18:26пожаловаться #13

DK

Denis Kirjanov in Natural Language Processing

а в каком универе, какой курс? а смысл задания?

источник

18:27пожаловаться #14

A1

Art 141 in Natural Language Processing

Denis Kirjanov

а в каком универе, какой курс? а смысл задания?

Система анализа текстов. Это одна из необходимых функций. Думал на примере этой задачи подтянуть навыки в ml.

источник

18:37пожаловаться #15

DK

Denis Kirjanov in Natural Language Processing

Art 141

Система анализа текстов. Это одна из необходимых функций. Думал на примере этой задачи подтянуть навыки в ml.

тогда полезнее сразу учиться на universal dependencies, мне неизвестны кейсы, когда в индустрии модельки учили на членах предложения (хотя может они и есть)

источник

18:39пожаловаться #16

V

Vlad in Natural Language Processing

Кто-нибудь может подсказать качественный и быстрый детектор языка, на котором написан текст? Задача очень простая, определять на данный момент нужно только английский и русский языки (в перспективе ещё украинский и немецкий). Определять нужно по одному слову

Я пробовал langid и langdetect, работают мягко говоря не очень... (именно по словам, если подавать текст, то всё хорошо)
Вот результаты мини-теста:

TEST LANGID
hello: en, time 0.0026
hi: en, time 0.0033
привет: bg, time 0.0050
галя: be, time 0.0046
I: en, time 0.0042
чел: ru, time 0.0044
am: en, time 0.0041
your: en, time 0.0040
что: ru, time 0.0044
friend: en, time 0.0042
galya: en, time 0.0041
плиз: bg, time 0.0046

TEST LANGDETECT
hello: fi, time 0.8736
hi: sw, time 0.0323
привет: mk, time 0.2464
галя: ru, time 0.0085
I: id, time 0.0352
чел: ru, time 0.0092
am: so, time 0.0323
your: tr, time 0.0249
что: ru, time 0.0075
friend: da, time 0.0256
galya: so, time 0.1049
плиз: bg, time 0.1084

Есть ли ещё что-нибудь более точное и быстрое? Ибо время обработки предложения из 10 слов должно быть не более 0.1 сек, а тут иногда только одно слово обрабатывается столько.

Пришёл в голову вариант сделать простое сравнение букв, если слово на n% состоит из русских букв, то язык русский, для англа так же. Только вот в этом случае детектить немецкий и украинский язык не получится... только если по специфичным символам, но это ещё менее точно, чем вышеприведенные варианты

источник

22:35пожаловаться #17

OS

Oleg Serikov in Natural Language Processing

Vlad

Кто-нибудь может подсказать качественный и быстрый детектор языка, на котором написан текст? Задача очень простая, определять на данный момент нужно только английский и русский языки (в перспективе ещё украинский и немецкий). Определять нужно по одному слову

Я пробовал langid и langdetect, работают мягко говоря не очень... (именно по словам, если подавать текст, то всё хорошо)
Вот результаты мини-теста:

TEST LANGID
hello: en, time 0.0026
hi: en, time 0.0033
привет: bg, time 0.0050
галя: be, time 0.0046
I: en, time 0.0042
чел: ru, time 0.0044
am: en, time 0.0041
your: en, time 0.0040
что: ru, time 0.0044
friend: en, time 0.0042
galya: en, time 0.0041
плиз: bg, time 0.0046

TEST LANGDETECT
hello: fi, time 0.8736
hi: sw, time 0.0323
привет: mk, time 0.2464
галя: ru, time 0.0085
I: id, time 0.0352
чел: ru, time 0.0092
am: so, time 0.0323
your: tr, time 0.0249
что: ru, time 0.0075
friend: da, time 0.0256
galya: so, time 0.1049
плиз: bg, time 0.1084

Есть ли ещё что-нибудь более точное и быстрое? Ибо время обработки предложения из 10 слов должно быть не более 0.1 сек, а тут иногда только одно слово обрабатывается столько.

Пришёл в голову вариант сделать простое сравнение букв, если слово на n% состоит из русских букв, то язык русский, для англа так же. Только вот в этом случае детектить немецкий и украинский язык не получится... только если по специфичным символам, но это ещё менее точно, чем вышеприведенные варианты

кеш какой-нить?)

источник

22:37пожаловаться #18

OS

Oleg Serikov in Natural Language Processing

по слову одному самое то

источник

22:37пожаловаться #19

V

Vlad in Natural Language Processing

ну это только если заранее известен словарь модели и принадлежность слов к конкретному языку)

источник

22:38пожаловаться #20