Телеграмм чат группы natural_language_processing страница 458

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 October 24

SZ

Sergey Zakharov in Natural Language Processing

Каждое слово проверять на наличие в словарях языков. Каких языков больше среди слов, тот язык и назначать. Питоновский словарь работает за О(1), так что будет быстро, надо только списки слов составить/найти для каждого языка и сложить в словари.

источник

22:42пожаловаться #1

SZ

Sergey Zakharov in Natural Language Processing

Это если по тексту надо определить язык. По одному слову - только в словаре найти. Вроде просто всё.

источник

22:44пожаловаться #2

V

Vlad in Natural Language Processing

Ну да, если не только англ/рус, то получается самый точный вариант будет поиск по словарю

источник

22:45пожаловаться #3

V

Vlad in Natural Language Processing

Может подскажете, где их можно найти?)

источник

22:45пожаловаться #4

SZ

Sergey Zakharov in Natural Language Processing

Даже не словари нужны тут, а множества

источник

22:45пожаловаться #5

SZ

Sergey Zakharov in Natural Language Processing

Может подскажете, где их можно найти?)

Я не знаю. Сам бы в гугл полез, а если бы не нашёл - из дампа Википедии можно сделать, например. Или ещё из какого корпуса.

источник

22:47пожаловаться #6

V

Vlad in Natural Language Processing

понял, спасибо за информацию)

источник

22:47пожаловаться #7

OS

Oleg Serikov in Natural Language Processing

кстати а какие-нить символьные нграммы не отлично характеризуют язык если слова нет в словаре?

источник

22:48пожаловаться #8

SZ

Sergey Zakharov in Natural Language Processing

Правда будут одинаковые слова, их можно выбирать из распределения в языках (распределения построить по частотности). Тоже вроде не должно быть сложно.

источник

22:49пожаловаться #9

DK

Denis Kirjanov in Natural Language Processing

либа была же, langdetect

источник

22:53пожаловаться #10

V

Vlad in Natural Language Processing

либа была же, langdetect

посмотрите моё сообщение выше, на отдельных словах она не очень работает

источник

22:54пожаловаться #11

2019 October 25

V

Vlad in Natural Language Processing

Разбираюсь тут с лемматизацией в spaCy (он пока что используется только для этого) и возник вопрос. В чём разница между этими двумя вариантами ниже? По первому впечатлению, скорость и качество работы у них не отличается, однако первый требует загрузки готовой модели, а второй нет. Использую spacy[lookops] последней актуальной версии 2.2.

Вариант 1:
import spacy
morph_analyser_en = spacy.load('en_core_web_sm', disable=['tagger', 'parser', 'ner'])

Вариант 2:
from spacy.lang.en import English
morph_analyser_en = English()

Собственно, лемматизация:
for i in range(len(words)):
result_analysing = morph_analyser_en(words[i])
lemma = result_analysing[-1].lemma_

источник

03:56пожаловаться #12

IN

Ilya Nikitin in Natural Language Processing

Разбираюсь тут с лемматизацией в spaCy (он пока что используется только для этого) и возник вопрос. В чём разница между этими двумя вариантами ниже? По первому впечатлению, скорость и качество работы у них не отличается, однако первый требует загрузки готовой модели, а второй нет. Использую spacy[lookops] последней актуальной версии 2.2.

Вариант 1:
import spacy
morph_analyser_en = spacy.load('en_core_web_sm', disable=['tagger', 'parser', 'ner'])

Вариант 2:
from spacy.lang.en import English
morph_analyser_en = English()

Собственно, лемматизация:
for i in range(len(words)):
result_analysing = morph_analyser_en(words[i])
lemma = result_analysing[-1].lemma_

И все же tagger, parser и NER отключаются для улучшения скорости. Когда нужна только лемматизация, нет необходимости строить при этом предсказания по частям речи, зависимостям и сущностям (их spaCy всегда сразу делает по дефолту, если не указано иное)

источник

05:24пожаловаться #13

V

Vlad in Natural Language Processing

И все же tagger, parser и NER отключаются для улучшения скорости. Когда нужна только лемматизация, нет необходимости строить при этом предсказания по частям речи, зависимостям и сущностям (их spaCy всегда сразу делает по дефолту, если не указано иное)

Спасибо)
Судя по документации, ещё можно textcat отключить в варианте с загрузкой модели. Но тогда вопрос, а на каком этапе выполняется лемматизация тогда? При токенизации? Или это отдельная сущность?

источник

08:07пожаловаться #14

V

Vlad in Natural Language Processing

Там есть отдельный класс Lemmatizer, но при этом нигде не упоминается, кто его дёргает. Или я не нашёл)

источник

08:09пожаловаться #15

SZ

Sergey Zakharov in Natural Language Processing

Разбираюсь тут с лемматизацией в spaCy (он пока что используется только для этого) и возник вопрос. В чём разница между этими двумя вариантами ниже? По первому впечатлению, скорость и качество работы у них не отличается, однако первый требует загрузки готовой модели, а второй нет. Использую spacy[lookops] последней актуальной версии 2.2.

Вариант 1:
import spacy
morph_analyser_en = spacy.load('en_core_web_sm', disable=['tagger', 'parser', 'ner'])

Вариант 2:
from spacy.lang.en import English
morph_analyser_en = English()

Собственно, лемматизация:
for i in range(len(words)):
result_analysing = morph_analyser_en(words[i])
lemma = result_analysing[-1].lemma_

Возможно, это и есть одно и то же. Но это не точно

источник

08:32пожаловаться #16

SZ

Sergey Zakharov in Natural Language Processing

Там есть отдельный класс Lemmatizer, но при этом нигде не упоминается, кто его дёргает. Или я не нашёл)

Вот тут вроде есть ответ (сам не пробовал)
https://stackoverflow.com/a/48948642

how to use spacy lemmatizer to get a word into basic form

I am new to spacy and I want to use its lemmatizer function, but I don't know how to use it, like I into strings of word, which will return the string with the basic form the words.

Examples:
'wo...

источник

08:37пожаловаться #17

V

Vlad in Natural Language Processing

Ему ж надо дополнительно передавать pos тег каждого слова

источник

08:38пожаловаться #18

АП

Алексей Пахомов in Natural Language Processing

Викисловарь по русскому сдампленый где то валялся

источник

16:28пожаловаться #19

V

Vlad in Natural Language Processing

Я думаю pymorphy2 будет получше для русского, чем текущие модели spaCy. Кстати, судя по всему, недавно в spaCy как раз и прикрутили использование pymorphy2 для работы с русским языком, он есть в списке зависимостей для русского и украинского языков https://spacy.io/usage/models#languages

Models & Languages

Models & Languages · spaCy Usage Documentation

spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.

источник

16:29пожаловаться #20