Size: a a a

Natural Language Processing

2021 March 05

SL

Shelest Listjev in Natural Language Processing
Anton
Спросите здесь лучше. В чём именно вопрос?
Есть данные для NER формата (text, {"entities": [(index, index, label)]})
Пытаюсь проверить, как будет выглядеть пример training dat'ы:

doc = nlp("Laura flew to Silicon Valley.")
gold_dict = {"entities": [(0, 5, "PERSON"), (14, 28, "LOC")]}
example = Example.from_dict(doc, gold_dict)

Получаю example (док) почему-то с пустыми pos, dep, lemma и тд. Есть только токены и ner лэйблы.
Почему эти слоты пустые?

ps. язык текста - русский
источник

IK

Igor Kucherevsky in Natural Language Processing
Shelest Listjev
Есть данные для NER формата (text, {"entities": [(index, index, label)]})
Пытаюсь проверить, как будет выглядеть пример training dat'ы:

doc = nlp("Laura flew to Silicon Valley.")
gold_dict = {"entities": [(0, 5, "PERSON"), (14, 28, "LOC")]}
example = Example.from_dict(doc, gold_dict)

Получаю example (док) почему-то с пустыми pos, dep, lemma и тд. Есть только токены и ner лэйблы.
Почему эти слоты пустые?

ps. язык текста - русский
Потому что вы смотрите тренировочные данные для NER
источник

SL

Shelest Listjev in Natural Language Processing
Igor Kucherevsky
Потому что вы смотрите тренировочные данные для NER
Вы правы, тренировочные данные действительно для НЕР, но ведь нлп объект так же включает в себя токенизацию, лемматизацию, пос, депенданси и прочее, необходимое для тренировки NER.
Как, в таком случае, получить полный набор?

doc = nlp(text)

tags = offsets_to_biluo_tags(doc, entities_cleared)

entities_x = biluo_tags_to_spans(doc, tags)
doc.ents = entities_x
gold_docs.append(doc)
DocBin(docs=gold_docs).to_disk("train_file.spacy")

Здесь докбин сохраняет вместе с остальным?
источник

IK

Igor Kucherevsky in Natural Language Processing
Shelest Listjev
Вы правы, тренировочные данные действительно для НЕР, но ведь нлп объект так же включает в себя токенизацию, лемматизацию, пос, депенданси и прочее, необходимое для тренировки NER.
Как, в таком случае, получить полный набор?

doc = nlp(text)

tags = offsets_to_biluo_tags(doc, entities_cleared)

entities_x = biluo_tags_to_spans(doc, tags)
doc.ents = entities_x
gold_docs.append(doc)
DocBin(docs=gold_docs).to_disk("train_file.spacy")

Здесь докбин сохраняет вместе с остальным?
nlp, являющийся объектом Language необязательно содержит все эти свойства, Вы можете создать модель с нуля, например и оставить там только токенизацию и НЕР, для НЕР эти зависимости не обязательны. Если вы доучиваете готовую модель с частями речи и зависимостями , параметры этих объектов не изменяются, но скорее всего используются при обучении, а обучается только модуль ner модели spacy. Надеюсь меня поправят более знающие товарищи, если я ошибся. Пишу как понимаю
источник

SL

Shelest Listjev in Natural Language Processing
В моем случае, я использую:

nlp = spacy.load('ru_core_news_lg')

А там точно есть зависимости, постаги и т.д.
источник

IK

Igor Kucherevsky in Natural Language Processing
Эти зависимости формируются для документа после прохождения конвейера, вы же показываете формат данных использующийся для тренировки
источник
2021 March 06

VB

Valery Belyanin in Natural Language Processing
ищу готовую программу анализа частотности текста на русском языке (с лемматизатором и сохранением предложений - если есть). Не подскажите ли?
источник

OS

Oleg Serikov in Natural Language Processing
Valery Belyanin
ищу готовую программу анализа частотности текста на русском языке (с лемматизатором и сохранением предложений - если есть). Не подскажите ли?
Antconc?
источник

N

Natalia in Natural Language Processing
источник

A

Aakash in Natural Language Processing
Hey,any one know here how recommender system algo is created?
источник

NG

Never Give up in Natural Language Processing
Hello I was trying to used SVM classifier to classified  tweets  sentiment analysis  into postive ,negative and neutral  where the classes are unbalanced and the highest number is neutral .the problem that I faced it not predicted the negative it gives me precision ,recall and accuracy of zero for the negative
источник

AW

Alex Wortega in Natural Language Processing
источник

FF

Futorio Franklin in Natural Language Processing
Можно даже понять, почему без примеров
источник

AW

Alex Wortega in Natural Language Processing
Futorio Franklin
Можно даже понять, почему без примеров
Теперь у меня есть нейродвачеры...
источник

FF

Futorio Franklin in Natural Language Processing
Я вот ради смеха дообучал ту же модель на токсик датасете мейла
источник

AW

Alex Wortega in Natural Language Processing
Futorio Franklin
Я вот ради смеха дообучал ту же модель на токсик датасете мейла
Я на бугуртах поставил обучать
источник

FF

Futorio Franklin in Natural Language Processing
на токсике бред получается один, видимо, слишком разрозненный и примитивный текст
источник

T

Teemoor in Natural Language Processing
источник

AW

Alex Wortega in Natural Language Processing
#нейрошит
-кто ты, а?

-В мире есть люди с ограниченными физическими возможностями. Они живут и работают в домах-интернатах или обычных квартирах.Они могут гулять на улице без шапки по выходным дням – им достаточно выйти из дома».
источник

FF

Futorio Franklin in Natural Language Processing
Futorio Franklin
на токсике бред получается один, видимо, слишком разрозненный и примитивный текст
Сколько не крутил топ k топ n количество бимов и температуры
источник