Size: a a a

Natural Language Processing

2020 July 22

I

I Апрельский... in Natural Language Processing
Sebastian Pereira
Пока надо понять, как сделать одну)
Нанять фрилансера
источник

I

I Апрельский... in Natural Language Processing
Хотя одну надо самому написать
источник

AI

Andrew Ishutin in Natural Language Processing
Sebastian Pereira
Коллеги, а как бы вы в теории решили задачу при которой необходимо заполнять «промежутки» истории, у которой есть начало, середина и конец, а не генерировать её как у GPT с неизвестным результатом? Может есть такие решения уже, мне не известные?
Хм, самое простое, но коряво работающее, что приходит в голову - использовать BERT
источник

I

I Апрельский... in Natural Language Processing
источник

CT

Cookie Thief in Natural Language Processing
Sebastian Pereira
Коллеги, а как бы вы в теории решили задачу при которой необходимо заполнять «промежутки» истории, у которой есть начало, середина и конец, а не генерировать её как у GPT с неизвестным результатом? Может есть такие решения уже, мне не известные?
звучит как задача для неавторегрессионных трансформеров
источник

SP

Sebastian Pereira in Natural Language Processing
Я думаю, что по сути, это единственная реальная задача, которая стоит перед «генераторами текста» - «выстраивание маршрута». С точки зрения языка, то, что они сейчас генерируют это, по сути, даже и не текст.
источник

DK

Dmitri Kapustin in Natural Language Processing
Привет коллеги! Появилась идея токенизировать текст по слогам, кто то такое уже делал? Какие нюансы могут быть? Хочу решить задачку распознавания по разному сокращенных слов.Чтобы восстановить полные формы слов.
источник

A

Anton in Natural Language Processing
Dmitri Kapustin
Привет коллеги! Появилась идея токенизировать текст по слогам, кто то такое уже делал? Какие нюансы могут быть? Хочу решить задачку распознавания по разному сокращенных слов.Чтобы восстановить полные формы слов.
Посмотри в pymorphy2 в доках. Там они объясняют как им удаётся делать небольшого объема словарь
источник

DK

Dmitri Kapustin in Natural Language Processing
Anton
Посмотри в pymorphy2 в доках. Там они объясняют как им удаётся делать небольшого объема словарь
🙏 Спасибо
источник
2020 July 23

I

I Апрельский... in Natural Language Processing
ребят, а кто-нибудь сталкивался с материалами на русском про DRT и SDRT?
https://en.wikipedia.org/wiki/Discourse_representation_theory

что-то ничего прям не попадается
источник

YB

Yuri Baburov in Natural Language Processing
какие-то части есть в других теориях и моделях, но напрямую работ по "(когнитивному) моделированию сцены", как я это называю, я нигде не видел. да и английское DRT я до этого не видел — тоже редкий зверь, видимо.
в bAbI есть ответ на вопрос о состоянии сцены после описания, вопросы есть и в squad (и можно сформулировать их в виде вопросов "где такой-то сейчас, что такой-то делает сейчас, итп — т.е. породить описание сцены через вопросы). Но полного составления когнитивной модели не происходит в других задачах/датасетах.
источник

I

I Апрельский... in Natural Language Processing
не уверен, что понял про сцену(

я согласен, что не самый популярный фреймворк, но на английском хоть упоминают. правда вероятно в основном французы)) но все же. а вот на русском для дискурса только обсуждения RST вижу.
источник

КМ

Кибер Медик... in Natural Language Processing
Всем привет, никто не знает как named entity recognition в SpaCy делать для русского языка? Просто самой модели языка в библиотеке нет, только stanza. Но если брать модель русского языка из нее, то она почему-то не хочет обучаться и выдает ошибку 😞

Обучил без языковой модели, вроде нормально, но не учитывает, например, если напишу слово "нижняя", т.к. в обучающем датасете было только "нижнюю"

Или для русского языка лучше использовать DeepPavlov, если мне нужны кастомные сущности?
источник

RB

Radion Bikmukhamedov in Natural Language Processing
Я сам не успел ещё , но думаю можно обучать модель в станзе, а потом импортировать в Спейси через обёртку. Так пробовал делать?
источник

YB

Yuri Baburov in Natural Language Processing
Кибер Медик
Всем привет, никто не знает как named entity recognition в SpaCy делать для русского языка? Просто самой модели языка в библиотеке нет, только stanza. Но если брать модель русского языка из нее, то она почему-то не хочет обучаться и выдает ошибку 😞

Обучил без языковой модели, вроде нормально, но не учитывает, например, если напишу слово "нижняя", т.к. в обучающем датасете было только "нижнюю"

Или для русского языка лучше использовать DeepPavlov, если мне нужны кастомные сущности?
источник

YB

Yuri Baburov in Natural Language Processing
Кибер Медик
Всем привет, никто не знает как named entity recognition в SpaCy делать для русского языка? Просто самой модели языка в библиотеке нет, только stanza. Но если брать модель русского языка из нее, то она почему-то не хочет обучаться и выдает ошибку 😞

Обучил без языковой модели, вроде нормально, но не учитывает, например, если напишу слово "нижняя", т.к. в обучающем датасете было только "нижнюю"

Или для русского языка лучше использовать DeepPavlov, если мне нужны кастомные сущности?
чтобы модель понимала разные формы слов, тебе нужны вектора (или одинаковая лемматизация). в том примере есть как раз fasttext вектора.
встроенные вектора будут в релизе 2.3, можно взять модель https://github.com/buriy/spacy-ru/releases/tag/v2.3_pre1 , там уже есть вектора.
используй spacy.load('ru2_syntagrus') , т.к. они что-то там поменяли в лемматизаторе в v2.3 и надо апдейтить кастомный лемматизатор.
источник

КМ

Кибер Медик... in Natural Language Processing
Radion Bikmukhamedov
Я сам не успел ещё , но думаю можно обучать модель в станзе, а потом импортировать в Спейси через обёртку. Так пробовал делать?
Нет, в стензе только сами модели языков.
источник

КМ

Кибер Медик... in Natural Language Processing
Yuri Baburov
чтобы модель понимала разные формы слов, тебе нужны вектора (или одинаковая лемматизация). в том примере есть как раз fasttext вектора.
встроенные вектора будут в релизе 2.3, можно взять модель https://github.com/buriy/spacy-ru/releases/tag/v2.3_pre1 , там уже есть вектора.
используй spacy.load('ru2_syntagrus') , т.к. они что-то там поменяли в лемматизаторе в v2.3 и надо апдейтить кастомный лемматизатор.
Спасибо, я натыкался на эту репу, спугнула сложность установки, надо было быстро, плаг энд плей, так сказать. Попробую.
источник

YB

Yuri Baburov in Natural Language Processing
I Апрельский
не уверен, что понял про сцену(

я согласен, что не самый популярный фреймворк, но на английском хоть упоминают. правда вероятно в основном французы)) но все же. а вот на русском для дискурса только обсуждения RST вижу.
идея такая: создатель художественного произведения описывает действия, которое происходит на (виртуальной) сцене (в голове человека). нужно: знать то, что сейчас происходит на сцене, какие субъекты и объекты там есть, как выглядят и что они делают.
теперь буду знать, как в литературе по ИИ такой подход называют.
источник

I

I Апрельский... in Natural Language Processing
Yuri Baburov
идея такая: создатель художественного произведения описывает действия, которое происходит на (виртуальной) сцене (в голове человека). нужно: знать то, что сейчас происходит на сцене, какие субъекты и объекты там есть, как выглядят и что они делают.
теперь буду знать, как в литературе по ИИ такой подход называют.
Это какая-то личная метафора? Или она широко используется?
источник