Телеграмм чат группы natural_language

Sebastian Pereira

Пока надо понять, как сделать одну)

Нанять фрилансера

20:47пожаловаться #1

I

Хотя одну надо самому написать

Andrew Ishutin in Natural Language Processing

20:50пожаловаться #2

AI

Sebastian Pereira

Коллеги, а как бы вы в теории решили задачу при которой необходимо заполнять «промежутки» истории, у которой есть начало, середина и конец, а не генерировать её как у GPT с неизвестным результатом? Может есть такие решения уже, мне не известные?

Хм, самое простое, но коряво работающее, что приходит в голову - использовать BERT

20:53пожаловаться #3

I

http://www.visionandlanguage.net/workshop2019/

Cookie Thief in Natural Language Processing

20:53пожаловаться #4

CT

Sebastian Pereira

Коллеги, а как бы вы в теории решили задачу при которой необходимо заполнять «промежутки» истории, у которой есть начало, середина и конец, а не генерировать её как у GPT с неизвестным результатом? Может есть такие решения уже, мне не известные?

звучит как задача для неавторегрессионных трансформеров

Sebastian Pereira in Natural Language Processing

21:59пожаловаться #5

SP

Я думаю, что по сути, это единственная реальная задача, которая стоит перед «генераторами текста» - «выстраивание маршрута». С точки зрения языка, то, что они сейчас генерируют это, по сути, даже и не текст.

22:06пожаловаться #6

DK

Dmitri Kapustin in Natural Language Processing

Привет коллеги! Появилась идея токенизировать текст по слогам, кто то такое уже делал? Какие нюансы могут быть? Хочу решить задачку распознавания по разному сокращенных слов.Чтобы восстановить полные формы слов.

22:11пожаловаться #7

A

Anton in Natural Language Processing

Dmitri Kapustin

Привет коллеги! Появилась идея токенизировать текст по слогам, кто то такое уже делал? Какие нюансы могут быть? Хочу решить задачку распознавания по разному сокращенных слов.Чтобы восстановить полные формы слов.

Посмотри в pymorphy2 в доках. Там они объясняют как им удаётся делать небольшого объема словарь

22:16пожаловаться #8

DK

Dmitri Kapustin in Natural Language Processing

Anton

Посмотри в pymorphy2 в доках. Там они объясняют как им удаётся делать небольшого объема словарь

🙏 Спасибо

22:17пожаловаться #9

2020 July 23

I

In formal linguistics, discourse representation theory (DRT) is a framework for exploring meaning under a formal semantics approach. One of the main differences between DRT-style approaches and traditional Montagovian approaches is that DRT includes a level of abstract mental representations (discourse representation structures, DRS) within its formalism, which gives it an intrinsic ability to handle meaning across sentence boundaries. DRT was created by Hans Kamp in 1981. A very similar theory was developed independently by Irene Heim in 1982, under the name of File Change Semantics (FCS). Discourse representation theories have been used to implement semantic parsers and natural language understanding systems.

ребят, а кто-нибудь сталкивался с материалами на русском про DRT и SDRT?
https://en.wikipedia.org/wiki/Discourse_representation_theory

что-то ничего прям не попадается

Wikipedia

Discourse representation theory

20:24пожаловаться #10

YB

In formal linguistics, discourse representation theory (DRT) is a framework for exploring meaning under a formal semantics approach. One of the main differences between DRT-style approaches and traditional Montagovian approaches is that DRT includes a level of abstract mental representations (discourse representation structures, DRS) within its formalism, which gives it an intrinsic ability to handle meaning across sentence boundaries. DRT was created by Hans Kamp in 1981. A very similar theory was developed independently by Irene Heim in 1982, under the name of File Change Semantics (FCS). Discourse representation theories have been used to implement semantic parsers and natural language understanding systems.

I Апрельский

ребят, а кто-нибудь сталкивался с материалами на русском про DRT и SDRT?
https://en.wikipedia.org/wiki/Discourse_representation_theory

что-то ничего прям не попадается

Wikipedia

Discourse representation theory

какие-то части есть в других теориях и моделях, но напрямую работ по "(когнитивному) моделированию сцены", как я это называю, я нигде не видел. да и английское DRT я до этого не видел — тоже редкий зверь, видимо.
в bAbI есть ответ на вопрос о состоянии сцены после описания, вопросы есть и в squad (и можно сформулировать их в виде вопросов "где такой-то сейчас, что такой-то делает сейчас, итп — т.е. породить описание сцены через вопросы). Но полного составления когнитивной модели не происходит в других задачах/датасетах.

20:30пожаловаться #11

I

не уверен, что понял про сцену(

я согласен, что не самый популярный фреймворк, но на английском хоть упоминают. правда вероятно в основном французы)) но все же. а вот на русском для дискурса только обсуждения RST вижу.

Кибер Медик... in Natural Language Processing

20:36пожаловаться #12

КМ

Всем привет, никто не знает как named entity recognition в SpaCy делать для русского языка? Просто самой модели языка в библиотеке нет, только stanza. Но если брать модель русского языка из нее, то она почему-то не хочет обучаться и выдает ошибку 😞

Обучил без языковой модели, вроде нормально, но не учитывает, например, если напишу слово "нижняя", т.к. в обучающем датасете было только "нижнюю"

Или для русского языка лучше использовать DeepPavlov, если мне нужны кастомные сущности?

Radion Bikmukhamedov in Natural Language Processing

22:29пожаловаться #13

RB

Я сам не успел ещё , но думаю можно обучать модель в станзе, а потом импортировать в Спейси через обёртку. Так пробовал делать?

23:31пожаловаться #14

YB

Contribute to buriy/active_ner development by creating an account on GitHub.

Кибер Медик

Всем привет, никто не знает как named entity recognition в SpaCy делать для русского языка? Просто самой модели языка в библиотеке нет, только stanza. Но если брать модель русского языка из нее, то она почему-то не хочет обучаться и выдает ошибку 😞

Обучил без языковой модели, вроде нормально, но не учитывает, например, если напишу слово "нижняя", т.к. в обучающем датасете было только "нижнюю"

Или для русского языка лучше использовать DeepPavlov, если мне нужны кастомные сущности?

вот тут есть пример: https://github.com/buriy/active_ner/blob/master/anno/trainer.py

GitHub

buriy/active_ner

23:33пожаловаться #15

YB

Release POS & DEP model for spaCy 2.3 based on SynTagRus and navec · buriy/spacy-ru

Кибер Медик

Всем привет, никто не знает как named entity recognition в SpaCy делать для русского языка? Просто самой модели языка в библиотеке нет, только stanza. Но если брать модель русского языка из нее, то она почему-то не хочет обучаться и выдает ошибку 😞

Обучил без языковой модели, вроде нормально, но не учитывает, например, если напишу слово "нижняя", т.к. в обучающем датасете было только "нижнюю"

Или для русского языка лучше использовать DeepPavlov, если мне нужны кастомные сущности?

чтобы модель понимала разные формы слов, тебе нужны вектора (или одинаковая лемматизация). в том примере есть как раз fasttext вектора.
встроенные вектора будут в релизе 2.3, можно взять модель https://github.com/buriy/spacy-ru/releases/tag/v2.3_pre1 , там уже есть вектора.
используй spacy.load('ru2_syntagrus') , т.к. они что-то там поменяли в лемматизаторе в v2.3 и надо апдейтить кастомный лемматизатор.

GitHub

POS & DEP model for spaCy 2.3: POS tagger and DEP (syntax analysis) models, trained on SynTagRus, using Navec vectors & pymorphy2 morphology.
Quality on SynTagRus-test:
POS | 95.31%
DEP UAS...

Кибер Медик... in Natural Language Processing

23:35пожаловаться #16

КМ

Radion Bikmukhamedov

Я сам не успел ещё , но думаю можно обучать модель в станзе, а потом импортировать в Спейси через обёртку. Так пробовал делать?

Нет, в стензе только сами модели языков.

Кибер Медик... in Natural Language Processing

23:37пожаловаться #17

КМ

Yuri Baburov

чтобы модель понимала разные формы слов, тебе нужны вектора (или одинаковая лемматизация). в том примере есть как раз fasttext вектора.
встроенные вектора будут в релизе 2.3, можно взять модель https://github.com/buriy/spacy-ru/releases/tag/v2.3_pre1 , там уже есть вектора.
используй spacy.load('ru2_syntagrus') , т.к. они что-то там поменяли в лемматизаторе в v2.3 и надо апдейтить кастомный лемматизатор.

GitHub

Release POS & DEP model for spaCy 2.3 based on SynTagRus and navec · buriy/spacy-ru

POS & DEP model for spaCy 2.3: POS tagger and DEP (syntax analysis) models, trained on SynTagRus, using Navec vectors & pymorphy2 morphology.
Quality on SynTagRus-test:
POS | 95.31%
DEP UAS...

Спасибо, я натыкался на эту репу, спугнула сложность установки, надо было быстро, плаг энд плей, так сказать. Попробую.

23:43пожаловаться #18

YB

I Апрельский

не уверен, что понял про сцену(

я согласен, что не самый популярный фреймворк, но на английском хоть упоминают. правда вероятно в основном французы)) но все же. а вот на русском для дискурса только обсуждения RST вижу.

идея такая: создатель художественного произведения описывает действия, которое происходит на (виртуальной) сцене (в голове человека). нужно: знать то, что сейчас происходит на сцене, какие субъекты и объекты там есть, как выглядят и что они делают.
теперь буду знать, как в литературе по ИИ такой подход называют.

23:45пожаловаться #19

I

Yuri Baburov

идея такая: создатель художественного произведения описывает действия, которое происходит на (виртуальной) сцене (в голове человека). нужно: знать то, что сейчас происходит на сцене, какие субъекты и объекты там есть, как выглядят и что они делают.
теперь буду знать, как в литературе по ИИ такой подход называют.

Это какая-то личная метафора? Или она широко используется?