Size: a a a

Natural Language Processing

2021 March 24

AK

Alexander Kukushkin in Natural Language Processing
Muhammed Alimbetov
Ребята, где найти размеченные датасеты для русского языка, содержащие сарказм и иронию? Может кто-нибудь сталкивался с такими? Везде обыскал, для русского языка ничего не нашёл
Видел не про сарказм, а про юмор от ребят из УРФУ https://github.com/computational-humor/humor-recognition https://www.aclweb.org/anthology/P19-1394.pdf

{
 "Скупой платит дважды. Пойду работать к скупому.": 1,
 "Алло. Нет, милая, конечно, не сплю, сегодня же ночь со воскресенье на понедельник. У тебя такой милый голос, когда ты в гомно. Конечно приеду.": 1,
 "У любой женщины должна быть подруга- уебище, которая дает «полезные» советы, потому что «разбирается» в мужской психологии.": 1,
 "Сходи со мной в ларек.": 1,
 "Ничто так не будит по утрам, как чувство, что сейчас обоссышься.": 1,
 "ты, эгоистичный ублюдок!!! спасибо, ты тоже ничего..": 1,
 "Начал думать — впал в депрессию.": 1,
...
 "не молодостью живем не старостью умираем": 0,
 "Telegram предложил способ поддержать свободный интернет": 0,
 "За ним вошел инспектор полиции в мундире и следом все еще не переставший дрожать Таддеуш Шолто.": 0,
 "Ничего, обо мне не беспокойся. Побеспокойся лучше о своей подружке. Она там давненько.": 0,
 "не зарься на чужое свое береги": 0,
}


LOL NLP https://cs.hse.ru/data/2020/04/07/1554782664/18_12_pavel_braslavski_hymor.pdf https://www.youtube.com/watch?v=dsZ0cwPgn1g
источник

AK

Alexander Kukushkin in Natural Language Processing
Natalia
что-то возник вопрос: а в slovnet есть возможность получать вывод прямо в conllu полного формата?
смущает, например, то, что в тэге склеено UPOS вместе с FEATS, ну и вообще чтобы понимать, как до этого проще всего восстановить
Кроте поля tag там есть поля pos и словарь feats, нужно обращаться к ним https://github.com/natasha/slovnet/blob/3df9cbdc672f4c64bbc3359165198b44aa8cf3d2/slovnet/markup.py#L105-L110

Встроенного вывода в CONLL нет, нужно написать код, пример https://github.com/natasha/nerus/blob/master/scripts/main.py#L623-L672
источник

MA

Muhammed Alimbetov in Natural Language Processing
Alexander Kukushkin
Видел не про сарказм, а про юмор от ребят из УРФУ https://github.com/computational-humor/humor-recognition https://www.aclweb.org/anthology/P19-1394.pdf

{
 "Скупой платит дважды. Пойду работать к скупому.": 1,
 "Алло. Нет, милая, конечно, не сплю, сегодня же ночь со воскресенье на понедельник. У тебя такой милый голос, когда ты в гомно. Конечно приеду.": 1,
 "У любой женщины должна быть подруга- уебище, которая дает «полезные» советы, потому что «разбирается» в мужской психологии.": 1,
 "Сходи со мной в ларек.": 1,
 "Ничто так не будит по утрам, как чувство, что сейчас обоссышься.": 1,
 "ты, эгоистичный ублюдок!!! спасибо, ты тоже ничего..": 1,
 "Начал думать — впал в депрессию.": 1,
...
 "не молодостью живем не старостью умираем": 0,
 "Telegram предложил способ поддержать свободный интернет": 0,
 "За ним вошел инспектор полиции в мундире и следом все еще не переставший дрожать Таддеуш Шолто.": 0,
 "Ничего, обо мне не беспокойся. Побеспокойся лучше о своей подружке. Она там давненько.": 0,
 "не зарься на чужое свое береги": 0,
}


LOL NLP https://cs.hse.ru/data/2020/04/07/1554782664/18_12_pavel_braslavski_hymor.pdf https://www.youtube.com/watch?v=dsZ0cwPgn1g
Спасибо!
источник

AK

Alexander Kukushkin in Natural Language Processing
Никита Сапунов
Всем привет. Никак не могу решить простую задачу с yargi. Хочу создать такой факт чтобы там было и исходное и нормализованное слово. Понятно, что это можно сделать как-то отдельно. Но как сделать нормально?
Вы можете поковырять атрибут _raw, но это непубличный АПИ ))

from yargy import Parser
from yargy.predicates import normalized
from yargy.interpretation import fact

F = fact('F', 'a')
R = normalized('красного').interpretation(F.a.normalized()).interpretation(F)
parser = Parser(R)
match = parser.match('красный')

display(match.fact)
display(match.fact._raw)

F(
   a='красный'
)
InterpretatorFact(
   attributes={'a': NormalizerResult(
        value='красный',
        input=Chain(
            tokens=[MorphToken(
                 value='красный',
                 span=[0, 7),
                 type='RU',
                 forms=[Form('красный', Grams(ADJF,Qual,masc,nomn,sing)),
                  Form('красный', Grams(ADJF,Qual,accs,inan,masc,sing)),
                  Form('красный', Grams(NOUN,anim,masc,nomn,sing))]
             )],
            key=None
        )
    )},
   repeatable=set(),
   modified={'a'}
)
источник

AK

Alexander Kukushkin in Natural Language Processing
Vladimir Borisov
Привет! Пытаюсь запустить ноутбук для дистиляции newsrubert, там используется S3 для выкачки данных. Он требует креденшелы из файла slovnet.json. Где его можно найти?
Ключи на download, положить в ~/.slovnet.json
{
   "s3_key_id": "5bl7HUFkHjaRjOrRapGE",
   "s3_key": "tNIClFobfoqzScvROzCDpDkOB7k1HbVZiXgcbKTc",
   "s3_bucket": "natasha-slovnet"
}
источник

V

Vic in Natural Language Processing
Ребят, а кто юзает huggingface и трансформеры? Ищем способ как изменить архитектуру в их либе transformers. Нам надо например добавить свой слой между Add Norm и Linear. Искали в доках, не нашли.
Кто знает?
источник

DD

David Dale in Natural Language Processing
Vic
Ребят, а кто юзает huggingface и трансформеры? Ищем способ как изменить архитектуру в их либе transformers. Нам надо например добавить свой слой между Add Norm и Linear. Искали в доках, не нашли.
Кто знает?
Мне кажется, можно просто написать свой PyTorch модуль, скопипастив код их модели и внеся нужные правки.
Я не прав?
источник

A

Anton in Natural Language Processing
David Dale
Мне кажется, можно просто написать свой PyTorch модуль, скопипастив код их модели и внеся нужные правки.
Я не прав?
😉Да
источник

V

Vic in Natural Language Processing
Ну вот не можем найти место куда правки вписывать там же должна быть архитектура, всякие слои и пр
источник

A

Anton in Natural Language Processing
state_dict?
источник

DD

David Dale in Natural Language Processing
Vic
Ну вот не можем найти место куда правки вписывать там же должна быть архитектура, всякие слои и пр
Ну вот например исходный код BERT, там всё по слоям разложено. Со всеми остальными моделями - аналогично.
источник

V

Vic in Natural Language Processing
David Dale
Ну вот например исходный код BERT, там всё по слоям разложено. Со всеми остальными моделями - аналогично.
Так, это да. А есть ли в доках примеры изменений таких
источник

AK

Anton Kiselëv in Natural Language Processing
Vic
Так, это да. А есть ли в доках примеры изменений таких
https://github.com/strawberrypie/bert_adapter/blob/master/src/adapters/bert.py
Можешь попробовать вот так сделать
источник

V

Vic in Natural Language Processing
Спасибо глянем
источник

N

Natalia in Natural Language Processing
Alexander Kukushkin
Кроте поля tag там есть поля pos и словарь feats, нужно обращаться к ним https://github.com/natasha/slovnet/blob/3df9cbdc672f4c64bbc3359165198b44aa8cf3d2/slovnet/markup.py#L105-L110

Встроенного вывода в CONLL нет, нужно написать код, пример https://github.com/natasha/nerus/blob/master/scripts/main.py#L623-L672
спасибо!
источник

n

nat in Natural Language Processing
Всем привет! Прошу совета в связи с немецким.

Мы ищем библиотеку/апи склонения на java/js для немецкого языка (типа нашего русского “Морфер”).

Нашли Simple NLG DE, но она не чисто для склонения, а для построения предложений. Склонение в ней представлено как модуль, поэтому нет уверенности, что будет хорошо работать вне контекста целых предложений.

Еще есть Morphy, но это exe-шник, а не библиотека/апи.

Возможно кто-то сталкивался с этой задачей и мог бы поделиться решением. Спасибо!
источник

MK

Max Kuznetsov in Natural Language Processing
nat
Всем привет! Прошу совета в связи с немецким.

Мы ищем библиотеку/апи склонения на java/js для немецкого языка (типа нашего русского “Морфер”).

Нашли Simple NLG DE, но она не чисто для склонения, а для построения предложений. Склонение в ней представлено как модуль, поэтому нет уверенности, что будет хорошо работать вне контекста целых предложений.

Еще есть Morphy, но это exe-шник, а не библиотека/апи.

Возможно кто-то сталкивался с этой задачей и мог бы поделиться решением. Спасибо!
@irinakrotova Ира? 🇩🇪
источник

N

Natalia in Natural Language Processing
ну для начала можно посмотреть, что под unimorph писали для разных тасков sigmorphon
источник

n

nat in Natural Language Processing
Natalia
ну для начала можно посмотреть, что под unimorph писали для разных тасков sigmorphon
посмотрим, спасибо
источник

N

Natalia in Natural Language Processing
вот такого типа таски: https://sigmorphon.github.io/sharedtasks/2019/task1/
источник