Телеграмм чат группы natural_language

Добрый день!
Скажите, пожалуйста, нам для проекта нужно запустить LaserTagger. Для этого мы предобучили BERT в PyTorch, но LaserTagger, кажется, с ним совсем не дружит. Никто не сталкивался с подобным?

источник

21:46пожаловаться #6

IN

Ilya Nikitin in Natural Language Processing

Tatiana Iazykova

Добрый день!
Скажите, пожалуйста, нам для проекта нужно запустить LaserTagger. Для этого мы предобучили BERT в PyTorch, но LaserTagger, кажется, с ним совсем не дружит. Никто не сталкивался с подобным?

Предобученная модель в формате pytorch_model.bin, а LaserTaggger ест чекпойнты TensorFlow...

источник

21:48пожаловаться #7

ИИ

Илья Ильинский... in Natural Language Processing

Кибер Медик

Всем здравствуйте, нужен совет.

Cейчас ищу библиотечки/статьи по методам исправления контекстуальных ошибок для русского языка (когда род, спряжение, склонения нееправильные в предложении).

Из готовых решений нашел только для английского.

Посоветуйте какие-нибудь библиотеки, статьи, репы, подходы пожалуйста)

Сам думал сделать что-то на трансформерах, тк по опыту всякие марковские модели работают похуже чем нейронки. Например, взять корпус текста, токенизировать, с помощью pymorphy2 изменить форму слова, склонение, род и на этом обучить seq2seq.

Привет ! Если получилось найти решение / информацию поделись пожалуйста 🙏

источник

22:06пожаловаться #8

2021 March 25

SM

Sergei Markoff in Natural Language Processing

Ссылка на запись семинара: https://www.youtube.com/watch?v=RqPW2E6PhTk
В описании видео слайды и дополнительные материалы.

YouTube

Семинар «Пусть слоники ещё побегают!» — современные нейросетевые генеративные трансформерные модели

Нейросетевые трансформерные модели: GPT-3/ruGPT-3 и другие, их обучение и использование.1) Валерий Архипов «У меня зазвонил телефон. Кто говорит? Слон! Генер...

источник

02:21пожаловаться #9

И

Илья in Natural Language Processing

Привет. С помощью spacy векторизовал (token.vector) датасет (корпус с русскоязычными предложениями с метками [0,1]), для каждого токена получился вектор размерностью 96. Предложение - список векторов. Есть многослойный перцептрон. Как правильно использовать это для задачи классификации? Вычислять выходной слой для каждого токена(вектора), суммируя\умножая результат (что-бы получить результат для целого предложения), или как-то по другому?

источник

15:23пожаловаться #10

Е

Егорка in Natural Language Processing

Илья

Привет. С помощью spacy векторизовал (token.vector) датасет (корпус с русскоязычными предложениями с метками [0,1]), для каждого токена получился вектор размерностью 96. Предложение - список векторов. Есть многослойный перцептрон. Как правильно использовать это для задачи классификации? Вычислять выходной слой для каждого токена(вектора), суммируя\умножая результат (что-бы получить результат для целого предложения), или как-то по другому?

Перед тем, как подаёшь на вход full-connected слоям, нужно получить один вектор/тезор фиксированного размера. Можно сложить/усреднить вложения токенов. Можно склеить все вложения токенов в один вектор, но тогда нужно добивать/обрезать до фиксированного размера. Можно после векторизации слов добавить слой RNN/LSTM/CNN, а результат уже подавать на полносвязанные слои.

источник

18:03пожаловаться #11

NL

Nick Levkovich in Natural Language Processing

Всем привет
Подскажите, пожалуйста, как собрать вывод дерева синтаксиса Наташи с помощью ipymarkup'а в строку для дальнейшего вывода в ui?
Встроенный метод print() выводит в консоль дерево с помощью функции show_dep_ascii_markup, не возвращая строку, а мне нужно сохранить этот лог в строку

Заранее спасибо

Upd: проблема решилась перенаправлением потока вывода (https://stackoverflow.com/a/25623929), вопрос снят, спасибо)

Stack Overflow

Python Get console output

Can anyone tell me how to get the same program console output as variable?

For example:

print "this is simple output"
print "and this is another simple output"

ConsOutputs =

источник

20:48пожаловаться #12

d

dimakarp1996 in Natural Language Processing

Как вы, в зависимости от размеров вашего датасета, определяете, до каких пор (с учетом аккумуляции градиента) следует наращивать размер батча?

источник

21:39пожаловаться #13

E

Elena in Natural Language Processing

dimakarp1996

Как вы, в зависимости от размеров вашего датасета, определяете, до каких пор (с учетом аккумуляции градиента) следует наращивать размер батча?

что значит, наращивать размер?

источник

22:07пожаловаться #14

КМ

Кибер Медик... in Natural Language Processing

dimakarp1996

Как вы, в зависимости от размеров вашего датасета, определяете, до каких пор (с учетом аккумуляции градиента) следует наращивать размер батча?

До того как видюха скажет "Многа данных, мне тяжело, памяти не хватает, памагити"

источник

22:20пожаловаться #15

SK

Sasha Korovii in Natural Language Processing

Кибер Медик

До того как видюха скажет "Многа данных, мне тяжело, памяти не хватает, памагити"

Жиза 😂

источник

22:22пожаловаться #16

DD

David Dale in Natural Language Processing

Кибер Медик

До того как видюха скажет "Многа данных, мне тяжело, памяти не хватает, памагити"

Насколько я понял, вопрос был про скорее про то, сколько батчей подряд нужно аккумулировать градиент.

К сожалению, лично у меня ответа нету.

Я сам обычно аккумулирую градиент так, чтобы на один градиентный шаг приходилось хотя бы несколько десятков примеров, но у меня нет убедительного обоснования, почему делать так надо.

источник

22:24пожаловаться #17

2021 March 26

NS

Nikita Selin in Natural Language Processing

Всем привет.
Подскажите, пожалуйста, какие-нибудь хорошие решения, библиотеки или нейронки для сегментации на предложения "сырого" русского текста без какой-либо пунктуации, и мб также ещё библиотеки для восстановления пунктуации в таком тексте.

источник

11:58пожаловаться #18

AO

Alex Orgish in Natural Language Processing

Для русского можно сделать по аналогии как для английского через bert :
https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/nlp/punctuation_and_capitalization.html

источник

12:12пожаловаться #19

AM

Aleksandr Mester in Natural Language Processing

Всем привет. Скажите, а в spacy не появились noun chunks для русского еще?

источник

15:14пожаловаться #20