Телеграмм чат группы natural_language

Привет! Пытаюсь в генерацию текста с помощью LSTM сеточки (tf, keras) (чисто ради попробовать-поучиться). Скомпилировал пару туториалов на англ. под свой корпус на русском и качество не очень, и потому есть вопросы:
1) Посимвольная генерация - норм? В одном из туториалов была генерация по токенам, а мой словарь получился на 5 млн где-то - многовато.
2) Количество примеров и продолжительность обучения: учу на CPU, прогоняю 1-2 тысячи (2-5 средних абзацев) по 5 эпох. Насколько это неадекватно мало для того, чтобы ожидать нормальный результат? Есть советы, что в первую очередь поменять - снизить количество текстов и уменьшить количество эпох, или наоборот?

источник

17:13пожаловаться #6

David Dale in Natural Language Processing

Посимвольная генерация норм, но SOTA подходы используют BPE словари размера в несколько тысяч или десятков тысяч сабтокенов.
Количество текстов однозначно надо повышать, чем больше обучающая выборка тем лучше.
Количество эпох можно определять по лоссу на валидационной выборке.

источник

17:15пожаловаться #7

🐙

🐙 in Natural Language Processing

А что в такой задаче валидационная выборка и лосс?
Я по факту предикт после фита ни с чем не сравниваю, просто беру аргмакс индексы токенов.

источник

17:18пожаловаться #8

🐙

🐙 in Natural Language Processing

Ну и больше текстов конечно хорошо, но у меня тут скорее два стула, и 1 эпоха учится 4 часа.

источник

17:18пожаловаться #9

David Dale in Natural Language Processing

Валидационную выборку нужно случайным образом отделить от тестовой.
Лосс - это видимо cross-entropy, который ты минимизируешь и при обучении.

источник

17:22пожаловаться #10

David Dale in Natural Language Processing

Если время ограничено, тогда лучше больше текстов и меньше эпох

источник

17:22пожаловаться #11

🐙

🐙 in Natural Language Processing

Благодарю за помощь 👍

источник

17:23пожаловаться #12

Edward in Natural Language Processing

Добрый день! А кто нибудь работал с библиотекой Pullenti для c#?

Как выбирать связи между объектами?
string text = "Отец Иванов Иван Петрович 1898 года рождения, Мать Иванова Олеся Петровна 1980 г.р.";

Например что год рождения относится к маме или отцу.

В демо-приложении Pullenti.TestDesk.exe отлично показывается но там нету примеров)

источник

17:26пожаловаться #13

Edward in Natural Language Processing

И можно ли как то данные отношения настраивать?

источник

17:28пожаловаться #14

Edward in Natural Language Processing

источник

17:37пожаловаться #15

Edward in Natural Language Processing

И как победить такое что не распознает разных персон

источник

17:37пожаловаться #16

Max Kuznetsov in Natural Language Processing

Я игрался с посимвольной генерацией c LSTM. Обучал модель на Евгении Онегине, работало норм, сетка очень быстро выучила всего Евгения Онегина и с "Однажды в студёную зимнюю пору" очень быстро переходила на Пушкина. Учил на GPU, но не долго, как помню.

источник

17:44пожаловаться #17

Edward in Natural Language Processing

И какой вообще лучший инструмент на текущий момент для выделения отношений, и сущностей как например:
" Отец Иванов Иван Петрович 07.08.1985 г.р., мать Иванова Олеся Александровна 06.02.1980 г.р., брат Иванов Александр Иванович 03.04.1981 г.р."

Сейчас тестирую Pullenti. Очень плохо определяет если слово "Отец" или "Мать" в начале блока.
Если в конце - то прям всё как надо распознает

источник

18:04пожаловаться #18

Konstantin Smith in Natural Language Processing

Ну этот вопрос решить несложно - нужно сообщить разработчику, прислав примеры неправильных выделений, и всё будет исправлено.

источник

18:19пожаловаться #19

Edward in Natural Language Processing

Так ведь кажется разработчик в чате)))

источник

18:22пожаловаться #20