Size: a a a

Natural Language Processing

2021 April 16

SancheZz Мов in Natural Language Processing
У меня все норм было
источник

SancheZz Мов in Natural Language Processing
Я скоро обновлю наш репо с билдом локальным тф берт под 2+
источник

SancheZz Мов in Natural Language Processing
И поделюсь тут)
источник

SancheZz Мов in Natural Language Processing
Всем добра
источник

E

Elena in Natural Language Processing
да, было бы круто
источник

🐙

🐙 in Natural Language Processing
Привет! Пытаюсь в генерацию текста с помощью LSTM сеточки (tf, keras) (чисто ради попробовать-поучиться). Скомпилировал пару туториалов на англ. под свой корпус на русском и качество не очень, и потому есть вопросы:
1) Посимвольная генерация - норм? В одном из туториалов была генерация по токенам, а мой словарь получился на 5 млн где-то - многовато.
2) Количество примеров и продолжительность обучения: учу на CPU, прогоняю 1-2 тысячи (2-5 средних абзацев) по 5 эпох. Насколько это неадекватно мало для того, чтобы ожидать нормальный результат? Есть советы, что в первую очередь поменять - снизить количество текстов и уменьшить количество эпох, или наоборот?
источник

DD

David Dale in Natural Language Processing
Посимвольная генерация норм, но SOTA подходы используют BPE словари размера в несколько тысяч или десятков тысяч сабтокенов.
Количество текстов однозначно надо повышать, чем больше обучающая выборка тем лучше.
Количество эпох можно определять по лоссу на валидационной выборке.
источник

🐙

🐙 in Natural Language Processing
А что в такой задаче валидационная выборка и лосс?
Я по факту предикт после фита ни с чем не сравниваю, просто беру аргмакс индексы токенов.
источник

🐙

🐙 in Natural Language Processing
Ну и больше текстов конечно хорошо, но у меня тут скорее два стула, и 1 эпоха учится 4 часа.
источник

DD

David Dale in Natural Language Processing
Валидационную выборку нужно случайным образом отделить от тестовой.
Лосс - это видимо cross-entropy, который ты минимизируешь и при обучении.
источник

DD

David Dale in Natural Language Processing
Если время ограничено, тогда лучше больше текстов и меньше эпох
источник

🐙

🐙 in Natural Language Processing
Благодарю за помощь 👍
источник

E

Edward in Natural Language Processing
Добрый день! А кто нибудь работал с библиотекой Pullenti для c#?

Как выбирать связи между объектами?
string text = "Отец Иванов Иван Петрович 1898 года рождения, Мать Иванова Олеся Петровна 1980 г.р.";

Например что год рождения относится к маме или отцу.

В демо-приложении Pullenti.TestDesk.exe отлично показывается но там нету примеров)
источник

E

Edward in Natural Language Processing
И можно ли как то данные отношения настраивать?
источник

E

Edward in Natural Language Processing
источник

E

Edward in Natural Language Processing
И как победить такое что не распознает разных персон
источник

MK

Max Kuznetsov in Natural Language Processing
Я игрался с посимвольной генерацией c LSTM. Обучал модель на Евгении Онегине, работало норм, сетка очень быстро выучила всего Евгения Онегина и с "Однажды в студёную зимнюю пору" очень быстро переходила на Пушкина. Учил  на GPU, но не долго, как помню.
источник

E

Edward in Natural Language Processing
И какой вообще лучший инструмент на текущий момент для выделения отношений, и сущностей как например:
" Отец Иванов Иван Петрович 07.08.1985 г.р., мать Иванова Олеся Александровна 06.02.1980 г.р., брат Иванов Александр Иванович 03.04.1981 г.р."

Сейчас тестирую Pullenti. Очень плохо определяет если слово "Отец" или "Мать" в начале блока.
Если в конце - то прям всё как надо распознает
источник

KS

Konstantin Smith in Natural Language Processing
Ну этот вопрос решить несложно - нужно сообщить разработчику, прислав примеры неправильных выделений, и всё будет исправлено.
источник

E

Edward in Natural Language Processing
Так ведь кажется разработчик в чате)))
источник