Size: a a a

Язык программирования Julia / Julia programming language

2020 April 10

АО

Андрей Оськин in Язык программирования Julia / Julia programming language
Слова всё-таки причесать надо на входе - русский транслитерировать, сделать lowercase, убрать не буквы и т.п.
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Андрей Оськин
В любом случае, если даже хочется нейронку, имхо лучше уж делать полносвязную сетку обычную.
Имена - короткие слова, нет смысла RNN запускать.
понял
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Я просто сделал как
источник

AM

Aleksey Maksimov in Язык программирования Julia / Julia programming language
Андрей Оськин
Слова всё-таки причесать надо на входе - русский транслитерировать, сделать lowercase, убрать не буквы и т.п.
👍
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Взял все 120 тисяч слов
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
"Причесал"
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Только не транслитерировал (а походу нужно)
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Дальше взял, и поделил слова на биграмы (если в слове нечетное количество букв, то и на униграмы)
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Дальше составил словарь биграм без повторения
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
У меня вышел словарь из 2371 биграм\униграм
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Дальше я векторизировал
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
То есть теперь каждая биграма\униграма из словаря имеет свой вектор из 2371 элементов
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Например, если наш словарь - это [1, 2, 3], то у 1 вектор [1, 0, 0], u 2 [0, 1, 0], u 3 [0, 0, 1]
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
То есть слово "23" для данного словаря будет иметь вектор [0, 1, 1]
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Ну и получается я на вход нейронки подаю слово в векторной форме относительно словаря
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
И имею, допустим, 3 категории. На выходе нейронки естственно тогда 3 выхода
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Если первая категория - то она отдаст вектор [1, 0, 0] (точнее отдаст она что-то наподобе [0.44543543, 0.0043242, 0.465655], ну а я возьму самое большое число и буду думать, что на его месте стояла бы 1)
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Ну и вот так и живем
источник

АО

Андрей Оськин in Язык программирования Julia / Julia programming language
RNN здесь только мешается. Она же подразумевает,  что между соседними элементами есть причинно следственная связь. А в том кодировании, что ты сделал связи нет и для неё вход - это чистый рандом, вот она и падает в первый попавшийся класс.
источник

АО

Андрей Оськин in Язык программирования Julia / Julia programming language
То есть я правильно понимаю, что если бы ты использовал только униграммы, то Ана не отличалась бы от Анна?
источник