Size: a a a

Язык программирования Julia / Julia programming language

2020 April 10

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Вобщем, описание самой задачи: есть у меня таблица с 120к рекордов
источник

АО

Андрей Оськин in Язык программирования Julia / Julia programming language
(рекорды - это записи по русски да? То бишь строчки?)
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Андрей Оськин
(рекорды - это записи по русски да? То бишь строчки?)
Да, спасибо за уточнение
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Некоторые слова не знаю
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Допустим, в таблице есть 1 колонка - имя пользователя
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
То есть 120к имен
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Мне нужно сгруппировать эти данные, например, узнать количество пользователей с именем Влад, количество с именем Андрей и т.д.
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Но проблема в том, что эти имена заполняются пользователями как они заходят - кто-то пишет Влад, кто-то - Vlad, кто-то вообще непонятную дич по типу dgdfxx11
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Моя задача - обучить нейронную сеть, которая сможет классифицировать имена пользователей в нормальные имена
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Сначала я попытался сделать это через обычные if
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Но
источник

АО

Андрей Оськин in Язык программирования Julia / Julia programming language
Я видел одну такую штуку (точнее описание).
Для сеток наверное сложновата задача.

В общем в том варианте, который я видел решалось через приведение к фонетическим записям с последующим fuzzy searchи (ближайшие по Левенштейну или каким-то другим подобным метрикам).
источник

АО

Андрей Оськин in Язык программирования Julia / Julia programming language
Могу в терминологии немного ошибаться, так как читал на английском.
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Только вариаций имени с частью "влад" есть: влад, владик, владос, владюха, влада, владислава, владислав, владочка, владимир, в
источник

АО

Андрей Оськин in Язык программирования Julia / Julia programming language
Ага.
Это решается обычными n-граммами + xgboost/random forest
источник

АО

Андрей Оськин in Язык программирования Julia / Julia programming language
Тебе же по сути достаточно корень слова выделить.
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
И вот по этому я решил сделать нейронную сеть: ради интереса
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
Андрей Оськин
Тебе же по сути достаточно корень слова выделить.
А что если Женя и Евгений?
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
А если имя написано с ошибкой
источник

AY

Artem Yurchenko in Язык программирования Julia / Julia programming language
А если VлАDos?
источник