Size: a a a

DBA - русскоговорящее сообщество

2020 November 09

A

Adv0cat in DBA - русскоговорящее сообщество
😏
источник

IS

Ilia Stepanov in DBA - русскоговорящее сообщество
Всем, привет!
Возник вопрос отобрать уникальные имена в списке с похожими наименованиями.
Есть следующая таблица:  http://sqlfiddle.com/#!4/b8792/7 где 3 раза встречается имя polina с разными буквами и 1 раз имя lena.

Я делаю cross join и рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.

И рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.
Вопрос: как из итоговой таблицы получить только уникальные имена: polina и lena?
Вместо polina может быть любое другое (pavlina или palina).
источник

E

Etki in DBA - русскоговорящее сообщество
1) Кросс джойн даст экспоненциальный взрыв, а у меня есть сомнения, чтро нужно тоько три с половиной имени обработать
2) Любой подход может выбрать polina, palina или paulina в качестве основного
3) Вообще это всё обычно не на уровне базы данных решается, а в рамках NLP. По идее надо строить словарь, в который можно будет что-то сбросить и запросить всё что условно имеет расстояние левенштейна = 2. Я вроде даже видел где-то такой автомат, но уже не уверен.
источник

IZ

Ilia Zviagin in DBA - русскоговорящее сообщество
Ilia Stepanov
Всем, привет!
Возник вопрос отобрать уникальные имена в списке с похожими наименованиями.
Есть следующая таблица:  http://sqlfiddle.com/#!4/b8792/7 где 3 раза встречается имя polina с разными буквами и 1 раз имя lena.

Я делаю cross join и рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.

И рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.
Вопрос: как из итоговой таблицы получить только уникальные имена: polina и lena?
Вместо polina может быть любое другое (pavlina или palina).
уникальные - distinct
Но это бред, так нельзя делать.
Вся задача и решение — бред полный.
источник

IZ

Ilia Zviagin in DBA - русскоговорящее сообщество
Ilia Stepanov
Всем, привет!
Возник вопрос отобрать уникальные имена в списке с похожими наименованиями.
Есть следующая таблица:  http://sqlfiddle.com/#!4/b8792/7 где 3 раза встречается имя polina с разными буквами и 1 раз имя lena.

Я делаю cross join и рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.

И рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.
Вопрос: как из итоговой таблицы получить только уникальные имена: polina и lena?
Вместо polina может быть любое другое (pavlina или palina).
Убери "ГДЕ" из URL, не открывается ничё...
источник

N

Natali in DBA - русскоговорящее сообщество
Ilia Stepanov
Всем, привет!
Возник вопрос отобрать уникальные имена в списке с похожими наименованиями.
Есть следующая таблица:  http://sqlfiddle.com/#!4/b8792/7 где 3 раза встречается имя polina с разными буквами и 1 раз имя lena.

Я делаю cross join и рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.

И рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.
Вопрос: как из итоговой таблицы получить только уникальные имена: polina и lena?
Вместо polina может быть любое другое (pavlina или palina).
а параметры схожести ты эмпирически выявляешь ? странная задачка ) я б сделала настроечную табличку, куда вписала правила схожести бы, и потом использовала ее бы при поиске ) ) но это вряд ли хорошее решение ))
источник

E

Etki in DBA - русскоговорящее сообщество
да там левенштейна-дамерау хватит, на крайний случай через какой-нибудь phonetic-фильтр прогнать
источник

N

Natali in DBA - русскоговорящее сообщество
пошла читать про левенштейна-дамерау....
источник

N

Natali in DBA - русскоговорящее сообщество
какие вы все умные
источник

A

Adv0cat in DBA - русскоговорящее сообщество
Зовите Наполеона
источник

E

Etki in DBA - русскоговорящее сообщество
Natali
пошла читать про левенштейна-дамерау....
да я не то что функцию сейчас не воспроизведу, я ее на деле не читал даже
источник

N

Natali in DBA - русскоговорящее сообщество
но слышал🤷
источник

IZ

Ilia Zviagin in DBA - русскоговорящее сообщество
Natali
пошла читать про левенштейна-дамерау....
Да левенштайн — это труба полная, он не работает в месте, где нужна производительность.
источник

IZ

Ilia Zviagin in DBA - русскоговорящее сообщество
Etki
да там левенштейна-дамерау хватит, на крайний случай через какой-нибудь phonetic-фильтр прогнать
За Дамерау вот не уверен...
источник

E

Etki in DBA - русскоговорящее сообщество
Ну в смысле? Без дамерау Полина и Палина имеют расстояние 2
источник

N

Natali in DBA - русскоговорящее сообщество
Ilia Zviagin
Да левенштайн — это труба полная, он не работает в месте, где нужна производительность.
там чоттакаяформула сложная в википедии 🤦
источник

N

Natali in DBA - русскоговорящее сообщество
а книга '1400 задач по программированию' златопольского кто-нибудь проходил? стоит ее смотреть?
источник

A

Adv0cat in DBA - русскоговорящее сообщество
Natali
а книга '1400 задач по программированию' златопольского кто-нибудь проходил? стоит ее смотреть?
А какая цель ее проходить?)
источник

A

Adv0cat in DBA - русскоговорящее сообщество
мне на работе например этих задачек хватает)))
источник

N

Natali in DBA - русскоговорящее сообщество
ну саморазвитие
источник