Телеграмм чат группы dba_ru страница 5344

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

DBA - русскоговорящее сообщество

2657 membersпожаловаться на группу

2020 November 09

A

Adv0cat in DBA - русскоговорящее сообщество

😏

источник

14:22пожаловаться #1

IS

Ilia Stepanov in DBA - русскоговорящее сообщество

Всем, привет!
Возник вопрос отобрать уникальные имена в списке с похожими наименованиями.
Есть следующая таблица: http://sqlfiddle.com/#!4/b8792/7 где 3 раза встречается имя polina с разными буквами и 1 раз имя lena.

Я делаю cross join и рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.

И рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.
Вопрос: как из итоговой таблицы получить только уникальные имена: polina и lena?
Вместо polina может быть любое другое (pavlina или palina).

SQL Fiddle | A tool for easy online testing and sharing of database problems and their solutions.

Application for testing and sharing SQL queries.

источник

14:23пожаловаться #2

E

Etki in DBA - русскоговорящее сообщество

1) Кросс джойн даст экспоненциальный взрыв, а у меня есть сомнения, чтро нужно тоько три с половиной имени обработать
2) Любой подход может выбрать polina, palina или paulina в качестве основного
3) Вообще это всё обычно не на уровне базы данных решается, а в рамках NLP. По идее надо строить словарь, в который можно будет что-то сбросить и запросить всё что условно имеет расстояние левенштейна = 2. Я вроде даже видел где-то такой автомат, но уже не уверен.

источник

14:27пожаловаться #3

IZ

Ilia Zviagin in DBA - русскоговорящее сообщество

Всем, привет!
Возник вопрос отобрать уникальные имена в списке с похожими наименованиями.
Есть следующая таблица: http://sqlfiddle.com/#!4/b8792/7 где 3 раза встречается имя polina с разными буквами и 1 раз имя lena.

Я делаю cross join и рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.

И рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.
Вопрос: как из итоговой таблицы получить только уникальные имена: polina и lena?
Вместо polina может быть любое другое (pavlina или palina).

SQL Fiddle | A tool for easy online testing and sharing of database problems and their solutions.

Application for testing and sharing SQL queries.

уникальные - distinct
Но это бред, так нельзя делать.
Вся задача и решение — бред полный.

источник

14:53пожаловаться #4

IZ

Ilia Zviagin in DBA - русскоговорящее сообщество

Всем, привет!
Возник вопрос отобрать уникальные имена в списке с похожими наименованиями.
Есть следующая таблица: http://sqlfiddle.com/#!4/b8792/7 где 3 раза встречается имя polina с разными буквами и 1 раз имя lena.

Я делаю cross join и рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.

И рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.
Вопрос: как из итоговой таблицы получить только уникальные имена: polina и lena?
Вместо polina может быть любое другое (pavlina или palina).

SQL Fiddle | A tool for easy online testing and sharing of database problems and their solutions.

Application for testing and sharing SQL queries.

Убери "ГДЕ" из URL, не открывается ничё...

источник

14:55пожаловаться #5

N

Natali in DBA - русскоговорящее сообщество

Всем, привет!
Возник вопрос отобрать уникальные имена в списке с похожими наименованиями.
Есть следующая таблица: http://sqlfiddle.com/#!4/b8792/7 где 3 раза встречается имя polina с разными буквами и 1 раз имя lena.

Я делаю cross join и рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.

И рассчитываю схожесть текстов. Чем больше similarity тем сильнее тексты похожи друг на друга.
Вопрос: как из итоговой таблицы получить только уникальные имена: polina и lena?
Вместо polina может быть любое другое (pavlina или palina).

SQL Fiddle | A tool for easy online testing and sharing of database problems and their solutions.

Application for testing and sharing SQL queries.

а параметры схожести ты эмпирически выявляешь ? странная задачка ) я б сделала настроечную табличку, куда вписала правила схожести бы, и потом использовала ее бы при поиске ) ) но это вряд ли хорошее решение ))

источник

15:18пожаловаться #6

E

Etki in DBA - русскоговорящее сообщество

да там левенштейна-дамерау хватит, на крайний случай через какой-нибудь phonetic-фильтр прогнать

источник

15:21пожаловаться #7

N

Natali in DBA - русскоговорящее сообщество

пошла читать про левенштейна-дамерау....

источник

15:21пожаловаться #8

N

Natali in DBA - русскоговорящее сообщество

какие вы все умные

источник

15:22пожаловаться #9

A

Adv0cat in DBA - русскоговорящее сообщество

Зовите Наполеона

источник

15:42пожаловаться #10

E

Etki in DBA - русскоговорящее сообщество

пошла читать про левенштейна-дамерау....

да я не то что функцию сейчас не воспроизведу, я ее на деле не читал даже

источник

15:52пожаловаться #11

N

Natali in DBA - русскоговорящее сообщество

но слышал🤷

источник

15:52пожаловаться #12

IZ

Ilia Zviagin in DBA - русскоговорящее сообщество

пошла читать про левенштейна-дамерау....

Да левенштайн — это труба полная, он не работает в месте, где нужна производительность.

источник

15:59пожаловаться #13

IZ

Ilia Zviagin in DBA - русскоговорящее сообщество

да там левенштейна-дамерау хватит, на крайний случай через какой-нибудь phonetic-фильтр прогнать

За Дамерау вот не уверен...

источник

15:59пожаловаться #14

E

Etki in DBA - русскоговорящее сообщество

Ну в смысле? Без дамерау Полина и Палина имеют расстояние 2

источник

16:00пожаловаться #15

N

Natali in DBA - русскоговорящее сообщество

Да левенштайн — это труба полная, он не работает в месте, где нужна производительность.

там чоттакаяформула сложная в википедии 🤦

источник

16:00пожаловаться #16

N

Natali in DBA - русскоговорящее сообщество

а книга '1400 задач по программированию' златопольского кто-нибудь проходил? стоит ее смотреть?

источник

16:03пожаловаться #17

A

Adv0cat in DBA - русскоговорящее сообщество

а книга '1400 задач по программированию' златопольского кто-нибудь проходил? стоит ее смотреть?

А какая цель ее проходить?)

источник

16:09пожаловаться #18

A

Adv0cat in DBA - русскоговорящее сообщество

мне на работе например этих задачек хватает)))

источник

16:09пожаловаться #19

N

Natali in DBA - русскоговорящее сообщество

ну саморазвитие

источник

16:09пожаловаться #20