Size: a a a

2021 February 28

ZS

Zhenya Skrebanov in Qlik BI chat
Можно и в скрипте решить этот вопрос, что-то наподобие wildmatch, like, epschtein dist, с index, subfield  и тп, с перебором значений полей и поиска вариантов в стиле сравнить название ABC с поиском значений какие есть в названии BCA, CaB, проверить совпадают ли какие-то варианты перестановки через епштейн и тп.
источник

ZS

Zhenya Skrebanov in Qlik BI chat
В принципе мне удавалось парсить разнородные адреса, где было все написано иначе, ГОР МОСКВА, Тихая УЛ., Москва Регион, ДОМ 17, ВЛАД. 24, 123456, РФ, другой адрес мог быть Российская Федерация, Регион Москва,123456, улица Тихая, 17-24, и так далее, где-то нет региона, где-то он в сокращении, где-то есть еще и регион-район-и тп, вариаций было бесконечное множество, так как тысячи адресов вносили сотни людей руками в разные эксели в свободное поле Адрес, и кто как выдумал, так и писал
источник

ZS

Zhenya Skrebanov in Qlik BI chat
Пришлось строку адреса разбивать на составные, и сравнивать с разными списками, городов, улиц и тп, что-то очевидно можно было разобрать, что-то нет, но в конечном итоге был создан скрипт, который в это сумел.
источник

MD

Maxim Deviatov in Qlik BI chat
И новопассит ведрами наверное...
источник

ZS

Zhenya Skrebanov in Qlik BI chat
Но не все, 98% все равно не определилось, так как были совершенно дикие сочетания написания адресов, но здесь была таблица, которая эти строки показывала, и правили вручную.
источник

ZS

Zhenya Skrebanov in Qlik BI chat
Maxim Deviatov
И новопассит ведрами наверное...
А у тебя данные откуда идут, что источник?
источник

MD

Maxim Deviatov in Qlik BI chat
Для меня это напрасный труд. Я в такие данные не смогу поверить.
источник

MD

Maxim Deviatov in Qlik BI chat
Хренова куча PDF, которые распарсили и структурировали. И три учетные системы которые при этом в разных руках находятся.
источник

ZS

Zhenya Skrebanov in Qlik BI chat
Пдф как источник та ещё проблема, там может быть вектор, растр и текст, и сами пдф могут быть созданы чем угодно, что тоже головная боль. Здесь проще их пропускать все же через какой-то обработчик, нежели в скрипт.
источник

MD

Maxim Deviatov in Qlik BI chat
Мы нереально прокачались по парсингу PDF за это время. Интересная задачка, но нервов попортила изрядно. Для наших целей качество высокое. Но с тобой согласен - две одинаковые с виду пдфки содержат совершенно различные косяки внутри. То буквы удваиваются рандомно, то спецсимволы появляются ну и самое главное что не факт что внутри все буквы слеплены в слова)
источник

E

Eugene Z in Qlik BI chat
Maxim Deviatov
Хренова куча PDF, которые распарсили и структурировали. И три учетные системы которые при этом в разных руках находятся.
А чем парсили?
источник

P

Pavel Petukhov in Qlik BI chat
Maxim Deviatov
А у тебя паранойя не чешется при слове SSE? ))))
А в чём проблема использовать SSE?
источник

MD

Maxim Deviatov in Qlik BI chat
Eugene Z
А чем парсили?
На питоне использовали франкештейна из нескольких пакетов. Но ниверсального решения все равно не получится. Мы разве что понимаем сейчас как получить результат быстрее и качественнее.
источник

MD

Maxim Deviatov in Qlik BI chat
Pavel Petukhov
А в чём проблема использовать SSE?
Сам не использовал. С моей точки зрения проблем вроде бы нет. Но админы обычно паранойят ставить какую-то среду разработки/исполнения где-то в продкшне.
Мое мнение (широко распространенное впрочем) что чем больше приспособ и свистелок затянул в проект тем меньшая надежность и продукта и большие расходы на саппорт.
Но вообще руки чешутся посмотреть, думаю что доберемся до SSE
источник

И

Игорь in Qlik BI chat
Если нужно сравнивать предложения с переставленными словами - можно их сперва отсортировать. Вот только не подскажу как лучше это делать в Клике, я ранее так в Экселе делал.
источник

MD

Maxim Deviatov in Qlik BI chat
Дада, после слов Жени тоже этот способ обсуждали, по идее, должно быть просто в реализации и эффект хороший
источник

A

Andrew in Qlik BI chat
Коллеги, помогите, пожалуйста.
Sense при загрузке данных из xls обрезает нули в начале числа (00373 -> 373). Как сделать так, чтобы он этого не делал? Text() не помогает(
источник

И

Игорь in Qlik BI chat
Хочу спросить совета в одном простом деле - как сделать правильно, надёжно и без лишней работы.
Делаем ETL с промежуточными qvd. И как раз выше Andrew снял с языка - именно вот в этом и вопрос: как провести эти нули без потерь до визуализацией?
источник

И

Игорь in Qlik BI chat
Andrew
Коллеги, помогите, пожалуйста.
Sense при загрузке данных из xls обрезает нули в начале числа (00373 -> 373). Как сделать так, чтобы он этого не делал? Text() не помогает(
А точно там есть эти нули в value ячейки?
источник

A

Andrew in Qlik BI chat
Игорь
А точно там есть эти нули в value ячейки?
Ага
источник