Size: a a a

2019 July 03

N

Nikita Blagodarnyy in Data Engineers
Оно ж утратило силу уже
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Anton Zadorozhniy
в аналитических системах обычно разделяют на техническое качество данных (грубо говоря соответствие модели данных + полнота) и бизнес качество данных (проверка бизнес-правил) - то есть с вашим CSV если кто-то еще дал схему то надо проверить соотвествие схеме (если схемы нет - просто что разделителей в каждой строке нужно количество) и какие-нибудь бизнес-правила напридумывайте и проверьте их
Нет нету никаких бизнес-правил, просто осушествить пару примеров проверки
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Оно ж утратило силу уже
я давно в России не делал проектов, сорян
источник

AZ

Anton Zadorozhniy in Data Engineers
Carp-Bezverhnii Maxim
Нет нету никаких бизнес-правил, просто осушествить пару примеров проверки
если это тестовое задание - я бы придумал правил, а иначе просто проверьте что CSV валиден и все
источник

AZ

Anton Zadorozhniy in Data Engineers
мб от вас ждут профилирования, но строго говоря это не качество данных
источник

N

Nikita Blagodarnyy in Data Engineers
Можно ещё выбросы попроверять. Ну типа что за этот месяц не продали на 1000000% бургеров больше, чем за прошлый.
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Anton Zadorozhniy
если это тестовое задание - я бы придумал правил, а иначе просто проверьте что CSV валиден и все
Да ето тестовое задание
источник

AZ

Anton Zadorozhniy in Data Engineers
Carp-Bezverhnii Maxim
Да ето тестовое задание
препод валит
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Я просто новичок в data science
источник

AZ

Anton Zadorozhniy in Data Engineers
если это в сатанизме задание то наверное качество данных значит "применимость для чего-то", и тогда я бы точно профилирование сделал: по каждой колонке число уникальных, пустых значений, аутлайеры для текстовых полей, гистограммы для числовых, вот это все
источник

AZ

Anton Zadorozhniy in Data Engineers
df.describe() короче)
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Anton Zadorozhniy
df.describe() короче)
Спс
источник

AZ

Anton Zadorozhniy in Data Engineers
пжлста, описывайте в след раз полнее задачу, тут инженерный кружок, я вам инженерно изначально и ответил
источник

EV

Eduard Vlasov in Data Engineers
🤗
источник

AS

Adlet Sarsembaev in Data Engineers
Всем привет, у меня hive версии 2.3.5, я в него с помощью add jar добавил json-serde-1.3.8-jar-with-dependencies.jar
источник

AS

Adlet Sarsembaev in Data Engineers
и при использовании и вызове:
CREATE TABLE test (
       one boolean,
       three array<string>,
       two double,
       four string )
     ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
     STORED AS TEXTFILE;

он валится по java.lang.NoClassDefFoundError: org/apache/hadoop/hive/serde2/SerDe
источник

AS

Adlet Sarsembaev in Data Engineers
никто не знает, по какой причине он может валиться? в интернете не смог найти проблему, может хоть кто-то подскажет куда копать
источник

AS

Adlet Sarsembaev in Data Engineers
задача: запустить openx serde для hive 2.3.5 и протестировать его
источник

DS

Dmitriy Solodukha in Data Engineers
Ребят
Кто решал вопрос предсказания цены недвижимости?
источник

PA

Polina Azarova in Data Engineers
Adlet Sarsembaev
никто не знает, по какой причине он может валиться? в интернете не смог найти проблему, может хоть кто-то подскажет куда копать
Может в hdfs засунуть джарку?
источник