Size: a a a

2021 October 21

t

tenKe in Data Engineers
источник

ET

E T in Data Engineers
йо, dropna разный shape возвращает в pandas И spark.
test_df = compustat_df.dropna(subset=('at','prcc_c','ni')) - строчка в спарке
print("size is : {}".format((test_df.count())))
# size is : 347247

pd_df.dropna(subset=['at','prcc_c','ni']).shape

# size is : 412771
источник

ЕГ

Евгений Глотов... in Data Engineers
А в спарке сабсет разве не просто через запятую?
источник

ЕГ

Евгений Глотов... in Data Engineers
В самой функции без указания параметра
источник

ET

E T in Data Engineers
subset : str, tuple or list, optional
optional list of column names to consider.
источник

ET

E T in Data Engineers
Может он как-то по-разному воспринимает nans/ nulls и прочее
источник

ЕГ

Евгений Глотов... in Data Engineers
146%
источник

ЕГ

Евгений Глотов... in Data Engineers
Есть вероятность, что None для пандаса не is na
источник

ЕГ

Евгений Глотов... in Data Engineers
Если там строка
источник

A

Attenuator in Data Engineers
Всем добра! Подскажите как можно решить проблему с ошибкой Import failed: java.io.IOException: Cannot run program "hive": error=2, No such file or directory. Через java приложение используя sqoop api пытаюсь поместить данные из рсубд в hive. Java приложение вне кластера hadoop, это возможно?
источник

АК

Александр Кунцевич... in Data Engineers
А сам Hive работает?
источник

АК

Александр Кунцевич... in Data Engineers
Попробуйте через beeline
источник

A

Anton in Data Engineers
Если вдруг пользователи будут страдать то какой остается вариант? Просто -mv из временной таблицы кажется мгновенной операцией и интуитивно не должен создавать проблем.
источник

ИК

Иван Калининский... in Data Engineers
-mc действительно быстрый, но произойдёт изменение файлов, а импала может кешировать их на уровне метаданных. И если что не так, то фейлить чтение.

Поэтому если пользователи будут недовольны прерыванием их запросов, то единственный вариант - договориться о временном окне для обновления, ночью, например.
источник

K

KrivdaTheTriewe in Data Engineers
Ребят, есть какие нибудь красивые презентации по бищнескнйсам трино или престо, типа как условный генерал моторс сократил выбросы газа в семьсот раз ?
источник

ИК

Иван Калининский... in Data Engineers
Пока не распознал бизнес-кейсы, думал это какой-то новейший базворд))
источник

T

T in Data Engineers
Попроси у ребят из старбаста
источник

K

KrivdaTheTriewe in Data Engineers
Ребята из Старбакса дайте пожалуйста
источник

T

T in Data Engineers
Напиши мне в линкидын я тебе скину их сэйлов я думаю у них таких през завались
источник
2021 October 22

D

Dmitry in Data Engineers
а есть тут кто с databricks и jar возившихся ? как зачистить кластер после запуска джара ? я вижу что мои джарники остаются в dbfs:/FileStore/jars/ и на самом кластере /local_disk0/tmp/ и лезут в classpath. причем не спасает даже переименование джарников.
источник