Size: a a a

2021 June 23

KS

K S in Data Engineers
Что делать? Сказать поставщикам, чтобы сжимали в строку?
источник

T

T in Data Engineers
Это самый лёгкий способ так что лучше с него начать
источник

AZ

Anton Zadorozhniy in Data Engineers
конечно, если есть такая возможность - пусть поддерживают формат JSON Lines https://jsonlines.org/
источник

AE

Alexey Evdokimov in Data Engineers
а поставщики такие "мы вам данные поставляем? поставляем. JSON? джейсон. так какие проблемы?"
источник

AZ

Anton Zadorozhniy in Data Engineers
(по моему опыту еще на 20% меньше файл будет - запишите оптимизацию на свой счет)
источник

AZ

Anton Zadorozhniy in Data Engineers
потому что это не json и не json lines, это какой-то доморощенный формат
источник

KS

K S in Data Engineers
Понятно, спасибо парни!
источник

S

Shadle in Data Engineers
Всем привет, вопрос такой:
Работаю с Pandas, для более ускоренной работы больших данных, что является альтернативой панде? Слышал про pyspark, spark, scala
Что выбрать и почему ?
источник

K

KrivdaTheTriewe in Data Engineers
Попробуйте koals или pyspark
источник

K

KrivdaTheTriewe in Data Engineers
Коалс сыроыат, но может вам подойти
источник

K

KrivdaTheTriewe in Data Engineers
Это по-сути обёртка не пайспарком которая ркализцет апи панд
источник

S

Shadle in Data Engineers
Читал статью, где проводили опыты со скалой и спарками, скала всех уделал по скорости и объему
источник

K

KrivdaTheTriewe in Data Engineers
Вы попробуете с малого
источник

А

Александр in Data Engineers
а мне казалось scala это просто язык для spark...
источник

NN

No Name in Data Engineers
Эм, скала это язык, на котором, собственно, спарк и написан. Пайспарк - это питонячье апи спарка.
источник

AS

Andrey Sutugin in Data Engineers
Если у вас spark sql или darafrsme api, то язык не важен
источник

AS

Andrey Sutugin in Data Engineers
Народ, а ни кто не прикручивал delta connectors к hive 1.2?
источник

AZ

Anton Zadorozhniy in Data Engineers
Если у вас данные из базы (vertica, teradata) - можно попробовать их нативные датафреймы, вместо выкачивания на питон
источник

V

Vasiliy in Data Engineers
Увы
источник

MH

Marko Herkalyuk in Data Engineers
4 часа всего было
источник