Телеграмм чат группы hadoopusers страница 3795

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2593 membersпожаловаться на группу

2021 June 23

KS

K S in Data Engineers

Что делать? Сказать поставщикам, чтобы сжимали в строку?

источник

20:10пожаловаться #1

T

T in Data Engineers

Это самый лёгкий способ так что лучше с него начать

источник

20:10пожаловаться #2

AZ

Anton Zadorozhniy in Data Engineers

конечно, если есть такая возможность - пусть поддерживают формат JSON Lines https://jsonlines.org/

источник

20:11пожаловаться #3

AE

Alexey Evdokimov in Data Engineers

а поставщики такие "мы вам данные поставляем? поставляем. JSON? джейсон. так какие проблемы?"

источник

20:11пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

(по моему опыту еще на 20% меньше файл будет - запишите оптимизацию на свой счет)

источник

20:12пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

потому что это не json и не json lines, это какой-то доморощенный формат

источник

20:13пожаловаться #6

KS

K S in Data Engineers

Понятно, спасибо парни!

источник

20:15пожаловаться #7

S

Shadle in Data Engineers

Всем привет, вопрос такой:
Работаю с Pandas, для более ускоренной работы больших данных, что является альтернативой панде? Слышал про pyspark, spark, scala
Что выбрать и почему ?

источник

20:30пожаловаться #8

K

KrivdaTheTriewe in Data Engineers

Попробуйте koals или pyspark

источник

20:32пожаловаться #9

K

KrivdaTheTriewe in Data Engineers

Коалс сыроыат, но может вам подойти

источник

20:32пожаловаться #10

K

KrivdaTheTriewe in Data Engineers

Это по-сути обёртка не пайспарком которая ркализцет апи панд

источник

20:33пожаловаться #11

S

Shadle in Data Engineers

Читал статью, где проводили опыты со скалой и спарками, скала всех уделал по скорости и объему

источник

20:33пожаловаться #12

K

KrivdaTheTriewe in Data Engineers

Вы попробуете с малого

источник

20:34пожаловаться #13

А

Александр in Data Engineers

а мне казалось scala это просто язык для spark...

источник

20:35пожаловаться #14

NN

No Name in Data Engineers

Эм, скала это язык, на котором, собственно, спарк и написан. Пайспарк - это питонячье апи спарка.

источник

20:35пожаловаться #15

AS

Andrey Sutugin in Data Engineers

Если у вас spark sql или darafrsme api, то язык не важен

источник

20:35пожаловаться #16

AS

Andrey Sutugin in Data Engineers

Народ, а ни кто не прикручивал delta connectors к hive 1.2?

источник

20:36пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

Если у вас данные из базы (vertica, teradata) - можно попробовать их нативные датафреймы, вместо выкачивания на питон

источник

20:59пожаловаться #18

V

Vasiliy in Data Engineers

Увы

источник

21:55пожаловаться #19

MH

Marko Herkalyuk in Data Engineers

4 часа всего было

источник

21:56пожаловаться #20