Телеграмм чат группы hadoopusers страница 3499

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2388 membersпожаловаться на группу

2021 April 15

KS

K S in Data Engineers

Arrow это нормальный вариант для подобного сценария?

источник

21:36пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Arrow это нормальный вариант, но это не формат файла, а представление в памяти, файлы будут в parquet скорее всего

источник

21:40пожаловаться #2

AZ

Anton Zadorozhniy in Data Engineers

Ну декодер предполагает строчный формат, не хочу за отвечать за Алексея, но не всем такой подходит

источник

21:40пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Но я все равно рекомендую присмотреться к базам данных, они классные

источник

21:44пожаловаться #4

SO

Simon Osipov in Data Engineers

https://twitter.com/holdenkarau/status/1382725696582131715?s=21

holden karau

@OsipovSimon Sadly policy changed at $dayjob so I need more sign offs for talks now than before and there wasn’t enough time to get it sorted out.

источник

21:57пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

https://t.me/hadoopusers/83004

Grigory Pomadchin in Data Engineers

короче не скоро она будет на конференциях; какие-то полиси эпл

источник

21:59пожаловаться #6

ИК

Иван Калининский... in Data Engineers

Вообще, можно придумать, чтобы отрезать футер паркета, дописывать row group, снова записывать немного модифицированный футер. Давно видел такую идею, никогда не видел реализацию, даже попыток таких не знаю

источник

22:02пожаловаться #7

KS

K S in Data Engineers

А как насчёт записи в кафку?

источник

22:05пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

у вас какая-то архитектурная полиция требует модную технологию?)

источник

22:06пожаловаться #9

KS

K S in Data Engineers

Нет конечно, просто подумал, что много маленьких файлов это по сути сообщения в очереди.

источник

22:07пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

ну вы практически готовый архитектор)

источник

22:08пожаловаться #11

KS

K S in Data Engineers

Запись из датафрейма в sqs в спарке не параллельна, поэтому тут всё равно боттлнек.

источник

22:10пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

как мало у вас данных что вы готовы в SQS их писать?

источник

22:12пожаловаться #13

KS

K S in Data Engineers

Их бывает много, до 7 млн записей в одном батче.

источник

22:13пожаловаться #14

KS

K S in Data Engineers

То есть получаем паркет файлы, читаем в датафрейм, разбиваем на батчи равной величины, пишем в персистенс (S3, SQS, ElastiCache).

источник

22:16пожаловаться #15

KS

K S in Data Engineers

Клиенты запускают кучу контейнеров со своим Go клиентом и читают параллельно из персистенса.

источник

22:18пожаловаться #16

R

Roman in Data Engineers

Тут советовали посмотреть сторону бд - это вам хорошо же должно подойти, не?

источник

22:25пожаловаться #17

R

Roman in Data Engineers

Например в redshift заливать пакеты, он, вроде бы, умеет их сам забирать с s3.

источник

22:26пожаловаться #18

KS

K S in Data Engineers

Посмотрю в RDS, спасибо.

источник

22:27пожаловаться #19

R

Roman in Data Engineers

Посмотрите ещё в сторону redshift spectrum.

источник

22:28пожаловаться #20