Телеграмм чат группы hadoopusers страница 1666

Даже будучи очень крутым и опытным, если приходишь на проект, где концептуально все тоже самое, но немного другой стек, то некоторое время ты не допусксаешь глупые ошибочки

источник

23:42пожаловаться #6

ЕГ

Евгений Глотов in Data Engineers

с учётом сотен способов (различной кривости) организовать хранилище, весь стек изучить в принципе не особо возможно)

источник

23:43пожаловаться #7

R

Roman in Data Engineers

Например с elk быстро не перепрыгнешь на flume + solr

источник

23:43пожаловаться #8

R

Roman in Data Engineers

Или со спарка на hive или Impala

источник

23:43пожаловаться #9

ЕГ

Евгений Глотов in Data Engineers

в итоге в одной конторе ты даже не джуна не тянешь, а в другой на сениора сойдёшь)

источник

23:43пожаловаться #10

ЕГ

Евгений Глотов in Data Engineers

нуууу со спарка на хайв...)

источник

23:44пожаловаться #11

R

Roman in Data Engineers

Евгений Глотов

в итоге в одной конторе ты даже не джуна не тянешь, а в другой на сениора сойдёшь)

Ну это наверное, утка перебор. Но моя идея близка к этому.

источник

23:44пожаловаться #12

ЕГ

Евгений Глотов in Data Engineers

вот наоборот перейти - без вопросов

источник

23:44пожаловаться #13

ЕГ

Евгений Глотов in Data Engineers

пайспарк виртуалэнв+пандас юдф - это новая эпоха параллельных вычислений

источник

23:45пожаловаться #14

ЕГ

Евгений Глотов in Data Engineers

когда в sql появляются реально нормальные расширения с большими возможностями, а не джава)

источник

23:45пожаловаться #15

ЕГ

Евгений Глотов in Data Engineers

интересно, можно ли его к стримингу прикрутить, не смотрел пока в эту сторону)

источник

23:53пожаловаться #16

2019 October 05

A

Alex in Data Engineers

Евгений Глотов

пайспарк виртуалэнв+пандас юдф - это новая эпоха параллельных вычислений

угу, новая эпоха тормозных параллельных вычислений, нужно же как-то все эти параллельные процессоры загружать

источник

00:23пожаловаться #17

ЕГ

Евгений Глотов in Data Engineers

Alex

угу, новая эпоха тормозных параллельных вычислений, нужно же как-то все эти параллельные процессоры загружать

ну это смотря какие вычисления, если они все под капотом на си, то будет ещё и быстро)

источник

00:25пожаловаться #18

A

Alex in Data Engineers

то есть:
1) мы игнорируем стоимость копирования из памяти jvm в питоновскую память и обратно
2) что даже в пандас люди любят подавать питоновскую лямбду и производительность падает ниже дна

источник

00:27пожаловаться #19

ЕГ

Евгений Глотов in Data Engineers

Alex

то есть:
1) мы игнорируем стоимость копирования из памяти jvm в питоновскую память и обратно
2) что даже в пандас люди любят подавать питоновскую лямбду и производительность падает ниже дна

я же написал, pandas udf, данные спарк держит в pyarrow, пандас тоже - где здесь jvm?

источник

00:28пожаловаться #20