Size: a a a

2019 October 04

A

Alex in Data Engineers
вспомнил, перл скрипты тоже пихал пару раз, так как была работа с текстом и было проще udf там набросать, чем java пересобирать
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
вспомнил, перл скрипты тоже пихал пару раз, так как была работа с текстом и было проще udf там набросать, чем java пересобирать
да, у перла работа со строками и регэкспами вылизана поколениями бородачей в свитерах, с ним сложно гоняться
источник

I

Igor in Data Engineers
Евгений Глотов
Плюс то, к чему он может подключаться, и в каких окружениях работать - компоненты hadoop, базы данных, sql
А разве стэк у джуна и сениора разный?
источник

ЕГ

Евгений Глотов in Data Engineers
Одинаковый, просто джуна надо учить, а сениора вроде как нет🤔
источник

R

Roman in Data Engineers
Евгений Глотов
Одинаковый, просто джуна надо учить, а сениора вроде как нет🤔
Вроде как тут очень кстати.
источник

R

Roman in Data Engineers
Даже будучи очень крутым и опытным, если приходишь на проект, где концептуально все тоже самое, но немного другой стек, то некоторое время ты не допусксаешь глупые ошибочки
источник

ЕГ

Евгений Глотов in Data Engineers
с учётом сотен способов (различной кривости) организовать хранилище, весь стек изучить в принципе не особо возможно)
источник

R

Roman in Data Engineers
Например с elk быстро не перепрыгнешь на flume + solr
источник

R

Roman in Data Engineers
Или со спарка на hive или Impala
источник

ЕГ

Евгений Глотов in Data Engineers
в итоге в одной конторе ты даже не джуна не тянешь, а в другой на сениора сойдёшь)
источник

ЕГ

Евгений Глотов in Data Engineers
нуууу со спарка на хайв...)
источник

R

Roman in Data Engineers
Евгений Глотов
в итоге в одной конторе ты даже не джуна не тянешь, а в другой на сениора сойдёшь)
Ну это наверное, утка перебор. Но моя идея близка к этому.
источник

ЕГ

Евгений Глотов in Data Engineers
вот наоборот перейти - без вопросов
источник

ЕГ

Евгений Глотов in Data Engineers
пайспарк виртуалэнв+пандас юдф - это новая эпоха параллельных вычислений
источник

ЕГ

Евгений Глотов in Data Engineers
когда в sql появляются реально нормальные расширения с большими возможностями, а не джава)
источник

ЕГ

Евгений Глотов in Data Engineers
интересно, можно ли его к стримингу прикрутить, не смотрел пока в эту сторону)
источник
2019 October 05

A

Alex in Data Engineers
Евгений Глотов
пайспарк виртуалэнв+пандас юдф - это новая эпоха параллельных вычислений
угу, новая эпоха тормозных параллельных вычислений, нужно же как-то все эти параллельные процессоры загружать
источник

ЕГ

Евгений Глотов in Data Engineers
Alex
угу, новая эпоха тормозных параллельных вычислений, нужно же как-то все эти параллельные процессоры загружать
ну это смотря какие вычисления, если они все под капотом на си, то будет ещё и быстро)
источник

A

Alex in Data Engineers
то есть:
1) мы игнорируем стоимость копирования из памяти jvm в питоновскую память и обратно
2) что даже в пандас люди любят подавать питоновскую лямбду и производительность падает ниже дна
источник

ЕГ

Евгений Глотов in Data Engineers
Alex
то есть:
1) мы игнорируем стоимость копирования из памяти jvm в питоновскую память и обратно
2) что даже в пандас люди любят подавать питоновскую лямбду и производительность падает ниже дна
я же написал, pandas udf, данные спарк держит в pyarrow, пандас тоже - где здесь jvm?
источник