Телеграмм чат группы hadoopusers страница 1670

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 October 05

Uncel Duk in Data Engineers

источник

01:24пожаловаться #1

Alex in Data Engineers

Евгений Глотов

можно выкатить то, что получилось напилить, за несколько дней, с падением производительности в 2 раза

я выше писал про spakdeploy plugin
но у нас такой же есть и для питоновского кода =)
oozie + сгенерированный xml + hadoop yarn docker
указал в каком енве/image и как часто запускать надо, оно и полетело

одна команда

причем в качестве параметра как python скрипт, так и jupyter notebook (python/sparkmagic) можно указать
всё перевариваем

источник

01:26пожаловаться #2

Alex in Data Engineers

поэтому с “выкатили то что получилось написать” хорошо знаю

источник

01:26пожаловаться #3

ЕГ

Евгений Глотов in Data Engineers

вопрос только в соотношении объёмов кастомного кода и опенсорсного)

источник

01:27пожаловаться #4

Uncel Duk in Data Engineers

еще бы критео разродились своим сервисом для профайлера

источник

01:28пожаловаться #5

Uncel Duk in Data Engineers

oops или как он там

источник

01:28пожаловаться #6

ЕГ

Евгений Глотов in Data Engineers

Alex

@Unkledolan я там выше спрашивал уже, но все молчат

https://iceberg.incubator.apache.org/
никто еще не пробовал? а то что-то нетфликс регулярно пиярит

iceberg.incubator.apache.org

About - Apache Iceberg (incubating)

A table format for large, slow-moving tabular data

по описанию круто, надо будет проверить)

источник

01:35пожаловаться #7

Alex in Data Engineers

комитов не сильно много, ну и в issues тоже достаточно много всего
поэтому и интересны были отзывы

источник

01:36пожаловаться #8

ЕГ

Евгений Глотов in Data Engineers

ну, аксакалы бигдэйты поговаривают, что спарк в инкубаторе тоже через раз работал)

источник

01:37пожаловаться #9

Andrey Smirnov in Data Engineers

Евгений Глотов

с использованием gpu

deeplearning4j умеет в gpu, вот доклад будет в ближайшее время
https://bigdatadays.ru/ru/spark/

Big Data Days 2019

Spark - Big Data Days 2019

The talk would walk through the reasons for doing distributed Deep Learning of Python models in a JVM based environment and to productionalize this process.

источник

01:39пожаловаться #10

ЕГ

Евгений Глотов in Data Engineers

Andrey Smirnov

deeplearning4j умеет в gpu, вот доклад будет в ближайшее время
https://bigdatadays.ru/ru/spark/

Big Data Days 2019

Spark - Big Data Days 2019

The talk would walk through the reasons for doing distributed Deep Learning of Python models in a JVM based environment and to productionalize this process.

пару лет назад видел инфу про tensorflow-on-spark, но это всё было на уровне альфа-версий в каких-то репозиториях в гите, теперь, я так понял, по-нормальному допилили?)

источник

01:43пожаловаться #11

ЕГ

Евгений Глотов in Data Engineers

всё равно есть вещи, которые ну вот явно нескоро кто-то возьмётся запилить поверх спарка, и тут pandas udf решает вопрос применения модели, причём рабочий процесс ДСов вообще не затрагивается

источник

01:47пожаловаться #12

Alex in Data Engineers

Евгений Глотов

ну, аксакалы бигдэйты поговаривают, что спарк в инкубаторе тоже через раз работал)

Причём требовал специальной версии хадупа.

В то время yarn не было, а каждый map/reduce таск должен был выполниться в указанный промежуток времени, так что долгоиграющие драйвер и воркеры спарка не вписывались.

Был ещё какой то фреймворк на питоне, распределенный, в итоге питониста пальцем тыкали что их WordCount работает быстрее и Mr и спарка, и не требует тормозной jvm

источник

02:03пожаловаться #13

Alex in Data Engineers

Про то что хайв чекали скриптом по крону на select 1 и рестартили если что уже не говорю ;)

источник

02:04пожаловаться #14

ЕГ

Евгений Глотов in Data Engineers