Size: a a a

2019 October 05

UD

Uncel Duk in Data Engineers
источник

A

Alex in Data Engineers
Евгений Глотов
можно выкатить то, что получилось напилить, за несколько дней, с падением производительности в 2 раза
я выше писал про spakdeploy plugin
но у нас такой же есть и для питоновского кода =)
oozie + сгенерированный xml + hadoop yarn docker
указал в каком енве/image и как часто запускать надо, оно и полетело

одна команда

причем в качестве параметра как python скрипт, так и jupyter notebook (python/sparkmagic) можно указать
всё перевариваем
источник

A

Alex in Data Engineers
поэтому с “выкатили то что получилось написать” хорошо знаю
источник

ЕГ

Евгений Глотов in Data Engineers
вопрос только в соотношении объёмов кастомного кода и опенсорсного)
источник

UD

Uncel Duk in Data Engineers
еще бы критео разродились своим сервисом для профайлера
источник

UD

Uncel Duk in Data Engineers
oops или как он там
источник

ЕГ

Евгений Глотов in Data Engineers
Alex
@Unkledolan я там выше спрашивал уже, но все молчат

https://iceberg.incubator.apache.org/
никто еще не пробовал? а то что-то нетфликс регулярно пиярит
по описанию круто, надо будет проверить)
источник

A

Alex in Data Engineers
комитов не сильно много, ну и в issues тоже достаточно много всего
поэтому и интересны были отзывы
источник

ЕГ

Евгений Глотов in Data Engineers
ну, аксакалы бигдэйты поговаривают, что спарк в инкубаторе тоже через раз работал)
источник

AS

Andrey Smirnov in Data Engineers
Евгений Глотов
с использованием gpu
deeplearning4j умеет в gpu, вот доклад будет в ближайшее время
https://bigdatadays.ru/ru/spark/
источник

ЕГ

Евгений Глотов in Data Engineers
пару лет назад видел инфу про tensorflow-on-spark, но это всё было на уровне альфа-версий в каких-то репозиториях в гите, теперь, я так понял, по-нормальному допилили?)
источник

ЕГ

Евгений Глотов in Data Engineers
всё равно есть вещи, которые ну вот явно нескоро кто-то возьмётся запилить поверх спарка, и тут pandas udf решает вопрос применения модели, причём рабочий процесс ДСов вообще не затрагивается
источник

A

Alex in Data Engineers
Евгений Глотов
ну, аксакалы бигдэйты поговаривают, что спарк в инкубаторе тоже через раз работал)
Причём требовал специальной версии хадупа.

В то время yarn не было, а каждый map/reduce таск должен был выполниться в указанный промежуток времени, так что долгоиграющие драйвер и воркеры спарка не вписывались.

Был ещё какой то фреймворк на питоне, распределенный, в итоге питониста пальцем тыкали что их WordCount работает быстрее и Mr и спарка, и не требует тормозной jvm
источник

A

Alex in Data Engineers
Про то что хайв чекали скриптом по крону на select 1 и рестартили если что уже не говорю ;)
источник

ЕГ

Евгений Глотов in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Евгений Глотов
можно конечно упороться и написать всё на чистом си, используя MPI, но вы поседеете, а проект так и не сдадите)
Почему это быстрее будет?
источник

GP

Grigory Pomadchin in Data Engineers
В любом случае надо копировать из памяти в память
источник

GP

Grigory Pomadchin in Data Engineers
минимизация (де) сериализаций то что надо
источник

ЕГ

Евгений Глотов in Data Engineers
Да, я имел в виду, что сериализации нет
источник

ЕГ

Евгений Глотов in Data Engineers
А вот что копирование есть, не думал об этом
источник