Телеграмм чат группы hadoopusers страница 2214

2020 April 06

AB

Andrey Bel in Data Engineers

скала питон

источник

10:59пожаловаться #1

G

George in Data Engineers

Полина

Здравствуйте.
Я только начала разбираться с Hadoop и у меня есть вопрос по поводу типов данных для MapReduce. Мне нужно в качестве входных данных направить mapper'у кортеж, подскажите какой тип данных для этого нужно указывать? Я пишу на Java.

Object[]?

источник

10:59пожаловаться #2

AB

Andrey Bel in Data Engineers

ну это мое мнение

источник

10:59пожаловаться #3

A

Alex in Data Engineers

Andrey Bel

скала питон

Хорошая шутка :) особенно в контексте что на скале только спарк, но и у него все критикал к перфомансу части на java и тангстен генерит java код в рантайме

Всё остальное это java java java......

источник

11:00пожаловаться #4

K

KrivdaTheTriewe in Data Engineers

Alex

Хорошая шутка :) особенно в контексте что на скале только спарк, но и у него все критикал к перфомансу части на java и тангстен генерит java код в рантайме

Всё остальное это java java java......

Какие части критические у него на джаве?

источник

11:00пожаловаться #5

A

Alex in Data Engineers

Откройте нетворк и шафл части

M

Хорошая шутка :) особенно в контексте что на скале только спарк, но и у него все критикал к перфомансу части на java и тангстен генерит java код в рантайме

Всё остальное это java java java......

ну это скорее всего мнение не дата инженера, а дата саентиста или аналитика

источник

11:01пожаловаться #7

G

George in Data Engineers

Полина

Здравствуйте.
Я только начала разбираться с Hadoop и у меня есть вопрос по поводу типов данных для MapReduce. Мне нужно в качестве входных данных направить mapper'у кортеж, подскажите какой тип данных для этого нужно указывать? Я пишу на Java.

Гугли "Hadoop mapper tuple Java", где-то там будет конкретный ответ

источник

11:01пожаловаться #8

DZ

Dmitry Zuev in Data Engineers

Alex

Хорошая шутка :) особенно в контексте что на скале только спарк, но и у него все критикал к перфомансу части на java и тангстен генерит java код в рантайме

Всё остальное это java java java......

часто приходится читать оутпут кодгена?

источник

11:02пожаловаться #9

A

Alex in Data Engineers

Mi

ну это скорее всего мнение не дата инженера, а дата саентиста или аналитика

С этим согласен, если ты только на высоком прикладной уровне, то да, питон и скала, если нужно спускаться ниже и работать с кодом самих продуктов то другое мнение

источник

11:02пожаловаться #10

A

Alex in Data Engineers

Dmitry Zuev

часто приходится читать оутпут кодгена?

Кодегена не часто, но сорцы спарка регулярно

источник

11:02пожаловаться #11

DZ

Dmitry Zuev in Data Engineers

Alex

Кодегена не часто, но сорцы спарка регулярно

и где же там столько джавы?

источник

11:03пожаловаться #12

П

Полина in Data Engineers

George

Гугли "Hadoop mapper tuple Java", где-то там будет конкретный ответ

Спасибо. Сейчас гляну

источник

11:05пожаловаться #13

A

Alex in Data Engineers

Класлоадер (так как скала в пару вещей не умеет), сеть нетти и вся его обвязка, в некоторых других местах

Но в самом спарке скала конечно основной язык

Но это как таковое единственный продукт в бигдата со скалой, hive/hbase/hadoop/druid/pinot и тд все на java

Kafka почти весь новый код на java, скала осталась на уровне оркестрации, но количество его снижается

Flink как и в спарке скалы много в коре части (внутри акку гоняют), но стоят таски сделать все апи scala free

источник

11:06пожаловаться #14

AE

Alexey Evdokimov in Data Engineers

сорцы спарка читать то ещё удовольствие, эт точно.

источник

11:07пожаловаться #15

DM

Daniel Matveev in Data Engineers

читать сорцы всего перечисленного так себе

пойду выпиливать скалу из велью сервисов, парни в чате сказали так делать не надо

источник

11:08пожаловаться #16