Size: a a a

2019 June 05

РА

Рамиль Ахмадеев in Data Engineers
а хайпа сколько :)
источник

K

KrivdaTheTriewe in Data Engineers
источник

K

KrivdaTheTriewe in Data Engineers
ребят кто что использует для доступа в хдфс из питона?
источник

Ж

Жмака in Data Engineers
Установил в анаконда из канала conda forge confluent kafka а там нет AdminClient. Есть другой канал?
источник

Ж

Жмака in Data Engineers
KrivdaTheTriewe
ребят кто что использует для доступа в хдфс из питона?
Pyarrow
источник

Ж

Жмака in Data Engineers
Можно еще ibis framework но там все очень простенько
источник

OA

Oleg Alenkin in Data Engineers
Нубский вопрос, если в pyspark датафрейм сохранять df.write.parquet("path")- он ведь сохранит в hdfs?
источник

AZ

Anton Zadorozhniy in Data Engineers
Oleg Alenkin
Нубский вопрос, если в pyspark датафрейм сохранять df.write.parquet("path")- он ведь сохранит в hdfs?
Он сохранит туда какой путь в path
источник

AZ

Anton Zadorozhniy in Data Engineers
Может локально, в hdfs, в S3, все что умеет Hadoop IO
источник

m

mel kaye in Data Engineers
какие задачки можно порешать чтоб попрактиковатся в spark?
источник

MB

Mikhail Butalin in Data Engineers
George Gaál
Звучит круто, раньше не видел такой штуки
Сейчас пытаюсь балансер прикрутить. С haproxy не завёлся, теряет авторизацию. Пытаюсь через nginx.
источник

R

Renarde in Data Engineers
mel kaye
какие задачки можно порешать чтоб попрактиковатся в spark?
Смотря что хочется практиковать, Спарк то большой)
источник

m

mel kaye in Data Engineers
Renarde
Смотря что хочется практиковать, Спарк то большой)
у нас народ с ним работает в контексте биг даты, хотелось бы в этом направлении
источник

m

mel kaye in Data Engineers
плюс, мл я уже потрогал
источник

R

Renarde in Data Engineers
mel kaye
у нас народ с ним работает в контексте биг даты, хотелось бы в этом направлении
Ну тогда тебе нужно где то эту бигдату взять для начала, чтобы почувствовать все проблемки с ней.
Если стриминг хочется потрогать - можешь вот так читать Стрим с википедии, а дальше как хочешь развлекаться с ним
https://github.com/renardeinside/wikiflow
источник

AZ

Anton Zadorozhniy in Data Engineers
mel kaye
какие задачки можно порешать чтоб попрактиковатся в spark?
я даю слушателям задачи на основе tpc-h данных, твиттер стрима, правок википедии и ads-b стримов
источник

AZ

Anton Zadorozhniy in Data Engineers
но вопрос интересный, присоединяюсь
источник

R

Renarde in Data Engineers
Ещё как вариант читать с Oanda exchange rates и их красиво в бд раскладывать, а сверху над этим какое нибудь аналитическое приложение запилить
источник

m

mel kaye in Data Engineers
хмммм, мне бы просто идейку с пайплайном etl -> storage -> алгоритм на основе spark
источник

ЕГ

Евгений Глотов in Data Engineers
Попробуйте качнуть таблицу из реляционки
источник