Size: a a a

2020 January 14

R

Renarde in Data Engineers
Alex
@renardeinside Using Managed Keyed State

value, map, list, etc

плюс что-то ещё кроме памяти добавили только в spark 3.0
https://issues.apache.org/jira/browse/SPARK-28120
На данный момент стейт в спарке представлен в виде HDFS + memory. Можно написать свой коннектор к любой хранилке.
Есть опенсорсный стейт на роксе:


https://github.com/chermenin/spark-states/blob/master/README.md

Я сейчас пилю аналогичный под редис, но как-то времени нема 🤷‍♂️
источник

R

Renarde in Data Engineers
Моя недоделка на эту тему здесь:

https://github.com/renardeinside/redistate

Но там еще кучу всего надо допилить чтобы это было надежно
источник

R

Renarde in Data Engineers
Основная проблема использования стейта в 2.4.4 structured streaming - поскольку используется S3 как хранилка, там не совсем оптимальный формат и поэтому могут быть проблемы с eventual consistency + какой-нибудь реально большой стейт в пару терабайт будет работать очень медленно
источник

AS

Andrey Smirnov in Data Engineers
Renarde
Основная проблема использования стейта в 2.4.4 structured streaming - поскольку используется S3 как хранилка, там не совсем оптимальный формат и поэтому могут быть проблемы с eventual consistency + какой-нибудь реально большой стейт в пару терабайт будет работать очень медленно
но в редис это тоже не влезет :)
источник

R

Renarde in Data Engineers
Andrey Smirnov
но в редис это тоже не влезет :)
Просто я более-менее помню апишку редиса, решил сделать POC на ней, а потом перекатиться на Scylla или что-то такое
источник

AS

Andrey Smirnov in Data Engineers
Renarde
Просто я более-менее помню апишку редиса, решил сделать POC на ней, а потом перекатиться на Scylla или что-то такое
тогда ясно, спасибо за статью и исходники
источник

AP

Andrey Prokhorov in Data Engineers
Pavel
Что лучше: Минио или Цеф?
Минио проще, цеф готовить трудно очень, чтобы он много RPS выдавал на небольших файлах
источник

AY

Andrew Ya in Data Engineers
Коллеги, подскажите, пожалуйста, приходилось ли кому-либо вычитывать спарком через JDBC данные из DB2? Да так, чтобы при этом столбцы в DB2  именовались на кириллице.
источник

AE

Alexey Evdokimov in Data Engineers
кодировка бьётся?
источник

AY

Andrew Ya in Data Engineers
С кодировкой вроде норм, но когда драйвер дб2 кидается исключениями о том, что не может найти столбец с таким именем, в SQLERRMC к имени столбца упорно оказывается дописано ;N*,N*
источник

EN

Eldar Nezametdinov in Data Engineers
Кто-нибудь знает зачем убрали специализацию от Yandex на курсере
"Big Data for Big Data Engineers" ?
(была тут: https://www.coursera.org/specializations/big-data-engineering)
что-то новое готовится или ????
источник

T

T in Data Engineers
Eldar Nezametdinov
Кто-нибудь знает зачем убрали специализацию от Yandex на курсере
"Big Data for Big Data Engineers" ?
(была тут: https://www.coursera.org/specializations/big-data-engineering)
что-то новое готовится или ????
было письмо, что выложат новую версию
источник

Н

Никита in Data Engineers
а есть канал по спарку? хочу спросить по своей задачи
источник

EN

Eldar Nezametdinov in Data Engineers
T
было письмо, что выложат новую версию
найс) спасибо
источник

T

T in Data Engineers
Никита
а есть канал по спарку? хочу спросить по своей задачи
источник

АЖ

Андрей Жуков in Data Engineers
но, кажется, состав на 90% пересекается 🙂
источник

GP

Grigory Pomadchin in Data Engineers
Никита
а есть канал по спарку? хочу спросить по своей задачи
Вообще можно и тут; там я изначально думал больше митап сборище
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
а тут какраз спецы по флюму, спарку и сцилле сидят
источник

Н

Никита in Data Engineers
привет, у меня flume стримит в папку на hdfs, хочу отпроцессить эти данные и затирать то, что прочитал и писать в hive красиво, чтобы не плодить маленькие файлы.
вопрос: как читать файлы в sparke а потом их затирать? Как лучше делать это джобом или спарк стримингом?
Если писать малеьникими rdd через спарк стриминг в хайв, он их потом замерджит или будут маленькьие файлы?
источник