Телеграмм чат группы hadoopusers страница 1958

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1709 membersпожаловаться на группу

2020 January 14

R

Renarde in Data Engineers

@renardeinside Using Managed Keyed State

value, map, list, etc

плюс что-то ещё кроме памяти добавили только в spark 3.0
https://issues.apache.org/jira/browse/SPARK-28120

На данный момент стейт в спарке представлен в виде HDFS + memory. Можно написать свой коннектор к любой хранилке.
Есть опенсорсный стейт на роксе:

https://github.com/chermenin/spark-states/blob/master/README.md

Я сейчас пилю аналогичный под редис, но как-то времени нема 🤷‍♂️

chermenin/spark-states

Custom state store providers for Apache Spark. Contribute to chermenin/spark-states development by creating an account on GitHub.

источник

13:09пожаловаться #1

R

Renarde in Data Engineers

Моя недоделка на эту тему здесь:

https://github.com/renardeinside/redistate

Но там еще кучу всего надо допилить чтобы это было надежно

renardeinside/redistate

Redis State Store Provider for Spark Structured Streaming - renardeinside/redistate

источник

13:12пожаловаться #2

R

Renarde in Data Engineers

Основная проблема использования стейта в 2.4.4 structured streaming - поскольку используется S3 как хранилка, там не совсем оптимальный формат и поэтому могут быть проблемы с eventual consistency + какой-нибудь реально большой стейт в пару терабайт будет работать очень медленно

источник

13:14пожаловаться #3

AS

Andrey Smirnov in Data Engineers

Основная проблема использования стейта в 2.4.4 structured streaming - поскольку используется S3 как хранилка, там не совсем оптимальный формат и поэтому могут быть проблемы с eventual consistency + какой-нибудь реально большой стейт в пару терабайт будет работать очень медленно

но в редис это тоже не влезет :)

источник

13:51пожаловаться #4

R

Renarde in Data Engineers

но в редис это тоже не влезет :)

Просто я более-менее помню апишку редиса, решил сделать POC на ней, а потом перекатиться на Scylla или что-то такое

источник

13:58пожаловаться #5

AS

Andrey Smirnov in Data Engineers

Просто я более-менее помню апишку редиса, решил сделать POC на ней, а потом перекатиться на Scylla или что-то такое

тогда ясно, спасибо за статью и исходники

источник

14:15пожаловаться #6

AP

Andrey Prokhorov in Data Engineers

Что лучше: Минио или Цеф?

Минио проще, цеф готовить трудно очень, чтобы он много RPS выдавал на небольших файлах

источник

15:06пожаловаться #7

AY

Andrew Ya in Data Engineers

Коллеги, подскажите, пожалуйста, приходилось ли кому-либо вычитывать спарком через JDBC данные из DB2? Да так, чтобы при этом столбцы в DB2 именовались на кириллице.

источник

16:24пожаловаться #8

AE

Alexey Evdokimov in Data Engineers

кодировка бьётся?

источник

16:33пожаловаться #9

AY

Andrew Ya in Data Engineers

С кодировкой вроде норм, но когда драйвер дб2 кидается исключениями о том, что не может найти столбец с таким именем, в SQLERRMC к имени столбца упорно оказывается дописано ;N*,N*

источник

16:37пожаловаться #10

EN

Eldar Nezametdinov in Data Engineers

Кто-нибудь знает зачем убрали специализацию от Yandex на курсере
"Big Data for Big Data Engineers" ?
(была тут: https://www.coursera.org/specializations/big-data-engineering)
что-то новое готовится или ????

источник

17:23пожаловаться #11

T

T in Data Engineers

Eldar Nezametdinov

Кто-нибудь знает зачем убрали специализацию от Yandex на курсере
"Big Data for Big Data Engineers" ?
(была тут: https://www.coursera.org/specializations/big-data-engineering)
что-то новое готовится или ????

было письмо, что выложат новую версию

источник

17:24пожаловаться #12

Н

Никита in Data Engineers

а есть канал по спарку? хочу спросить по своей задачи

источник

17:24пожаловаться #13

EN

Eldar Nezametdinov in Data Engineers

было письмо, что выложат новую версию

найс) спасибо

источник

17:24пожаловаться #14

T

T in Data Engineers

а есть канал по спарку? хочу спросить по своей задачи

источник

17:24пожаловаться #15

АЖ

Андрей Жуков in Data Engineers

но, кажется, состав на 90% пересекается 🙂

источник

17:25пожаловаться #16

GP

Grigory Pomadchin in Data Engineers

а есть канал по спарку? хочу спросить по своей задачи

Вообще можно и тут; там я изначально думал больше митап сборище

источник

17:37пожаловаться #17

GP

Grigory Pomadchin in Data Engineers

источник

17:37пожаловаться #18

GP

Grigory Pomadchin in Data Engineers

а тут какраз спецы по флюму, спарку и сцилле сидят

источник

17:37пожаловаться #19

Н

Никита in Data Engineers

привет, у меня flume стримит в папку на hdfs, хочу отпроцессить эти данные и затирать то, что прочитал и писать в hive красиво, чтобы не плодить маленькие файлы.
вопрос: как читать файлы в sparke а потом их затирать? Как лучше делать это джобом или спарк стримингом?
Если писать малеьникими rdd через спарк стриминг в хайв, он их потом замерджит или будут маленькьие файлы?

источник

17:37пожаловаться #20