Size: a a a

2021 October 06

N

Nikita Blagodarnyy in Moscow Spark
куда отправлялось?
источник

ДА

Денис Ананьев... in Moscow Spark
ну в кафку например пишется стрим
источник

N

Nikita Blagodarnyy in Moscow Spark
из каунтов событий временного окна?
источник

ДА

Денис Ананьев... in Moscow Spark
ага
источник

N

Nikita Blagodarnyy in Moscow Spark
Ну каунт по пустому дф же вернет 0, посылайте его в кафку
источник

ДА

Денис Ананьев... in Moscow Spark
там не совсем пустой дф. группировка идёт по айди и по окну. в какой-то момент события для айдишника X перестают приходить в некотором окне и по идее он должен пропасть из стейта. в этот момент хочется, чтобы для таких айдишников отправлялся ивент с 0
источник

АК

Алексей Кочерев... in Moscow Spark
Всем привет!) Помню тут было обсуждение о том, как изменить размер файлов в партишене, и что был разговор о том, что нельзя сразу угадать размер партишена, чтобы рассчитать размер файлов заранее. И был вариант писать в во временный партишен, чтобы узнать размер и потом уже считать размер файлов. Сейчас у меня проблема в том, что в партишене имеем много файлов 300-600кб, и надо сократить количество файлов). Подскажите были ли ещё какие то варианты решения проблемы, может в спарк 3?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно сделать repartition(part_col)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Будет 1 файл в папке)
источник

АК

Алексей Кочерев... in Moscow Spark
ну так тоже бы не хотелось, было бы нормально иметь файлы размером стандартного блока)
источник

АК

Алексей Кочерев... in Moscow Spark
и вроде как было что то из настроек spark submit-а в 3-ем спарке, но может я уже выдумал себе это)
источник

AE

Anastasiya Esiunina in Moscow Spark
источник

АК

Алексей Кочерев... in Moscow Spark
гляну, спасибо☺️
источник
2021 October 07

PK

Pavel Klemenkov in Moscow Spark
Переслано от Anna Kurilo
Программа конференции для дата-инженеров SmartData 2021 готова!Программа конференции для дата-инженеров SmartData 2021 готова!SmartData 2021 готова!

11-14 октября вас будут ждать 33 доклада и 2 воркшопа, которые помогут пополнить арсенал инструментов, узнать о лучших практиках и сориентироваться в трендовых технологиях.

Темы конференции:
✔ Tooling: все об инструментах, которые используют в дата-инжиниринге;
Spark: штука настолько востребованная, что о ней будет сразу три доклада;
Processes: как организовать работу и процессы в команде;
Storage: базы данных, SQL-движки и многое другое;
Architecture: доклады об архитектуре и опыте работы с ней разных команд;
Industry usecases: реальный опыт, боль, успехи и провалы коллег.
Кроме докладов и воркшопов, вас будут ждать дискуссионные зоны, возможность вернуться к записям докладов, розыгрыши и много других приятных плюшек.

Специально для нашего чата организаторы сделали промокод dataengineers2021JUGRUpc, который дает скидку на Personal Standard билет.

Заходите на сайт конференции за подробностями и билетами.
источник

А

Алексей in Moscow Spark
привет, подскажите, у spark-submit есть возможность в conf передать чтото свое —conf test=123? или только параметрами после класса?
источник

GP

Grigory Pomadchin in Moscow Spark
можно, мне кажется оно spark неймспейсом ограничивается только
источник

ПФ

Паша Финкельштейн... in Moscow Spark
можно всякое прокидывать, да, не только параметрами
источник

GP

Grigory Pomadchin in Moscow Spark
spark.test
источник

ЕГ

Евгений Глотов... in Moscow Spark
Он скажет типа чё вы мне подсунули, но работать будет
источник

GP

Grigory Pomadchin in Moscow Spark
лушче отдельно конечно аргументы приложухи сетить)
источник