Size: a a a

2020 December 28

N

Nikita Blagodarnyy in Data Engineers
Nikita Blagodarnyy
там долго. и денюшку надо донатить. newprolab тоже +- топчик.
по крайней мере маркетингового булшита и питонолячканья минимум.
источник

AZ

Anton Zadorozhniy in Data Engineers
веду студентов оффлайново из местного сантиметростроительного, это вся предподская работа на которую меня хватает :(
источник

N

Nikita Blagodarnyy in Data Engineers
Alexander
Погляжу👍
даже скала для самых маленьких есть 2 топиков.
источник

N

Nikita Blagodarnyy in Data Engineers
А на жабке там никто не учился? Тоже дендрофекально или норм?
источник

SS

Sergey Shushkov in Data Engineers
Nikita Blagodarnyy
А на жабке там никто не учился? Тоже дендрофекально или норм?
Ну перекатовальщики джуны после них такие себе были
источник
2020 December 29

IS

Igor Sam in Data Engineers
Anton Zadorozhniy
выступал
Я на первом потоке там был. Твои занятия были лучшими! Спасибо огромное 👍 Жаль, что не преподаешь там больше.
источник

f

flash in Data Engineers
Big Data vs Data #Science: The 15 Differences To Know


https://reconshell.com/big-data-vs-data-science/
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, а можете на пальцах объяснить когдакак) spark structured streaming задание вычитывает полный/compact-файл от FileStreamSinkLog (которые падают в _spark_metadata) ?
я хочу проверить будет ли в каких-то граничных ситуациях падать пишущая в HDFS стриминг-джоба если сделана компакция файлов в какой-нибудь саб-директории
источник

SS

Sergey Shushkov in Data Engineers
Sergey Sheremeta
коллеги, а можете на пальцах объяснить когдакак) spark structured streaming задание вычитывает полный/compact-файл от FileStreamSinkLog (которые падают в _spark_metadata) ?
я хочу проверить будет ли в каких-то граничных ситуациях падать пишущая в HDFS стриминг-джоба если сделана компакция файлов в какой-нибудь саб-директории
Этож просто лог файлов по батчам. Компакт он вроде может вычитать только при мердже в следующий компакт, а до этого они ему и не нужны впринцепи. Падать  будет если не будет видеть его при попытке мерджа в новый компакт файл.
источник

SS

Sergey Sheremeta in Data Engineers
Sergey Shushkov
Этож просто лог файлов по батчам. Компакт он вроде может вычитать только при мердже в следующий компакт, а до этого они ему и не нужны впринцепи. Падать  будет если не будет видеть его при попытке мерджа в новый компакт файл.
то есть стриминговая джоба вообще не проверяет при записи в инкрементальные WAL-файлы или при компакции инкрементальных WAL-файлов в compact-файл соответствие содержимого этого файла реальному состоянию файловой системы?
источник

SS

Sergey Sheremeta in Data Engineers
compact-файл и инкрементальные файлы используются для реального сканирования файлововой системы только если есть downstream-джоба, подписанная на этот HDFS-каталог, верно?
источник

SS

Sergey Shushkov in Data Engineers
Так а как она проверит если по сути это уже записанные батчи этих файлов физически уже нет?
источник

SS

Sergey Sheremeta in Data Engineers
мои действия:
1) создан и запущен Spark Structured Streaming джоб, который пишет в каталог «/data/bronze/load_dt=YYYY-MM-DD/load_hh=NN»
2) я хочу регулярно (ночью) компактить позавчерашние партиции/субпартиции (проблема мелких файлов)
3) если я прогоню компакцию над каталогом «/data/bronze/load_dt=2020-12-27» и его подкаталогами, то содержимое в них перестанет соответствовать записям в Write-Ahead-Log-файлах внутри «/data/bronze/_spark_metadata»
4) как минимум я не смогу сделать
spark.read.parquet(«/data/bronze»)
потому что будет вычитываться список файлов для чтения из WAL внутри «_spark_metadata»
на это мне пофиг…

я хочу убедиться, что кроме чтения прочие операции (хаускипинг, восстановления при сбоях) не будут падать
источник

SS

Sergey Sheremeta in Data Engineers
пока склоняюсь к варианту вообще выключить WAL в  «_spark_metadata»
источник

SS

Sergey Shushkov in Data Engineers
При чтение паркета он вал логи читать никоем образом не будет. Компактить в таком случае лучше уже постфактум когда окно ушло за дату компакта.
источник

SS

Sergey Shushkov in Data Engineers
Ну и для стриминг джобы настроить необходимое кол-во партиций для записи :)
источник
2020 December 30

JM

J M in Data Engineers
Looker у кого есть экспириенс?
источник

AK

Artemiy Kzr in Data Engineers
J M
Looker у кого есть экспириенс?
У меня
источник

JM

J M in Data Engineers
Artemiy Kzr
У меня
На что сажаем? Если вот на Redshift, то query performance как?
источник

AK

Artemiy Kzr in Data Engineers
На Редшифт, да. Всё отлично.
Просто в Редшифт витрины причесаны
источник