Телеграмм чат группы moscowspark страница 946

Если у вас упал спарк в момент формирования новых файлов, то просто удаляете файлы в _temp и все, спарк их и так не читает, но смущать никого не будет

Если у вас приложение упало в момент move и удаления старых данных, то тут уже печаль, ролбека нету

источник

13:44пожаловаться #11

Рамик in Moscow Spark

Да, спасибо, печаль походу
Я предполагал, что я потерял 1 реплику , и надеялся что можно как-то по 2 другим как-то восстановить данные

источник

13:47пожаловаться #12

РП

Роман Пашкевич... in Moscow Spark

@xhumanoid @KaiNie_R
Спасибо за инфу про "соление" данных.
Остановились на 25 субпартициях.
Делюсь результатом.
Вместо 2-4 часов, стало собираться за 20-25 минут.

источник

13:47пожаловаться #13

РП

Роман Пашкевич... in Moscow Spark

image_2021-12-20_13-47-57.png

(16.19 Кб)

источник

13:47пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

Нет, это не undo и не redo. Если такое хочется, надо делать самостоятельно или брать библиотеку типа дельты

источник

13:57пожаловаться #15

Рамик in Moscow Spark

Спасибо , уже порекомендовали выше delta lake

источник

14:01пожаловаться #16

ИК

Иван Калининский... in Moscow Spark

Iceberg, hudi как варианты.
И ещё, так как это hdfs, есть hdfs snapshots:
https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html

источник

14:04пожаловаться #17

2021 December 22

R in Moscow Spark

Reported for spam

источник

11:18пожаловаться #18

АА

Артем Анистратов... in Moscow Spark

Всем привет! Могли бы подсказать:
Пытаюсь прочитать данные из кафки с помощью readstream, читаю с earliest офсетов. Однако я не хочу читать все данные из кафки, а лишь часть. Каким образом можно «убить» этот стрим?

На writeStream для записи данных из кафки поставил таймаут 30 секунд, однако writeStream после 30 секунд останавливается, а чтение продолжается.

источник

15:04пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

Батчом можно считать из кафки

источник

15:23пожаловаться #20