Size: a a a

2021 December 20

Р

Рамик in Moscow Spark
в том то и дело, спарк не успел сделать move , а апп упал . И я вот спрашиваю , можно ли как-то вернуть  состояние до перезаписи паркета ?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Их не нужно откатывать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если правильно настроить аутпуткоммиттер, то он не будет удалять данные, пока не записал новые полностью
источник

ЕГ

Евгений Глотов... in Moscow Spark
А вообще если это сильно критично, то делают две партиции и подмену партиции
источник

ЕГ

Евгений Глотов... in Moscow Spark
Доверять такое спарку не стоит, он под это не заточен
источник

Р

Рамик in Moscow Spark
я даже не смогу hdfs- реплики заполучить ?
источник

A

Alex in Moscow Spark
Что вы под этим подразумеваете?
источник

k

kvadratura in Moscow Spark
честно говоря, я все еще не понял, какую именно проблему пытаемся решить. перезапустить app и все,
источник

k

kvadratura in Moscow Spark
если, конечно, там нечего фикситт
источник

k

kvadratura in Moscow Spark
и упало по внешним причинам
источник

A

Alex in Moscow Spark
Если у вас упал спарк в момент формирования новых файлов, то просто удаляете файлы в _temp и все, спарк их и так не читает, но смущать никого не будет

Если у вас приложение упало в момент move и удаления старых данных, то тут уже печаль, ролбека нету
источник

Р

Рамик in Moscow Spark
Да, спасибо, печаль походу
Я предполагал, что я потерял 1 реплику , и надеялся что можно как-то по 2 другим как-то восстановить данные
источник

РП

Роман Пашкевич... in Moscow Spark
@xhumanoid @KaiNie_R
Спасибо за инфу про "соление" данных.
Остановились на 25 субпартициях.
Делюсь результатом.
Вместо 2-4 часов, стало собираться за 20-25 минут.
источник

РП

Роман Пашкевич... in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
Нет, это не undo и не redo. Если такое хочется, надо делать самостоятельно или брать библиотеку типа дельты
источник

Р

Рамик in Moscow Spark
Спасибо , уже порекомендовали выше delta lake
источник

ИК

Иван Калининский... in Moscow Spark
Iceberg, hudi как варианты.
И ещё, так как это hdfs, есть hdfs snapshots:
https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html
источник
2021 December 22

R

R in Moscow Spark
Reported for spam
источник

АА

Артем Анистратов... in Moscow Spark
Всем привет! Могли бы подсказать:
Пытаюсь прочитать данные из кафки с помощью readstream, читаю с earliest офсетов. Однако я не хочу читать все данные из кафки, а лишь часть. Каким образом можно «убить» этот стрим?

На writeStream для записи данных из кафки поставил таймаут 30 секунд, однако writeStream после 30 секунд останавливается, а чтение продолжается.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Батчом можно считать из кафки
источник