Size: a a a

2019 May 21

A

Artem in Data Engineers
George Gaál
без понятия. Меня пугает любая низкоуровневая магия, которая может сломаться. Чай не LVM snapshot, с которым все ясно. И еще -у вас же потребитель ХДФС явно не один?
Не совсем понял вопрос, кто есть потребитель? Данные из hdfs потом читают пользователи и сторонние системы
источник

GG

George Gaál in Data Engineers
вот смотри. Если  restore == тормознуть все, то ты сделал даунтайм для "пользователи и сторонние системы"
источник

GG

George Gaál in Data Engineers
это вообще нормально, по-твоему?
источник

A

Artem in Data Engineers
George Gaál
вот смотри. Если  restore == тормознуть все, то ты сделал даунтайм для "пользователи и сторонние системы"
Зависит от кейса) в нашем случае батч идёт ночью и съедает все ресурсы. И в это время доступ пользователям не нужен.
источник

GG

George Gaál in Data Engineers
ага. А потом кто-нибудь начинает синхронизироваться с hdfs в 3-00, потому что нагрузка минимальна...
источник

A

Artem in Data Engineers
George Gaál
ага. А потом кто-нибудь начинает синхронизироваться с hdfs в 3-00, потому что нагрузка минимальна...
Я тебя понял, но выбор тех решения сильно зависит от контекста. В любом случае лучше иметь snapshot и возможность откатиться в случае сбоя
источник

GG

George Gaál in Data Engineers
"выбор тех решения сильно зависит от контекста"
источник

GG

George Gaál in Data Engineers
соглашусь
источник

PG

Paul Golubev in Data Engineers
Всем привет. Решил глянуть на быстродействие парсинга фиас через пентаху stax блок и питон. Пробовал lxml iterparse, cElementTree, но все равно примерно в два раза медленнее. Есть методы на питоне быстрее?
источник

GG

George Gaál in Data Engineers
не парсить фиас на питоне? Задача какая?
источник

PG

Paul Golubev in Data Engineers
Сейчас просто интерес, чем быстрее можно спарсить
источник

PG

Paul Golubev in Data Engineers
И сложить в таблицу
источник

GG

George Gaál in Data Engineers
взять в CSV и грузануть в CH
источник

GG

George Gaál in Data Engineers
быстрее вряд ли будет :-/
источник

GG

George Gaál in Data Engineers
с lxml я по другому проекту уперся в то, что если данные в ХМЛ и их много, то очень быстро вылезаешь за пределы ОЗУ ———> тормоза
источник

PG

Paul Golubev in Data Engineers
Lxml позволяет очищать память, я с 20 Гб файлами не вылезал за 100мб ОЗУ
источник

PG

Paul Golubev in Data Engineers
Я может пропустил, фиас есть в CSV?
источник

GG

George Gaál in Data Engineers
ну, официально вероятно нет. Но есть прям жесткое требование тащить с https://fias.nalog.ru/Updates.aspx ?
источник

GG

George Gaál in Data Engineers
и еще - я отстал от жизни - там же вроде DBF еще есть (т.е. полный дубль данных в другом формате?)
теоретически он тоже должен побыстрее обрабатываться
источник

АЖ

Андрей Жуков in Data Engineers
George Gaál
и еще - я отстал от жизни - там же вроде DBF еще есть (т.е. полный дубль данных в другом формате?)
теоретически он тоже должен побыстрее обрабатываться
всю жизнь был, мы дбф еще в 2006 парсили 🙂
источник