Телеграмм чат группы hadoopusers страница 1308

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 May 21

A

Artem in Data Engineers

без понятия. Меня пугает любая низкоуровневая магия, которая может сломаться. Чай не LVM snapshot, с которым все ясно. И еще -у вас же потребитель ХДФС явно не один?

Не совсем понял вопрос, кто есть потребитель? Данные из hdfs потом читают пользователи и сторонние системы

источник

10:08пожаловаться #1

GG

George Gaál in Data Engineers

вот смотри. Если restore == тормознуть все, то ты сделал даунтайм для "пользователи и сторонние системы"

источник

10:09пожаловаться #2

GG

George Gaál in Data Engineers

это вообще нормально, по-твоему?

источник

10:09пожаловаться #3

A

Artem in Data Engineers

вот смотри. Если restore == тормознуть все, то ты сделал даунтайм для "пользователи и сторонние системы"

Зависит от кейса) в нашем случае батч идёт ночью и съедает все ресурсы. И в это время доступ пользователям не нужен.

источник

10:12пожаловаться #4

GG

George Gaál in Data Engineers

ага. А потом кто-нибудь начинает синхронизироваться с hdfs в 3-00, потому что нагрузка минимальна...

источник

10:12пожаловаться #5

A

Artem in Data Engineers

ага. А потом кто-нибудь начинает синхронизироваться с hdfs в 3-00, потому что нагрузка минимальна...

Я тебя понял, но выбор тех решения сильно зависит от контекста. В любом случае лучше иметь snapshot и возможность откатиться в случае сбоя

источник

10:15пожаловаться #6

GG

George Gaál in Data Engineers

"выбор тех решения сильно зависит от контекста"

источник

10:16пожаловаться #7

GG

George Gaál in Data Engineers

соглашусь

источник

10:16пожаловаться #8

PG

Paul Golubev in Data Engineers

Всем привет. Решил глянуть на быстродействие парсинга фиас через пентаху stax блок и питон. Пробовал lxml iterparse, cElementTree, но все равно примерно в два раза медленнее. Есть методы на питоне быстрее?

источник

10:53пожаловаться #9

GG

George Gaál in Data Engineers

не парсить фиас на питоне? Задача какая?

источник

10:55пожаловаться #10

PG

Paul Golubev in Data Engineers

Сейчас просто интерес, чем быстрее можно спарсить

источник

10:59пожаловаться #11

PG

Paul Golubev in Data Engineers

И сложить в таблицу

источник

10:59пожаловаться #12

GG

George Gaál in Data Engineers

взять в CSV и грузануть в CH

источник

11:02пожаловаться #13

GG

George Gaál in Data Engineers

быстрее вряд ли будет :-/

источник

11:02пожаловаться #14

GG

George Gaál in Data Engineers

с lxml я по другому проекту уперся в то, что если данные в ХМЛ и их много, то очень быстро вылезаешь за пределы ОЗУ ———> тормоза

источник

11:02пожаловаться #15

PG

Paul Golubev in Data Engineers

Lxml позволяет очищать память, я с 20 Гб файлами не вылезал за 100мб ОЗУ

источник

11:03пожаловаться #16

PG

Paul Golubev in Data Engineers

Я может пропустил, фиас есть в CSV?

источник

11:04пожаловаться #17

GG

George Gaál in Data Engineers

ну, официально вероятно нет. Но есть прям жесткое требование тащить с https://fias.nalog.ru/Updates.aspx ?

источник

11:09пожаловаться #18

GG

George Gaál in Data Engineers

и еще - я отстал от жизни - там же вроде DBF еще есть (т.е. полный дубль данных в другом формате?)
теоретически он тоже должен побыстрее обрабатываться

источник

11:11пожаловаться #19

АЖ

Андрей Жуков in Data Engineers

и еще - я отстал от жизни - там же вроде DBF еще есть (т.е. полный дубль данных в другом формате?)
теоретически он тоже должен побыстрее обрабатываться

всю жизнь был, мы дбф еще в 2006 парсили 🙂

источник

11:49пожаловаться #20