Телеграмм чат группы hadoopusers страница 3300

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2334 membersпожаловаться на группу

2021 March 01

AZ

Anton Zadorozhniy in Data Engineers

я про элиту в архитектурном смысле писал, понятно что человек, который спрашивает что такое ML врядли будет заниматься проектированием где нужно серьезно задумываться про big data vs many data

источник

17:53пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

я сам когда студентов и слушателей курсов учил - первым делом толкал телегу про "объем и номенклатуру", разница между machine generated data и business process automation

источник

17:54пожаловаться #2

AE

Alexey Evdokimov in Data Engineers

эх отлить бы эт дело в граните да и тыкать носом маленьких

источник

17:56пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Alexey Evdokimov

эх отлить бы эт дело в граните да и тыкать носом маленьких

вот, даже на русском, дарю

источник

18:06пожаловаться #4

AE

Alexey Evdokimov in Data Engineers

спасибо

источник

18:08пожаловаться #5

NN

No Name in Data Engineers

Anton Zadorozhniy

вот, даже на русском, дарю

А что есть номенклатура?

источник

18:14пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

А что есть номенклатура?

таблицы, колонки, источники, их количество

источник

18:16пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

там вообще телега про "сложность" (в смысле объема работ) проектов по даталейку и хранилищу, и что сложность зависит не столько от объема, сколько от номенклатуры

источник

18:21пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

это был совсем для новичков курс, в универе для магистров уже серьезней подход, мы смотрим на конкретные эстиматоры, всякие конкретные примеры как можно обжигаться на CDC, интеграции данных и всякое такое занудство

источник

18:24пожаловаться #9

AE

Alexey Evdokimov in Data Engineers

слушьте, товарищи. писал кто-нибудь на свежих диалектах ES?

я вон тут в порядке развлечения (а то чё-то устал сигналы по дорожной сети размазывать) решил немного фронта поделать, так у меня вьетнамский синдром. я уже лет 10 в JS не лазил, и ES8 сейчас мне жутко напоминает какой-нить котлин, и синтаксически, и по ощущениям

источник

18:24пожаловаться #10

AE

Alexey Evdokimov in Data Engineers

смотрю вот на эти дела типа let {a, ...rest} = arrayLike; и прям странно

источник

18:30пожаловаться #11

ЗН

Зашёл Накладку... in Data Engineers

Дайте пожалуйста ссылку на канал где собраны многие чаты по разным ЯП

источник

18:30пожаловаться #12

R

Royko Andriy in Data Engineers

Зашёл Накладку

Дайте пожалуйста ссылку на канал где собраны многие чаты по разным ЯП

источник

18:33пожаловаться #13

N

Nikita Blagodarnyy in Data Engineers

Граждане, кто-то ловил такое? Возникает при overwrite df c partitionOverwriteMode = dynamic. Я нагуглил, что это баг и он пофикшен в 3.0 версии, но фишка в том, что такая ошибка возникает при записи 1 конкретного датафрейма в 1 конкретный каталог. Ровно та же самая аппликуха на том же самом кластере другой датафрейм в другой каталог пишет без таких ошибок.

Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: /data/some_path/.spark-staging-bde11651-6ddc-4ec0-8a41-ec839ce4413f/_part_1=2021-01-10/_part_2=21/_part_3=45/part-00000-bde11651-6ddc-4ec0-8a41-ec839ce4413f.c000.snappy.parquet for client 10.0.0.10 already exists.

источник

19:03пожаловаться #14

A

Andrey in Data Engineers

Nikita Blagodarnyy

Граждане, кто-то ловил такое? Возникает при overwrite df c partitionOverwriteMode = dynamic. Я нагуглил, что это баг и он пофикшен в 3.0 версии, но фишка в том, что такая ошибка возникает при записи 1 конкретного датафрейма в 1 конкретный каталог. Ровно та же самая аппликуха на том же самом кластере другой датафрейм в другой каталог пишет без таких ошибок.

Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: /data/some_path/.spark-staging-bde11651-6ddc-4ec0-8a41-ec839ce4413f/_part_1=2021-01-10/_part_2=21/_part_3=45/part-00000-bde11651-6ddc-4ec0-8a41-ec839ce4413f.c000.snappy.parquet for client 10.0.0.10 already exists.

какой mode стоит? append, overwrite, ignore?

источник

19:28пожаловаться #15

N

Nikita Blagodarnyy in Data Engineers

Andrey

какой mode стоит? append, overwrite, ignore?

overwrite.

источник

19:35пожаловаться #16

ЗН

Зашёл Накладку... in Data Engineers

Спасибо ь

источник

19:37пожаловаться #17

N

Nikita Blagodarnyy in Data Engineers

Nikita Blagodarnyy

Граждане, кто-то ловил такое? Возникает при overwrite df c partitionOverwriteMode = dynamic. Я нагуглил, что это баг и он пофикшен в 3.0 версии, но фишка в том, что такая ошибка возникает при записи 1 конкретного датафрейма в 1 конкретный каталог. Ровно та же самая аппликуха на том же самом кластере другой датафрейм в другой каталог пишет без таких ошибок.

Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: /data/some_path/.spark-staging-bde11651-6ddc-4ec0-8a41-ec839ce4413f/_part_1=2021-01-10/_part_2=21/_part_3=45/part-00000-bde11651-6ddc-4ec0-8a41-ec839ce4413f.c000.snappy.parquet for client 10.0.0.10 already exists.

реально рядом работает еще 3 таких же сабмита, которые тем же самым кодом пишут другие df в /data/some_path_XX и не валятся.

источник

19:38пожаловаться #18

2021 March 02

RY

Ruslan515 Y in Data Engineers

Всем добрый день. Хочу услышать ваше мнение и жду ссылки на статьи😁. В данный момент используем cassandra для хранения данных (для построения отчетности я выгружают необходимые таблицы за весь временной промежуток на комп и произвожу манипуляции в питоне, минус в том, что эти таблицы по нескольку часов выгружаются). Так же используем связку Elasticksearc+Kibana для оперативной отчетности, но данные не за весь период хранения. Хотим перенести нашу БД (некоторые таблицы содержат по 10М записей) на Greenplum или Clickhouse. Вопросы: 1. куда лучше перенести? 2. нужно ли изменять структуру БД (добавлять какие-нибудь данные, менять отношения - вместо 1 к 1 менять 1 ко многим)? 3. исходя из чего выбрать промежуток для записи данных? 4. как перелить данные(spark или еще что то использовать, может самим написать)? Буду рад любым идеям и замечаниям😁

источник

09:44пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

Всем добрый день. Хочу услышать ваше мнение и жду ссылки на статьи😁. В данный момент используем cassandra для хранения данных (для построения отчетности я выгружают необходимые таблицы за весь временной промежуток на комп и произвожу манипуляции в питоне, минус в том, что эти таблицы по нескольку часов выгружаются). Так же используем связку Elasticksearc+Kibana для оперативной отчетности, но данные не за весь период хранения. Хотим перенести нашу БД (некоторые таблицы содержат по 10М записей) на Greenplum или Clickhouse. Вопросы: 1. куда лучше перенести? 2. нужно ли изменять структуру БД (добавлять какие-нибудь данные, менять отношения - вместо 1 к 1 менять 1 ко многим)? 3. исходя из чего выбрать промежуток для записи данных? 4. как перелить данные(spark или еще что то использовать, может самим написать)? Буду рад любым идеям и замечаниям😁

10М это же 10 миллиардов?

источник

10:26пожаловаться #20