Телеграмм чат группы hadoopusers страница 3327

2021 March 05

A

Aleksandr in Data Engineers

и почему оно может всплывать и не всплывать от запуска к запуску?

источник

14:41пожаловаться #1

AS

Andrey Smirnov in Data Engineers

Aleksandr

и почему оно может всплывать и не всплывать от запуска к запуску?

может у вас там гдето if, и он идет по одной или по другой ветке

источник

14:41пожаловаться #2

GP

Grigory Pomadchin in Data Engineers

🚨ГОТОВЬТЕСЬ!🚨
И не говорите, что мы вас не предупреждали.

Уже 10 марта стартует флагманский онлайн-курс
"Data Engineer 8.0". Присоединяйтесь: https://clck.ru/TXLLN

🧑🏻‍💻Приглашаем дата инженеров, администраторов баз данных и менеджеров по развитию продуктов систематизировать свои знания и овладеть новыми востребованными навыками в области дата инжиниринга.

7-недельная образовательная программа по построению ETL-пайплайнов: Hadoop, Kafka, Spark, Airflow, ElasticSearch и пр:
✔️21 практическое занятие;
✔️10+ современных инструментов по обработке данных;
✔️6 лабораторий-суперавчиков.

Обучают: Антон Пилипенко (Sbermarket), Николай Марков (Aligned Research Group), Андрей Титов (NVIDIA) и Егор Матешук (Qvant),

Преподаватели, не нуждающиеся в дополнительном представлении. Они поделятся с вами своим бесценным опытом, датасетами из реальной жизни и помогут обойти многие подводные камни.

источник

14:44пожаловаться #3

А

Алексей in Data Engineers

Anton Zadorozhniy

Свою приложеньку ещё имеет смысл писать если вы хотите батчевую логику; в open source не осталось батчевых выгружалок из Кафки вроде бы

спарк стриминг может работать как стрим, а может как батч:

spark.read.format("kafka") //батчами с метки и до конца
spark.readStream.format("kafka") //стримом

- или это не то?

источник

15:05пожаловаться #4

А

Алексей in Data Engineers

а или что офсет нужно самому хранить так?

источник

15:07пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Алексей

спарк стриминг может работать как стрим, а может как батч:

spark.read.format("kafka") //батчами с метки и до конца
spark.readStream.format("kafka") //стримом

- или это не то?

может, мы говорили приложения для просто логистики данных, держать спарк кластер просто чтобы иногда положить данные из кафки в S3 - для некоторых может показаться оверхедом

источник

15:07пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

(особенно если в экосистеме спарка вообще нет)

источник

15:07пожаловаться #7

P

Pavel in Data Engineers

Алексей

а или что офсет нужно самому хранить так?

Кстати, есть неплохой паттерн по организации хранения данных - писать оффсет последней записи во вставляемом батче, писать прям рядом с данными + в отдельную табличку (или файл, пох). При записи это поможет сделать гарантию однократной вставки данных🙂

источник

15:12пожаловаться #8

I

Igor Master in Data Engineers

Pavel

Кстати, есть неплохой паттерн по организации хранения данных - писать оффсет последней записи во вставляемом батче, писать прям рядом с данными + в отдельную табличку (или файл, пох). При записи это поможет сделать гарантию однократной вставки данных🙂

Это если это в одной транзакции писать

источник

15:12пожаловаться #9

P

Pavel in Data Engineers

Может есть какое-нибудь хитровыебанное название такого подхода

источник

15:13пожаловаться #10

I

Igor Master in Data Engineers

Это на самом деле прямо в документации к кафке написано. Иначе будут либо дубликаты либо недосланные ивенты

источник

15:13пожаловаться #11

P

Pavel in Data Engineers

Igor Master

Это если это в одной транзакции писать

Нет. Это даже при записи в клик можно сделать

источник

15:13пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

Pavel

Кстати, есть неплохой паттерн по организации хранения данных - писать оффсет последней записи во вставляемом батче, писать прям рядом с данными + в отдельную табличку (или файл, пох). При записи это поможет сделать гарантию однократной вставки данных🙂

У нас так делает наш грузчик данных из стандартного набора утилит (он пишет в файл пары партиция-оффсет на котором закончил), но он на плюсах и либрдкафка, с авро схемами не умеет работать поэтому не всем подходит

источник

15:17пожаловаться #13

P

Pavel in Data Engineers

Anton Zadorozhniy

У нас так делает наш грузчик данных из стандартного набора утилит (он пишет в файл пары партиция-оффсет на котором закончил), но он на плюсах и либрдкафка, с авро схемами не умеет работать поэтому не всем подходит

Трешугаррасчлененка

источник

15:17пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

Pavel

Трешугаррасчлененка

Зато очень шустрый )

источник

15:18пожаловаться #15

I

Igor Master in Data Engineers

Anton Zadorozhniy

У нас так делает наш грузчик данных из стандартного набора утилит (он пишет в файл пары партиция-оффсет на котором закончил), но он на плюсах и либрдкафка, с авро схемами не умеет работать поэтому не всем подходит

А он потом как-то анализирует какие файлы он записал уже и с того момента начинает?
Может быть такое что он недозапишет файл.

источник

15:21пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

Igor Master

А он потом как-то анализирует какие файлы он записал уже и с того момента начинает?
Может быть такое что он недозапишет файл.

Он берет файл с офсетами и начинает с того же места, не анализирует целевую таблицу (он пишет в базу, а не объектный сторадж)

источник

15:23пожаловаться #17

I

Igor Master in Data Engineers

а ну так это примерно так же как спарк оффсеты менеджит

источник

15:24пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

Да, все так делают, идея в том что нужно это делать не спарк джобом для которого нужен кластер, а маленькой самодостаточной утилитой

источник

15:28пожаловаться #19

I

Igor Master in Data Engineers

А почему оффсеты в Кафке не хранить? librd - тема согласен

источник

15:32пожаловаться #20