Size: a a a

2021 March 16

AZ

Anton Zadorozhniy in Data Engineers
источник

C

Combot in Data Engineers
Elizaveta CHerepovec has been banned! Reason: CAS ban.
источник

KS

K S in Data Engineers
Посоветуйте пожалуйста курс для прокачки AWS Cloud Formation.
источник

KS

K S in Data Engineers
Построил пайплайн, теперь нужно завезти его в продакшн.
источник
2021 March 17

SS

Sergey Shushkov in Data Engineers
Родная дока вполне не плоха
источник

KS

K S in Data Engineers
Да уже нашёл на udemy
источник

1

1iniker in Data Engineers
Всем привет! Только начал изучать hadoop. Заканчиваю курс введения на coursera. Все вроде ровно, но когда начал на своих примерах что-то практиковать, сразу проблема: импортировал текст с кириллицей (utf-8). После sc.textFile(...), если пробую первые строки take(5) выводит не русские букыв а коды типа \u0421\u0442\u043e. Это так должно быть или при правильной настройке должны русские буквы быть? мне именно для анализа сам текст русский нужен.
источник

E

Eldar in Data Engineers
1iniker
Всем привет! Только начал изучать hadoop. Заканчиваю курс введения на coursera. Все вроде ровно, но когда начал на своих примерах что-то практиковать, сразу проблема: импортировал текст с кириллицей (utf-8). После sc.textFile(...), если пробую первые строки take(5) выводит не русские букыв а коды типа \u0421\u0442\u043e. Это так должно быть или при правильной настройке должны русские буквы быть? мне именно для анализа сам текст русский нужен.
возможно ты забыл настроить кодировку консоли
источник

1

1iniker in Data Engineers
Eldar
возможно ты забыл настроить кодировку консоли
посмотрел, там тоже unicode utf-8
источник

S

S_Syusyukalov in Data Engineers
Добрый день. Коллеги, никто не сталкивался с подобной проблемой?
В parquet-файле появились странные файлики, состоящие только из текста "PAR1" ( больше ничего нет).
Сам parquet - external table для hive/impala. Отдельные партиции, в которых этих файликов нет, читаются в impala нормально, те, в которых они есть - валятся с ошибкой - TFetchResultsResp(status=TStatus(errorCode=None, errorMessage='Parquet file <SOME_NAME>snappy.parquet has an invalid file length: 4\n', sqlState='HY000', infoMessages=None, statusCode=3), results=None,
Коллеги утверждают, что проблема появилась после выполнения recover partitions.

Может быть посоветуете какую-то утилиту, которая чистит parquet от невалидных блоков?
источник

А

Алексей in Data Engineers
убить их в hdfs по размеру
источник

S

S_Syusyukalov in Data Engineers
спасибо. Проблема усложняется тем, что parquet довольно большой, блоков много, хотелось какое-нибудь промышленное решение, а не bash-скрипт + хотелось бы причину понять/устранить :)
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки, здравствуйте!
подскажите как правильно полагается обрабатывать DeadLetter-очередь в этих ваших спарках?
ситуация:
- есть топик Кафки с сырыми данными для обработки
- есть спарк стракча стриминг джобка, которая вычитывает топик и обогащает его данные обращениями к REST API
- некоторые REST-запросы отбрасываются по таймауту, по некоторым прилетают 500-ые ошибки. такие записи отбрасываются внутри foreachBatch в DeadLetter/reprocess-топик
- корректно обогащенные записи (http code = 200) записываются внутри foreachBatch в HDFS

и вот теперь я хочу отложенно до-обогатить записи из DeadLetter-топика и повторно их записать в тот же каталог HDFS, но туда уже вовсю пишет первый стриминг-джоб...
источник

EK

Evgenii Kuznetcov in Data Engineers
Sergey Sheremeta
дяденьки, здравствуйте!
подскажите как правильно полагается обрабатывать DeadLetter-очередь в этих ваших спарках?
ситуация:
- есть топик Кафки с сырыми данными для обработки
- есть спарк стракча стриминг джобка, которая вычитывает топик и обогащает его данные обращениями к REST API
- некоторые REST-запросы отбрасываются по таймауту, по некоторым прилетают 500-ые ошибки. такие записи отбрасываются внутри foreachBatch в DeadLetter/reprocess-топик
- корректно обогащенные записи (http code = 200) записываются внутри foreachBatch в HDFS

и вот теперь я хочу отложенно до-обогатить записи из DeadLetter-топика и повторно их записать в тот же каталог HDFS, но туда уже вовсю пишет первый стриминг-джоб...
Перелить deadletter топик в оригинальный топик?
источник

SS

Sergey Sheremeta in Data Engineers
Evgenii Kuznetcov
Перелить deadletter топик в оригинальный топик?
нельзя ((
это внешняя кафка и сакральный топик, с которым работают другие сервисы
источник

SS

Sergey Sheremeta in Data Engineers
думаю настроить зеркалирование этого топика во внутреннюю кафку и в нее доливать уже...
источник

SS

Sergey Sheremeta in Data Engineers
я могу подписать паттерном spark struct streaming джобу на два топика, но они должны быть в одном Кафка кластере
источник

EK

Evgenii Kuznetcov in Data Engineers
Я не эксперт, но в моем понимании дед-леттер нужен немного для другого. Если у вас регулярно Х% запросов отваливается по таймауту - это не про дедлеттер.
источник

SS

Sergey Sheremeta in Data Engineers
Evgenii Kuznetcov
Я не эксперт, но в моем понимании дед-леттер нужен немного для другого. Если у вас регулярно Х% запросов отваливается по таймауту - это не про дедлеттер.
а для чего нужен дедлеттер? я тоже совсем не эксперт, только учусь
источник

EK

Evgenii Kuznetcov in Data Engineers
Дедлеттер нужен для того, чтобы баги в корнер-кейсах не обваливали весь процессинг.
Т.е. перед тем, как переливать дедлеттер в основной топик, неплохо было бы что-нибудь починить.
источник