Телеграмм чат группы hadoopusers страница 3378

Всем привет! Только начал изучать hadoop. Заканчиваю курс введения на coursera. Все вроде ровно, но когда начал на своих примерах что-то практиковать, сразу проблема: импортировал текст с кириллицей (utf-8). После sc.textFile(...), если пробую первые строки take(5) выводит не русские букыв а коды типа \u0421\u0442\u043e. Это так должно быть или при правильной настройке должны русские буквы быть? мне именно для анализа сам текст русский нужен.

источник

12:12пожаловаться #7

E

Eldar in Data Engineers

1iniker

Всем привет! Только начал изучать hadoop. Заканчиваю курс введения на coursera. Все вроде ровно, но когда начал на своих примерах что-то практиковать, сразу проблема: импортировал текст с кириллицей (utf-8). После sc.textFile(...), если пробую первые строки take(5) выводит не русские букыв а коды типа \u0421\u0442\u043e. Это так должно быть или при правильной настройке должны русские буквы быть? мне именно для анализа сам текст русский нужен.

возможно ты забыл настроить кодировку консоли

источник

12:13пожаловаться #8

1

1iniker in Data Engineers

Eldar

возможно ты забыл настроить кодировку консоли

посмотрел, там тоже unicode utf-8

источник

12:15пожаловаться #9

S

S_Syusyukalov in Data Engineers

Добрый день. Коллеги, никто не сталкивался с подобной проблемой?
В parquet-файле появились странные файлики, состоящие только из текста "PAR1" ( больше ничего нет).
Сам parquet - external table для hive/impala. Отдельные партиции, в которых этих файликов нет, читаются в impala нормально, те, в которых они есть - валятся с ошибкой - TFetchResultsResp(status=TStatus(errorCode=None, errorMessage='Parquet file <SOME_NAME>snappy.parquet has an invalid file length: 4\n', sqlState='HY000', infoMessages=None, statusCode=3), results=None,
Коллеги утверждают, что проблема появилась после выполнения recover partitions.

Может быть посоветуете какую-то утилиту, которая чистит parquet от невалидных блоков?

источник

12:16пожаловаться #10

А

Алексей in Data Engineers

убить их в hdfs по размеру

источник

12:19пожаловаться #11

S

S_Syusyukalov in Data Engineers

спасибо. Проблема усложняется тем, что parquet довольно большой, блоков много, хотелось какое-нибудь промышленное решение, а не bash-скрипт + хотелось бы причину понять/устранить :)

источник

12:23пожаловаться #12

SS

Sergey Sheremeta in Data Engineers

дяденьки, здравствуйте!
подскажите как правильно полагается обрабатывать DeadLetter-очередь в этих ваших спарках?
ситуация:
- есть топик Кафки с сырыми данными для обработки
- есть спарк стракча стриминг джобка, которая вычитывает топик и обогащает его данные обращениями к REST API
- некоторые REST-запросы отбрасываются по таймауту, по некоторым прилетают 500-ые ошибки. такие записи отбрасываются внутри foreachBatch в DeadLetter/reprocess-топик
- корректно обогащенные записи (http code = 200) записываются внутри foreachBatch в HDFS

и вот теперь я хочу отложенно до-обогатить записи из DeadLetter-топика и повторно их записать в тот же каталог HDFS, но туда уже вовсю пишет первый стриминг-джоб...

источник

12:26пожаловаться #13

EK

Evgenii Kuznetcov in Data Engineers

Sergey Sheremeta

дяденьки, здравствуйте!
подскажите как правильно полагается обрабатывать DeadLetter-очередь в этих ваших спарках?
ситуация:
- есть топик Кафки с сырыми данными для обработки
- есть спарк стракча стриминг джобка, которая вычитывает топик и обогащает его данные обращениями к REST API
- некоторые REST-запросы отбрасываются по таймауту, по некоторым прилетают 500-ые ошибки. такие записи отбрасываются внутри foreachBatch в DeadLetter/reprocess-топик
- корректно обогащенные записи (http code = 200) записываются внутри foreachBatch в HDFS

и вот теперь я хочу отложенно до-обогатить записи из DeadLetter-топика и повторно их записать в тот же каталог HDFS, но туда уже вовсю пишет первый стриминг-джоб...

Перелить deadletter топик в оригинальный топик?

источник

12:34пожаловаться #14

SS

Sergey Sheremeta in Data Engineers

Evgenii Kuznetcov

Перелить deadletter топик в оригинальный топик?

нельзя ((
это внешняя кафка и сакральный топик, с которым работают другие сервисы

источник

12:35пожаловаться #15

SS

Sergey Sheremeta in Data Engineers

думаю настроить зеркалирование этого топика во внутреннюю кафку и в нее доливать уже...

источник

12:36пожаловаться #16

SS

Sergey Sheremeta in Data Engineers

я могу подписать паттерном spark struct streaming джобу на два топика, но они должны быть в одном Кафка кластере

источник

12:37пожаловаться #17

EK

Evgenii Kuznetcov in Data Engineers

Я не эксперт, но в моем понимании дед-леттер нужен немного для другого. Если у вас регулярно Х% запросов отваливается по таймауту - это не про дедлеттер.

источник

12:38пожаловаться #18

SS

Sergey Sheremeta in Data Engineers

Evgenii Kuznetcov

Я не эксперт, но в моем понимании дед-леттер нужен немного для другого. Если у вас регулярно Х% запросов отваливается по таймауту - это не про дедлеттер.

а для чего нужен дедлеттер? я тоже совсем не эксперт, только учусь

источник

12:39пожаловаться #19

EK

Evgenii Kuznetcov in Data Engineers

Дедлеттер нужен для того, чтобы баги в корнер-кейсах не обваливали весь процессинг.
Т.е. перед тем, как переливать дедлеттер в основной топик, неплохо было бы что-нибудь починить.

источник

12:39пожаловаться #20