Size: a a a

2019 April 30

IS

Igor Sam in Data Engineers
O. Petr
Через kafka connect с hdfs коннектором можно писать из простого json в авро или паркет  в hdfs ? Или в кафке должен быть именно авро со схемой?
второе
источник

OO

Oleksandr Olgashko in Data Engineers
просадка по производительности та же, как и у питона?
источник

OP

O. Petr in Data Engineers
Igor Sam
второе
сенк
источник

OP

O. Petr in Data Engineers
Igor Sam
второе
просто там есть возможность читать json(JsonConverter) , но записать ни во что другое он сам не сможет, так же ?
источник

IS

Igor Sam in Data Engineers
просто текст пишешь. паркет и авро только если в кафке сообщения со схемой. Насколько помню, если попытаешься записывать без схемы, в логе будет что то типа для таких форматов не подходит shemaless сообщения
источник

IS

Igor Sam in Data Engineers
Да, и если у тебя не авро и не паркет на выходе, ты не сможешь спользовать hive
источник

OP

O. Petr in Data Engineers
Там просто уже есть кафка - спарк, хотелось с кафки напрямую записывать в паркет на хдфс, если по схемам нужно заморачиваться, то и продюсер и спарк дописывать придется, плюс у коннектора сборка и запуск морочный, а конфлюент покупать надо.
источник

IS

Igor Sam in Data Engineers
O. Petr
Там просто уже есть кафка - спарк, хотелось с кафки напрямую записывать в паркет на хдфс, если по схемам нужно заморачиваться, то и продюсер и спарк дописывать придется, плюс у коннектора сборка и запуск морочный, а конфлюент покупать надо.
Я бы не парился и использовал бы спарк. Мы попробовали hdfs коннектор. Много ограничений. Начиная от схемы, заканчивая тем, что по умолчанию он пишет каждый лог в отдельный файл
источник

IS

Igor Sam in Data Engineers
Igor Sam
Я бы не парился и использовал бы спарк. Мы попробовали hdfs коннектор. Много ограничений. Начиная от схемы, заканчивая тем, что по умолчанию он пишет каждый лог в отдельный файл
ПО поводу каждоголога в отдельный файл, можно поиграться параметром flush.size
источник

IS

Igor Sam in Data Engineers
O. Petr
Там просто уже есть кафка - спарк, хотелось с кафки напрямую записывать в паркет на хдфс, если по схемам нужно заморачиваться, то и продюсер и спарк дописывать придется, плюс у коннектора сборка и запуск морочный, а конфлюент покупать надо.
Можно использовать kafka stream для конвертации. Коннектор сам по себе тупой
источник

A

Alex in Data Engineers
и видели, и пообщались с людьми из эпама кто спарк плотно в ажуру запихивают
говорят у них в венгрии уже пару проектов на этом поделий уже собрали-запустили
источник

OP

O. Petr in Data Engineers
да так и сделаю) и схему задавать не надо). Просто коннектор со стороны кафки будет писать если спарк умрет, единственный плюс)
источник

OP

O. Petr in Data Engineers
Igor Sam
Я бы не парился и использовал бы спарк. Мы попробовали hdfs коннектор. Много ограничений. Начиная от схемы, заканчивая тем, что по умолчанию он пишет каждый лог в отдельный файл
а лог это тут что? по файлу на каждую запись?
источник

IS

Igor Sam in Data Engineers
Да
источник

IS

Igor Sam in Data Engineers
O. Petr
а лог это тут что? по файлу на каждую запись?
Это по умолчанию такое поведение , вроде
источник

IS

Igor Sam in Data Engineers
Нужно менять значение flush.size - в этом случае в файл будет записано такое количество записей, которое укажешь в данном параметре. Но есть нюанс. Допустим это значение 100000. Коннектор записал 50000. Ждет еще данные и, о чудо, падает. Считай, что эти данные (50000 типа записанных) ты потерял. Лечится параметром rotate.interval.ms - в данном случае данные будут коммитиься в интервалом, уазанном в этом параметре. Но файл будет закрываться и создаваться новый. Но: мы ж хотим, чтобы они были примерно одинакового размера в hdfs... Вот такого не получится
источник

IS

Igor Sam in Data Engineers
Да, и чет там какие-то проблемы с этим коннектором в последнем реизе, так понимаю
источник

IS

Igor Sam in Data Engineers
Все работает кроме Hadoop hdfs connector
источник

IS

Igor Sam in Data Engineers
источник

OP

O. Petr in Data Engineers
это про 11 яву, нет?
источник