Телеграмм чат группы hadoopusers страница 1256

просто текст пишешь. паркет и авро только если в кафке сообщения со схемой. Насколько помню, если попытаешься записывать без схемы, в логе будет что то типа для таких форматов не подходит shemaless сообщения

источник

12:18пожаловаться #5

IS

Igor Sam in Data Engineers

Да, и если у тебя не авро и не паркет на выходе, ты не сможешь спользовать hive

источник

12:19пожаловаться #6

OP

O. Petr in Data Engineers

Там просто уже есть кафка - спарк, хотелось с кафки напрямую записывать в паркет на хдфс, если по схемам нужно заморачиваться, то и продюсер и спарк дописывать придется, плюс у коннектора сборка и запуск морочный, а конфлюент покупать надо.

источник

12:25пожаловаться #7

IS

Igor Sam in Data Engineers

O. Petr

Там просто уже есть кафка - спарк, хотелось с кафки напрямую записывать в паркет на хдфс, если по схемам нужно заморачиваться, то и продюсер и спарк дописывать придется, плюс у коннектора сборка и запуск морочный, а конфлюент покупать надо.

Я бы не парился и использовал бы спарк. Мы попробовали hdfs коннектор. Много ограничений. Начиная от схемы, заканчивая тем, что по умолчанию он пишет каждый лог в отдельный файл

источник

12:27пожаловаться #8

IS

Igor Sam in Data Engineers

Igor Sam

Я бы не парился и использовал бы спарк. Мы попробовали hdfs коннектор. Много ограничений. Начиная от схемы, заканчивая тем, что по умолчанию он пишет каждый лог в отдельный файл

ПО поводу каждоголога в отдельный файл, можно поиграться параметром flush.size

источник

12:29пожаловаться #9

IS

Igor Sam in Data Engineers

O. Petr

Там просто уже есть кафка - спарк, хотелось с кафки напрямую записывать в паркет на хдфс, если по схемам нужно заморачиваться, то и продюсер и спарк дописывать придется, плюс у коннектора сборка и запуск морочный, а конфлюент покупать надо.

Можно использовать kafka stream для конвертации. Коннектор сам по себе тупой

источник

12:30пожаловаться #10

A

Alex in Data Engineers

Alexey Evdokimov

видели новость?
https://dotnet.microsoft.com/apps/data/spark

Microsoft

.NET for Apache Spark™ | Big data analytics

.NET for Apache Spark™ provides C# and F# language bindings for the Apache Spark distributed data analytics engine. Supported on Linux, macOS, and Windows.

и видели, и пообщались с людьми из эпама кто спарк плотно в ажуру запихивают
говорят у них в венгрии уже пару проектов на этом поделий уже собрали-запустили

источник

12:31пожаловаться #11

OP

O. Petr in Data Engineers

да так и сделаю) и схему задавать не надо). Просто коннектор со стороны кафки будет писать если спарк умрет, единственный плюс)

источник

12:31пожаловаться #12

OP

O. Petr in Data Engineers

Igor Sam

Я бы не парился и использовал бы спарк. Мы попробовали hdfs коннектор. Много ограничений. Начиная от схемы, заканчивая тем, что по умолчанию он пишет каждый лог в отдельный файл

а лог это тут что? по файлу на каждую запись?

источник

12:35пожаловаться #13

IS

Igor Sam in Data Engineers

Да

источник

12:38пожаловаться #14

IS

Igor Sam in Data Engineers

O. Petr

а лог это тут что? по файлу на каждую запись?

Это по умолчанию такое поведение , вроде

источник

12:39пожаловаться #15

IS

Igor Sam in Data Engineers

Нужно менять значение flush.size - в этом случае в файл будет записано такое количество записей, которое укажешь в данном параметре. Но есть нюанс. Допустим это значение 100000. Коннектор записал 50000. Ждет еще данные и, о чудо, падает. Считай, что эти данные (50000 типа записанных) ты потерял. Лечится параметром rotate.interval.ms - в данном случае данные будут коммитиься в интервалом, уазанном в этом параметре. Но файл будет закрываться и создаваться новый. Но: мы ж хотим, чтобы они были примерно одинакового размера в hdfs... Вот такого не получится

источник

12:42пожаловаться #16

IS

Igor Sam in Data Engineers

Да, и чет там какие-то проблемы с этим коннектором в последнем реизе, так понимаю

источник

12:55пожаловаться #17

IS

Igor Sam in Data Engineers

Все работает кроме Hadoop hdfs connector

источник

12:55пожаловаться #18