Телеграмм чат группы hadoopusers страница 3177

Вы открываете консьюмера, читаете сообщения и пишете сообщения подряд в файл; когда добегает до «большой файл» (или сообщений давно не было, или след час начался, условия можете придумать) - закрываете, коммитите оффсет, начинаете заново

источник

23:28пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Так делает Kafka connect hdfs sink

источник

23:29пожаловаться #6

MB

Maksim Batsiuk in Data Engineers

Anton Zadorozhniy

Вы открываете консьюмера, читаете сообщения и пишете сообщения подряд в файл; когда добегает до «большой файл» (или сообщений давно не было, или след час начался, условия можете придумать) - закрываете, коммитите оффсет, начинаете заново

получается день пишу в один локальный файл и вечером отправлю в хадуп, верно?

источник

23:30пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Maksim Batsiuk

получается день пишу в один локальный файл и вечером отправлю в хадуп, верно?

Зависит от потока, обычно закрывают файлы почаще

источник

23:31пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

И не локальный, а в HDFS

источник

23:31пожаловаться #9

MB

Maksim Batsiuk in Data Engineers

Anton Zadorozhniy

И не локальный, а в HDFS

в hdfs методом append ()?

источник

23:33пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

Maksim Batsiuk

в hdfs методом append ()?

Почему append, обычный write

источник

23:35пожаловаться #11

MB

Maksim Batsiuk in Data Engineers

hadoop это ведь оболочка над Unix файловой системой, я думал может писать просто локально, а потом уже большой файл укладывать в hdfs

источник

23:35пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

Maksim Batsiuk

hadoop это ведь оболочка над Unix файловой системой, я думал может писать просто локально, а потом уже большой файл укладывать в hdfs

Нет, HDFS это не оболочка, это самостоятельная система, объектный сторадж которые предоставляет похожий на ФС интерфейс

источник

23:39пожаловаться #13

MB

Maksim Batsiuk in Data Engineers

Anton Zadorozhniy

Почему append, обычный write

если write, это каждый раз создавать новый файл, верно понимаю?

источник

23:39пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

Если класть сначала в локальный файл то сложнее гарантии обеспечить, ещё одна точка отказа

источник

23:40пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

Maksim Batsiuk

если write, это каждый раз создавать новый файл, верно понимаю?

Нет, вы открываете один файл и пишете в него пока ваши критерии закрытия файла не достигнуты

источник

23:40пожаловаться #16

MB

Maksim Batsiuk in Data Engineers

Anton Zadorozhniy

Нет, вы открываете один файл и пишете в него пока ваши критерии закрытия файла не достигнуты

я думал про это, но у меня возникло опасение что для того чтобы файл получился большой, придётся почти целый день держать его открытым, чтобы напомнить и тогда есть проблема того, что приложение слетит и данные за день будут утеряны

источник

23:42пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

Maksim Batsiuk

я думал про это, но у меня возникло опасение что для того чтобы файл получился большой, придётся почти целый день держать его открытым, чтобы напомнить и тогда есть проблема того, что приложение слетит и данные за день будут утеряны

Закрывайте файл чаще, ну и не коммитте оффсет в кафку пока файл не закрыли в HDFS

источник

23:43пожаловаться #18

MB

Maksim Batsiuk in Data Engineers

и вторая проблема, что мне нужно писать не в один файл, а в несколько, я даже не знаю со временем на сколько это количество может возрасти, там просто идёт парсинг входящего файла и по одному из полей создаётся каталог

источник

23:44пожаловаться #19

MB

Maksim Batsiuk in Data Engineers

получается на вход идёт много файлов и они укладываются не в один каталог, а в разные, сейчас их например не более 10

источник

23:45пожаловаться #20