Телеграмм чат группы hadoopusers страница 3792

При начальном подсчете показывает, что есть только одна запись, которую я делаю explode и получаю всего 1000 записей. Потом сохраняю в паркет, который весит всего 208кб. Не пойму где остальные данные.

источник

07:58пожаловаться #5

K S in Data Engineers

Такое ощущение, что спарк читает только часть данных.

источник

07:59пожаловаться #6

Rustam Iksanov in Data Engineers

не факт, если json не запакованный, и компакт, то вполне. можешь попробовать грепом подсчитать количество вхождений в json и сравнить

источник

08:08пожаловаться #7

K S in Data Engineers

Визуально запись не больше 10кбайт

источник

08:15пожаловаться #8

Rustam Iksanov in Data Engineers

не больше 10 кб из 700 мб?

источник

08:18пожаловаться #9

Sergey Shushkov in Data Engineers

Может там джесон поломанный и он сохраняет только то что распарсить смог?

источник

08:20пожаловаться #10

K S in Data Engineers

Вот и я так думаю, но спарк ведь должен ругаться на поломанный json, или нет?

источник

08:22пожаловаться #11

K S in Data Engineers

Нет, примерно 1000 записей по 10кб, хотя входящий файл 700МБ

источник

08:23пожаловаться #12

K S in Data Engineers

%wc -l stream.json
20651039 stream.json

источник

08:32пожаловаться #13

Sergey Shushkov in Data Engineers

Не обязательно, от парсера зависит и его настроек.

источник

08:49пожаловаться #14

Alex in Data Engineers

Посмотрите схему которую он задетектил, проверьте что она совпадает с тем что есть в самом json, как он сформирован

Я бы начал с того что какой мегабайт первый вытянул и отформатировал, посмотрел совпадает ли с моей схемой или нет

источник

08:50пожаловаться #15

Alex in Data Engineers

Насколько помню спарк схему по первым записям выводит

источник

08:51пожаловаться #16

Alex in Data Engineers

Может последующие в другой схеме и он их скипает

источник

08:51пожаловаться #17

K S in Data Engineers

Спасибо большое

источник

08:52пожаловаться #18

K S in Data Engineers

Я выдернул одну запись и сохранил в файл, получилось 3.8кб, то есть должно быть около 197 тысяч записей.
Скорее всего действительно, схема берётся из начала и остальные данные игнорятся.

источник

08:55пожаловаться #19

Alex in Data Engineers

https://spark.apache.org/docs/latest/sql-data-sources-json.html

Note that the file that is offered as a json file is not a typical JSON file. Each line must contain a separate, self-contained valid JSON object.

Это для чего я предложил посмотреть что внутри

источник

08:59пожаловаться #20