Size: a a a

2021 June 22

AS

Andrey Smirnov in Data Engineers
Вы в консалтеры собираетесь устраиваться? Они любят такие формулировки, у них даже чемпионаты по кейсам проходят :)
источник

R

Roman in Data Engineers
Если бы я знал)
источник

R

Roman in Data Engineers
По штатке DE :)
источник
2021 June 23

C

Combot in Data Engineers
ibtoey mnapt has been banned! Reason: CAS ban.
источник

KS

K S in Data Engineers
Господа пацаны, подскажите пожалуйста. Читаю 700мб json файл в спарке, стандартным способом:
 df = spark.read.json(src_path)

При начальном подсчете показывает, что есть только одна запись, которую я делаю explode и получаю всего 1000 записей. Потом сохраняю в паркет, который весит всего 208кб. Не пойму где остальные данные.
источник

KS

K S in Data Engineers
Такое ощущение, что спарк читает только часть данных.
источник

RI

Rustam Iksanov in Data Engineers
не факт, если json не запакованный, и компакт, то вполне. можешь попробовать грепом подсчитать количество вхождений в json и сравнить
источник

KS

K S in Data Engineers
Визуально запись не больше 10кбайт
источник

RI

Rustam Iksanov in Data Engineers
не больше 10 кб из 700 мб?
источник

SS

Sergey Shushkov in Data Engineers
Может там джесон поломанный и он сохраняет только то что распарсить смог?
источник

KS

K S in Data Engineers
Вот и я так думаю, но спарк ведь должен ругаться на поломанный json, или нет?
источник

KS

K S in Data Engineers
Нет, примерно 1000 записей по 10кб, хотя входящий файл 700МБ
источник

KS

K S in Data Engineers
%wc -l stream.json
20651039 stream.json
источник

SS

Sergey Shushkov in Data Engineers
Не обязательно, от парсера зависит и его настроек.
источник

A

Alex in Data Engineers
Посмотрите схему которую он задетектил, проверьте что она совпадает с тем что есть в самом json, как он сформирован

Я бы начал с того что какой мегабайт первый вытянул и отформатировал, посмотрел совпадает ли с моей схемой или нет
источник

A

Alex in Data Engineers
Насколько помню спарк схему по первым записям выводит
источник

A

Alex in Data Engineers
Может последующие в другой схеме и он их скипает
источник

KS

K S in Data Engineers
Спасибо большое
источник

KS

K S in Data Engineers
Я выдернул одну запись и сохранил в файл, получилось 3.8кб, то есть должно быть около 197 тысяч записей.
Скорее всего действительно, схема берётся из начала и остальные данные игнорятся.
источник

A

Alex in Data Engineers
https://spark.apache.org/docs/latest/sql-data-sources-json.html

Note that the file that is offered as a json file is not a typical JSON file. Each line must contain a separate, self-contained valid JSON object.

Это для чего я предложил посмотреть что внутри
источник