Size: a a a

2019 October 09

KS

Kostya Shchetkin in Moscow Spark
иногда в данных бывают косяки - адовое дублирование id-шников в каком-нибудь месте
источник

DA

Daria Abdullina in Moscow Spark
Да в первую очередь на null. Посмотри их процент
источник

AC

Anton Chern in Moscow Spark
Kostya Shchetkin
напиши, что делаешь, но скорее всего у тебя каких-то ключей сильно больше, чем других
считывается dataframe в parquet, к нему left join другого датафрейма
источник

AC

Anton Chern in Moscow Spark
срабатывает пара udf через selectExpr и сохраняется
источник

KS

Kostya Shchetkin in Moscow Spark
посчитай каунты по ключам (по которым джонийшь) и посмотри есть ли там аномалии
источник

KS

Kostya Shchetkin in Moscow Spark
в миру проблема назвается как  "skewed data"
источник

AC

Anton Chern in Moscow Spark
спасибо, сейчас попробую
источник

AA

Anton Alekseev in Moscow Spark
Всем привет. Подскажите какие особенности спарка приводят к ограничениям на размере обрабатываемых данных в 1-2 тб, взял из этого видео https://youtu.be/kVnCncDMX68?t=630 (по таймингу ссылки начинает рассказывать об этом ограничении), но нифига не понятно что именно является причиной.
источник

GP

Grigory Pomadchin in Moscow Spark
Anton Alekseev
Всем привет. Подскажите какие особенности спарка приводят к ограничениям на размере обрабатываемых данных в 1-2 тб, взял из этого видео https://youtu.be/kVnCncDMX68?t=630 (по таймингу ссылки начинает рассказывать об этом ограничении), но нифига не понятно что именно является причиной.
видимо инженер он так себе
источник

GP

Grigory Pomadchin in Moscow Spark
Ну а вообще МОЖЕТ он говорит об одновременной загрузке всего в память кластера. Не знаю откуда он взял что Спарк не досчитает, но он может просто долго считать) физика долгая будет - считать в диски все, если что-то шафлить то дорогой шафл
источник

K

KrivdaTheTriewe in Moscow Spark
Anton Alekseev
Всем привет. Подскажите какие особенности спарка приводят к ограничениям на размере обрабатываемых данных в 1-2 тб, взял из этого видео https://youtu.be/kVnCncDMX68?t=630 (по таймингу ссылки начинает рассказывать об этом ограничении), но нифига не понятно что именно является причиной.
не понимаю
источник

K

KrivdaTheTriewe in Moscow Spark
Anton Alekseev
Всем привет. Подскажите какие особенности спарка приводят к ограничениям на размере обрабатываемых данных в 1-2 тб, взял из этого видео https://youtu.be/kVnCncDMX68?t=630 (по таймингу ссылки начинает рассказывать об этом ограничении), но нифига не понятно что именно является причиной.
а там вроде команду сменили
источник

K

KrivdaTheTriewe in Moscow Spark
не?
источник

AA

Anton Alekseev in Moscow Spark
KrivdaTheTriewe
а там вроде команду сменили
Паззл складывается)
источник

GP

Grigory Pomadchin in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
KrivdaTheTriewe
а там вроде команду сменили
Где? В ок?
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Где? В ок?
ну да, они же чот рассказывали , где-то в 2016-2017 , не?
источник

PK

Pavel Klemenkov in Moscow Spark
@dmitrybugaychenko есть что прокомментировать про видео и смену команды?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Grigory Pomadchin
Ну а вообще МОЖЕТ он говорит об одновременной загрузке всего в память кластера. Не знаю откуда он взял что Спарк не досчитает, но он может просто долго считать) физика долгая будет - считать в диски все, если что-то шафлить то дорогой шафл
А как её сейчас осуществить? Насколько я помню, когда-то давно итератор со всеми данными для таска действительно грузился в память экзекутора целиком, но потом его переписали на считывание с диска, и щас не может спарк грузить в память больше данных, чем надо)
источник

GP

Grigory Pomadchin in Moscow Spark
Евгений Глотов
А как её сейчас осуществить? Насколько я помню, когда-то давно итератор со всеми данными для таска действительно грузился в память экзекутора целиком, но потом его переписали на считывание с диска, и щас не может спарк грузить в память больше данных, чем надо)
я хз
источник