Size: a a a

2021 October 08

ПБ

Повелитель Бури... in Moscow Spark
Можно чуть подробнее пожалуйста, люблю бест практис))
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если указать массив колонок для джойна, то они сольются из одного датафрейма и другого
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не будет типа a.c1 и b.c1, а будет просто c1, общая
источник

ЕГ

Евгений Глотов... in Moscow Spark
С точки зрения строк ничего не поменяется
источник

ЕГ

Евгений Глотов... in Moscow Spark
В питоне всё равно вроде нельзя сделать null-safe джойн, или он наоборот там по умолчанию null-safe, не помню уже
источник

ЕГ

Евгений Глотов... in Moscow Spark
В скале да, есть различия, типа a.c1==b.c1 или a.c1===b.c1
источник

N

Nikita Blagodarnyy in Moscow Spark
<=>
источник

ДД

Джон Дориан... in Moscow Spark
eqNullSafe() ?
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
[Это кластер хадупа, который исполняет]
источник

ЕГ

Евгений Глотов... in Moscow Spark
👍
источник

ПБ

Повелитель Бури... in Moscow Spark
Оч странно!
А если так
T1. Join (t2.c1=t1.c1)
.join(t2.c1=t1.c2)

Т.е.  одну и туже таблицу t2 надо джойнить 2 раза по разным полям

Тогда ругается на дубликаты полей
источник

ПБ

Повелитель Бури... in Moscow Spark
Приходится делать 1 join потом ренейм, потом 2 join
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если по разным, то либо ренейм, либо как у тебя и потом селект всех колонок, кроме t1.c1, чтобы не было дубликатов колонок в паркете
источник

ЕГ

Евгений Глотов... in Moscow Spark
На мой взгляд, ренейм проще)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или даже не ренейм, а тут вообще надо создать колонку key, которой приводить нужный ключ
источник

ЕГ

Евгений Глотов... in Moscow Spark
А то так можно некисло запутаться, что там с чем джойним и что в итоге получаем
источник

ПБ

Повелитель Бури... in Moscow Spark
может так?
t1=table(x)
t2 =table(x)

t.join (t1).join(t2) ?
источник
2021 October 09

Н

Никита in Moscow Spark
Привет, недавно наткнулся на статью https://habr.com/ru/post/579232/?utm_campaign=579232&utm_source=habrahabr&utm_medium=rss
Про так как организовывать проект с бизнес логикой.
Хочу у вас спросить, есть ли у вас ещё какие-нибудь полезные статьи, как организовать проект на pyspark в airflow и самое главное, как тесты организовать.
источник

GP

Grigory Pomadchin in Moscow Spark
для пайспарка обычные юнит тесты пойдут 🤷
источник