Size: a a a

2020 November 25

AZ

Anton Zadorozhniy in Data Engineers
Vladislav 👻 Shishkov
Как я уже писал, я вас понял и дальше у меня нет желания общаться с человеком, который плохо понимает предметную область
Это у нас взаимно
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Вот и славно
источник

GA

Georgiy Ashkar in Data Engineers
ars0k
улетел в бан за ссылку на гит без постов ранее
?
источник

a

ars0k in Data Engineers
Не бери в голову, я кидал ссылку на гит выше
источник

GP

Grigory Pomadchin in Data Engineers
бот сагрился)
источник
2020 November 26

O

Oleg in Data Engineers
а можно как-то к ec2 привязать облако яндекса, чтобы airflow крутился в ec2, но когда нужно большие объемы данных перегонять из внутренних систем в яндекс через операторы airflow трафик бы не гонялся через aws, кто-нибудь так делал?
источник

P

Pavel in Data Engineers
Vladislav 👻 Shishkov
Как я уже писал, я вас понял и дальше у меня нет желания общаться с человеком, который плохо понимает предметную область
Че-то вы тут решаете далекие от бизнеса задачи)) ну, ради того, чтобы сделать норм, пытливый инженерный ум будет удовлетворен))
источник

K

KrivdaTheTriewe in Data Engineers
Предлагаю вам пройти в джобсы
источник
2020 November 27

S

Stanislav in Data Engineers
KrivdaTheTriewe
Переслано от KrivdaTheTriewe
кто как сейас компактинг данных делает для структурного стриминга? Раньше была проблема, что если руками сжать партицию, другая спарк джоба падала в случае попытки чтения из корня директории храненения ввсех данных, так как спарк пишет в __spark_metadata имена уже записаных файлов
в спарк чатике подсказали?
это вот этот ишью https://issues.apache.org/jira/browse/SPARK-30462 ?
источник

A

Aleksandr in Data Engineers
Всем привет. Подскажите, пожалуйста, как спарк менеджит свои опции в рантайме и трансформации над датафреймом. Например, я делаю:
df.transform(..)
.transform(...)

val sparkContext = df.sparkSession.sqlContext
sparkContext.setConf(AllowPrecisionLossOption, "false")
df.transform( ...some calcs...)
sparkContext.setConf(AllowPrecisionLossOption, "true")

df.transform(..)
.transform(...)


то есть спарк как-то будет понимать, что конкретно эта опция включена только для одной трансформации? Или драйвер просто включит это для всех трансформаций в рантайме
источник

r

romλn in Data Engineers
не для всех
источник

r

romλn in Data Engineers
опция будет включена для eager операций в конкретном контексте где эти параметры были переданы
источник

r

romλn in Data Engineers
transform lazy, если что. В случае кода выше если ты вызовешь терминальный метод то будет принята конф sparkContext.setConf(AllowPrecisionLossOption, "true")
источник

A

Aleksandr in Data Engineers
romλn
transform lazy, если что. В случае кода выше если ты вызовешь терминальный метод то будет принята конф sparkContext.setConf(AllowPrecisionLossOption, "true")
то есть получается, что опция "false" вообще ни к одной трансформации не применится? (учитывая, что дефолтная это "true")
источник

ТВ

Тёма Вятчанин... in Data Engineers
Коллеги, кто нибудь работал с amazon s3 ?

Подскажите плиз, как получить объекты из директории бакета, если мне через ACL открыт  доступа только к одной папке и нет доступа к бакету? Желательно питоном.
источник

T

T in Data Engineers
Тёма Вятчанин
Коллеги, кто нибудь работал с amazon s3 ?

Подскажите плиз, как получить объекты из директории бакета, если мне через ACL открыт  доступа только к одной папке и нет доступа к бакету? Желательно питоном.
boto3.s3 вам в помощь
источник

ТВ

Тёма Вятчанин... in Data Engineers
T
boto3.s3 вам в помощь
да вот гуглю перегуглю.  Не находится ответ. во всех примерах берется список объектов по префиксу. А так как к бакету нет досутпа, выскакивает ошибка "Access Denied"
источник

T

T in Data Engineers
Тёма Вятчанин
да вот гуглю перегуглю.  Не находится ответ. во всех примерах берется список объектов по префиксу. А так как к бакету нет досутпа, выскакивает ошибка "Access Denied"
проверте настроки доступа, может у вас там только get стоит а вы list пытаетесь сделать
источник

ТВ

Тёма Вятчанин... in Data Engineers
T
проверте настроки доступа, может у вас там только get стоит а вы list пытаетесь сделать
на просмотр прав тоже нет доступа.
источник

T

T in Data Engineers
ну кто то же вам их дал, попросите проверить его/ее/их
источник