Телеграмм чат группы hadoopusers страница 3091

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2172 membersпожаловаться на группу

2020 December 23

ИК

Иван Калининский... in Data Engineers

Артур Семенов

Я на питоне, например я хочу добавить некий метод qwe, который бы внутри себя делал spark.sql(describe formatted таблица)+ вытащить поле location, где spark - это уже созданный контекст и вернуть строку с полным hdfs путем таблицы

для реализации на scala - легко, самому захотелось такое сделать, у меня по старинке обёрнуто в функцию, на пайтон я не умею в этот паттерн

источник

14:13пожаловаться #1

АС

Артур Семенов... in Data Engineers

Иван Калининский

для реализации на scala - легко, самому захотелось такое сделать, у меня по старинке обёрнуто в функцию, на пайтон я не умею в этот паттерн

Есть пример кода на скале?

источник

14:19пожаловаться #2

ИК

Иван Калининский... in Data Engineers

Артур Семенов

Есть пример кода на скале?

попробую накидать

источник

14:19пожаловаться #3

ИК

Иван Калининский... in Data Engineers

Артур Семенов

Есть пример кода на скале?

https://scastie.scala-lang.org/EZfRSfLMSKmKJxyv3SNTvg

Scastie - An interactive playground for Scala.

Scastie can run any Scala program with any library in your browser. You don’t need to download or install anything.

источник

14:38пожаловаться #4

ИК

Иван Калининский... in Data Engineers

у меня в тестах заработал сразу

источник

14:38пожаловаться #5

ИК

Иван Калининский... in Data Engineers

тут я никаких зависимостей не добавлял, работать не будет, просто чтобы код сюда не кидать

Может опытные товарищи помогут дальше

источник

14:39пожаловаться #6

АС

Артур Семенов... in Data Engineers

Ну тут все понятно по коду

источник

14:45пожаловаться #7

АС

Артур Семенов... in Data Engineers

Теперь бы на питон переписать

источник

14:45пожаловаться #8

T

T in Data Engineers

Привет, как получить в спарке пути которые были сгенерены присохранении датафрейма?

источник

14:46пожаловаться #9

ИК

Иван Калининский... in Data Engineers

Привет, как получить в спарке пути которые были сгенерены присохранении датафрейма?

можно прочитать датафрейм из сохраненного пути, выполнить .inputFiles - будет получен список файлов по контракту bestEffort (возможно, не все, но спарк постарается) и работать с этим списком
Лучше зайти через файловую систему (объектное хранилище, что у вас есть?), получить fileSystem.listFiles(new Path(dir)) и работать с этим правильным и полным списком

источник

14:49пожаловаться #10

T

T in Data Engineers

Иван Калининский

можно прочитать датафрейм из сохраненного пути, выполнить .inputFiles - будет получен список файлов по контракту bestEffort (возможно, не все, но спарк постарается) и работать с этим списком
Лучше зайти через файловую систему (объектное хранилище, что у вас есть?), получить fileSystem.listFiles(new Path(dir)) и работать с этим правильным и полным списком

Это к сожелению не подходит так как у меня пишется в s3 c "partitionOverwriteMode", "dynamic”

источник

14:50пожаловаться #11

ИК

Иван Калининский... in Data Engineers

Это к сожелению не подходит так как у меня пишется в s3 c "partitionOverwriteMode", "dynamic”

Не могу помочь(

источник

14:50пожаловаться #12

T

T in Data Engineers

Самое просто это коненчо сделать что то типа

df.select(partitionColumns.head, partitionColumns.drop(1):_*).distinct.collect()

Но в этом способе не нравится что получается что по дата фраему над будет пробегаться 2 раза: 1 при сохранении, 2 чтобы вытащить колонки.

Есть идея прокидывать аккумулятор но это же выглядит не красиво

источник

14:53пожаловаться #13

b

barracuda in Data Engineers

Курсы посоветуйте...закончил бесплатный Яндекс практикум по питону,но отзывы по платному негативные

источник

15:02пожаловаться #14

ИК

Иван Калининский... in Data Engineers

Артур Семенов

Теперь бы на питон переписать

в принципе, можно заэкстендить SparkSession и в проекте пользоваться этим потомком

источник

15:03пожаловаться #15

АС

Артур Семенов... in Data Engineers

Иван Калининский

в принципе, можно заэкстендить SparkSession и в проекте пользоваться этим потомком

Вот сейчас пробую

источник

15:07пожаловаться #16

DM

Dave Manukian in Data Engineers

Привет, столкнулся с такой проблемой, может кто подскажет. У меня есть Spark Structured Streaming джоба у которой source=kafka,
также есть кастомная udf которую я создаю вот так:
spark.udf.register("deserialize", (e: Array[Byte]) => {.....})

Джоба просто считывает с кафки и кладет в дальнейшем в реляционку.
Проблема: Локально все очень хорошо работает, но на spark-k8s постоянно выпадает ошибка
"Failed to execute user defined function(UDFRegistration$$Lambda$1434/1497411918: (binary) => ....... java.lang.IllegalArgumentException: The value (()) of the type (scala.runtime.BoxedUnit) cannot be converted to struct ....."

Топик, ивент, брокер один и тот во время запуска что на локалке, что в кубере. На кубере запускаю spark mode client.

источник

17:14пожаловаться #17

e

er@essbase.ru in Data Engineers

Уязвимость в Apache Airflow, допускающая использование одного сеанса на разных серверах https://opennet.ru/54298/

Уязвимость в Apache Airflow, допускающая использование одного сеанса на разных серверах

Во входящем в состав платформы Apache Airflow web-сервере выявлена уязвимость (CVE-2020-17526), вызванная некорректной проверкой сеансов в конфигурации по умолчанию. Уязвимость позволяет пользователю одного сайта получить доступ к другому сайту, используя идентификатор сеанса от первого сайта (для входа достаточно отредактировать сессионную Cookie). Проблема вызвана использованием в предлагаемом по умолчанию файле конфигурации airflow.cfg временного ключа, одинакового для всех установок. При данных настройках сессионная Cookie, заверенная на одном сервере Airflow, подходила для другого сервера.

источник

17:25пожаловаться #18

GT

Gennady Timofeev in Data Engineers

Привет, столкнулся с такой проблемой, может кто подскажет. У меня есть Spark Structured Streaming джоба у которой source=kafka,
также есть кастомная udf которую я создаю вот так:
spark.udf.register("deserialize", (e: Array[Byte]) => {.....})

Джоба просто считывает с кафки и кладет в дальнейшем в реляционку.
Проблема: Локально все очень хорошо работает, но на spark-k8s постоянно выпадает ошибка
"Failed to execute user defined function(UDFRegistration$$Lambda$1434/1497411918: (binary) => ....... java.lang.IllegalArgumentException: The value (()) of the type (scala.runtime.BoxedUnit) cannot be converted to struct ....."

Топик, ивент, брокер один и тот во время запуска что на локалке, что в кубере. На кубере запускаю spark mode client.

А локально запускаете local или тоже сабмитите в свой кластер?

источник

17:57пожаловаться #19

A

Alex in Data Engineers

Уязвимость в Apache Airflow, допускающая использование одного сеанса на разных серверах https://opennet.ru/54298/

Уязвимость в Apache Airflow, допускающая использование одного сеанса на разных серверах

Во входящем в состав платформы Apache Airflow web-сервере выявлена уязвимость (CVE-2020-17526), вызванная некорректной проверкой сеансов в конфигурации по умолчанию. Уязвимость позволяет пользователю одного сайта получить доступ к другому сайту, используя идентификатор сеанса от первого сайта (для входа достаточно отредактировать сессионную Cookie). Проблема вызвана использованием в предлагаемом по умолчанию файле конфигурации airflow.cfg временного ключа, одинакового для всех установок. При данных настройках сессионная Cookie, заверенная на одном сервере Airflow, подходила для другого сервера.

ну бывает

источник

17:57пожаловаться #20