Телеграмм чат группы moscowspark страница 934

хорошо хоть, в java.sun не нужны будут упражнения, верно?

21:54пожаловаться #1

ANatoly in Moscow Spark

java.sun. в крайнем случае)

22:16пожаловаться #2

всем привет ))

А не подскажите, ко мне прилетает вот такое
чудо
[('', '14834', 'FB'), ('p35460'), ('p35079', 'SA', 'FB')]

схема вот такая
my_schema = StructType([ \
StructField("col1", StringType(), True), \
StructField("col2", StringType(), True), \
StructField("col3", StringType(), True) \
])

получаю ошибку
StructType can not accept object 'p35460' in type <class 'str'>

а как её красиво можно победить, в голову приходит только, чтобы проверить каждый елемент списка и по потребности добавлять не достоющий айтем (

22:32пожаловаться #3

никак, насколько я помню. нужен явный None в туплах. можно еще попробовать загрузть как единственное поле из массивов разной длины. благо они все - стринги, а потом - explode()

22:35пожаловаться #4

получаете ошибку где именно? при вызове createDataFrame?

22:36пожаловаться #5

при show()

22:36пожаловаться #6

Bakhruz Dzhafarov in Moscow Spark

Не совсем по теме вопроса, но если это кортеж, то ('p35460’, ) а не ('p35460’). По идее тогда и вывод ошибки должен будет измениться

22:46пожаловаться #7

вот так можно загрузить в эррэй

>>> d3 = [(('1',),), (('1', 'a'),), (('b', 'c', 'd'),)]
>>> d3
[(('1',),), (('1', 'a'),), (('b', 'c', 'd'),)]
>>> df = spark.createDataFrame(d3, schema)
>>> df.show()
+---------+                                                                     
|      col|
+---------+
|      [1]|
|   [1, a]|
|[b, c, d]|
+---------+

22:47пожаловаться #8

но, возможно, коллега выше прав - ('p35460') будет просто 'p35460'

22:50пожаловаться #9

и ошибка именно поэтому. хотя я попробовал правильный тупл дать - не сработало. только если каждый тупл завернуть в другой тупл

22:50пожаловаться #10

это данные с googlesheet получаемые через их апи
я вижу физически должно быть 3 кортежа
Но... как видим

я думаю вот так сделать та и все

for ele in my_data:
    if len(ele)!=3:
        new_list.append([ele[0],'',''])
    else:
        new_list.append(ele)

Там всеравно данных будет максимум 10 тысяч

22:52пожаловаться #11

> 10 тысяч
циклами пройтись - норм тогда

23:01пожаловаться #12

либо перейти на скалу готическую, вдруг жавовский апи для googlesheet чище работает

23:02пожаловаться #13

смотрели на R и на JS

одно и тоже (

23:08пожаловаться #14

сейчас меньше 1000

23:08пожаловаться #15

2021 December 11

Ivan in Moscow Spark

Добрый вечер, подскажите пожалуйста. Делаю structured spark (version 3.2) streaming в пайплане есть модель машинного обучения из spark ML, данные получаю из kafka и пишу результат в parquet file, хочу замерить processing time и event time, с последним проблем нет так как приходящий стрим имеет это json с timestamp. С первым есть проблемы, пробовал получать timestamp из kafka, но на сколько я понял это время прихода сообщения в кафку а не загрузка сообщения в спарк. Для этого в самом начале процессинга, добавляю .withColumn("timestampSpark", current_timestamp()) и в конце делаю ещё один current_timestamp() и получаю разницу, НО эта разница - 0 и я не могу понять почему (возможно из-за оптимизатора???). Видел что есть listener в которых есть информация, но для structured streaming я не смог его нормально подключить. Подскажите как лучше получить processing time, спасибо

20:41пожаловаться #16

tenKe in Moscow Spark

sq.recentProgress

22:47пожаловаться #17

2021 December 12

Ivan in Moscow Spark

Спасибо

Может кому-то поможет: F.current_timestamp всегда возвращает время на начале запроса (смотрите документацию), по этому я использовал свою UDF в которой вызываю java метод для получения текущего времени в конце запроса и получаю разницу с timestamp из kafka. Recent progress хорош для ноутбука, но для фонового пайплайна имхо не очень

04:15пожаловаться #18

2021 December 13

Vladislav Verba in Moscow Spark

Всем привет!
А как в мире спарка принято работать с сторонними зависимостями на кластере? У нас свой standalone кластерок, данные лежат в deltalake таблицах. Но много внутренних заказчиков и все они хотят мап-редусить свои кастомные с++ алгоритмы к этим данным, и там под капотом могут быть совершенно любые зависимости - кодеки, opencv, какие-то самописные либы. И мы боимся ставить все это на кластер, т.к слишком сложно поддерживать, обновлять, непонятно что делать если возникнут конфликты версий

Как обычно решают такие проблемы?

В идеале бы уметь средствами спарка мапить целые докер-контейнеры на датафреймы, чтобы не нужно было перекачивать данные с hdfs в сторонние оркестраторы. Но, кажется, это я раскатал губу 😆

11:08пожаловаться #19

Sergey Ivanychev in Moscow Spark

Спарк на кубере решает эту проблему — при запуске драйвера можно указать docker-образ, который надо использовать на драйвере и экзекьютерах