Телеграмм чат группы moscowspark страница 875

Size: a a a

Moscow Spark

1189 membersпожаловаться на группу

2021 October 31

KrivdaTheTriewe in Moscow Spark

для которого ты структ тайп можешь вывести

источник

16:50пожаловаться #1

Grigory Pomadchin in Moscow Spark

а схема тогда зачем

источник

16:52пожаловаться #2

kvadratura in Moscow Spark

мы храним тестовую дату в самом коде. лист из туплов -> createDataFrame

типа такого. хорошо, т. к. тестовая дата лежит обычно в том же файле, что и сам тест. в итоге и дифф в гите читабельный, и к-во файлов при изменении небольшое

источник

17:14пожаловаться #3

kvadratura in Moscow Spark

сс

источник

17:18пожаловаться #4

Pavel Lu in Moscow Spark

Да, хорошая идея, спасибо

источник

17:34пожаловаться #5

Pavel Lu in Moscow Spark

И ещё вопрос - а кто-нибудь использует типизированные датасеты? Да, поначалу не очень удобно, но когда всё готово, удобно поддерживать, типа переименовал/добавил/удалил атрибут, и компилятор всё показывает

источник

17:37пожаловаться #6

T in Moscow Spark

Да

источник

18:01пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

Конечно. У нас всё на них построено в целом

источник

19:41пожаловаться #8

ПФ

Паша Финкельштейн... in Moscow Spark

Но кое-где всё-таки не типизированные, и вот для этих мест хотим сделать dataframe introspection

источник

19:41пожаловаться #9

2021 November 01

Anton Makhover in Moscow Spark

Посоветуйте либы для написания юнит-тестов для кода на PySpark. Вот такую нашел https://github.com/MrPowers/chispa

GitHub

GitHub - MrPowers/chispa: PySpark test helper methods with beautiful error messages

PySpark test helper methods with beautiful error messages - GitHub - MrPowers/chispa: PySpark test helper methods with beautiful error messages

источник

18:44пожаловаться #10

2021 November 02

Ivan Krovyakov in Moscow Spark

Коллеги, добрый вечер! Мы уже в онлайне, прямо сейчас @epikhinm рассказывает про Spark over S3)
https://www.youtube.com/watch?v=xuak6VOS6ns

YouTube

DataOps Community Meetup

Систематизировать и извлекать из данных ценность помогает DataOps — одна из самых молодых и обсуждаемых концепций в ИТ. Как и в случае DevOps, DataOps — не только принципы организации работы с данными, но и инструменты, облегчающие задачу, и архитектурные паттерны работы с этими инструментами.

Узнать о реальных возможностях использования новых инструментов по обработке данных помогает обмен опытом с коллегами.

Послушайте опыт экспертов из Yandex.Cloud, Glowbyte Consulting, Beeline, Lamoda и Anabar.

00:00 Интро
04:40 Готовим данные по-облачному: как собрать витрины в S3 на временных кластерах Data Proc. Дмитрий Морозов, Glowbyte Consulting
22:50 Как организовать работу с объектным хранилищем для Apache Spark.
Михаил Епихин, Yandex.Cloud
55:38 Airflow in production: как обустроить использование Airflow для оркестрации Spark-задач в мультитенантной среде.
Донат Фетисов, билайн
1:22:50 Trino - единый sql или как поджойнить все со всем.
Павел Тарасов, anabar.ai
01:46:47 Apache Hudi: Update и Delete в data lake…

источник

17:32пожаловаться #11

Chern Oleksander in Moscow Spark

всем привет, подскажите плиз, как правильно написать reg_exp

/?id=14685_157512_0_0_s2&my_code=p16735p3172849pd60cl2447&your_id=etarg_158522_19313

Хочу достать то что жирным
пытался вот так но без результатно

F.regexp_extract(F.col('col_name'), '(.my_code)*&' ,1)

Спасибо!

источник

19:19пожаловаться #12

Max Ivanov in Moscow Spark

Вот так попробуй -

(?<=my_code\=)(.*)(?=&)

источник

19:26пожаловаться #13

Chern Oleksander in Moscow Spark

Неа (( Там строка идет

непонимаю блин

источник

20:28пожаловаться #14

Chern Oleksander in Moscow Spark

блин, точек понаставлял случайно ))
Работает, спасибо!

источник

20:29пожаловаться #15

Chern Oleksander in Moscow Spark

/?id=14685_157512_0_0_s2&your_id=etarg_158522_19313&my_code=p16735p3172849pd60cl2447
=====
/?my_code=p16735p3172849pd60cl2447&your_id=etarg_158522_19313&id=14685_157512_0_0_s2

Блин, а если гуляющая эта ссылка, не как не победить ?

источник

20:34пожаловаться #16

НК

Николай Крупий... in Moscow Spark

#Завтра 2021-11-03 :

☯️19:00 вебинар «Data lake и DWH: практический опыт»

💪20:00 про продвинутое использование Spark — tg voice chat