Size: a a a

2021 October 31

K

KrivdaTheTriewe in Moscow Spark
для которого ты структ тайп можешь вывести
источник

GP

Grigory Pomadchin in Moscow Spark
а схема тогда зачем
источник

k

kvadratura in Moscow Spark
мы храним тестовую дату в самом коде. лист из туплов -> createDataFrame

типа такого. хорошо, т. к. тестовая дата лежит обычно в том же файле, что и сам тест. в итоге и дифф в гите читабельный, и к-во файлов при изменении небольшое
источник

k

kvadratura in Moscow Spark
сс
источник

PL

Pavel Lu in Moscow Spark
Да, хорошая идея, спасибо
источник

PL

Pavel Lu in Moscow Spark
И ещё вопрос - а кто-нибудь использует типизированные датасеты? Да, поначалу не очень удобно, но когда всё готово, удобно поддерживать, типа переименовал/добавил/удалил атрибут, и компилятор всё показывает
источник

T

T in Moscow Spark
Да
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Конечно. У нас всё на них построено в целом
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Но кое-где всё-таки не типизированные, и вот для этих мест хотим сделать dataframe introspection
источник
2021 November 01

AM

Anton Makhover in Moscow Spark
Посоветуйте либы для написания юнит-тестов для кода на PySpark. Вот такую нашел https://github.com/MrPowers/chispa
источник
2021 November 02

IK

Ivan Krovyakov in Moscow Spark
Коллеги, добрый вечер! Мы уже в онлайне, прямо сейчас @epikhinm рассказывает про Spark over S3)
https://www.youtube.com/watch?v=xuak6VOS6ns
YouTube
DataOps Community Meetup
Систематизировать и извлекать из данных ценность помогает DataOps — одна из самых молодых и обсуждаемых концепций в ИТ. Как и в случае DevOps, DataOps — не только принципы организации работы с данными, но и инструменты, облегчающие задачу, и архитектурные паттерны работы с этими инструментами.

Узнать о реальных возможностях использования новых инструментов по обработке данных помогает обмен опытом с коллегами.

Послушайте опыт экспертов из Yandex.Cloud, Glowbyte Consulting, Beeline, Lamoda и Anabar.

00:00 Интро
04:40 Готовим данные по-облачному: как собрать витрины в S3 на временных кластерах Data Proc. Дмитрий Морозов, Glowbyte Consulting
22:50 Как организовать работу с объектным хранилищем для Apache Spark.
Михаил Епихин, Yandex.Cloud
55:38 Airflow in production: как обустроить использование Airflow для оркестрации Spark-задач в мультитенантной среде.
Донат Фетисов,  билайн
1:22:50 Trino - единый sql или как поджойнить все со всем.
Павел Тарасов, anabar.ai
01:46:47 Apache Hudi: Update и Delete в data lake…
источник

CO

Chern Oleksander in Moscow Spark
всем привет, подскажите плиз, как правильно написать reg_exp

/?id=14685_157512_0_0_s2&my_code=p16735p3172849pd60cl2447&your_id=etarg_158522_19313


Хочу достать то что жирным
пытался вот так но без результатно

F.regexp_extract(F.col('col_name'), '(.my_code)*&' ,1)

Спасибо!
источник

MI

Max Ivanov in Moscow Spark
Вот так попробуй -
(?<=my_code\=)(.*)(?=&)
источник

CO

Chern Oleksander in Moscow Spark
Неа (( Там строка идет

непонимаю блин
источник

CO

Chern Oleksander in Moscow Spark
блин, точек понаставлял случайно ))
Работает, спасибо!
источник

CO

Chern Oleksander in Moscow Spark
/?id=14685_157512_0_0_s2&your_id=etarg_158522_19313&my_code=p16735p3172849pd60cl2447
=====
/?my_code=p16735p3172849pd60cl2447&your_id=etarg_158522_19313&id=14685_157512_0_0_s2

Блин, а если гуляющая эта ссылка, не как не победить ?
источник

НК

Николай Крупий... in Moscow Spark
источник

MI

Max Ivanov in Moscow Spark
Ну я так понял там у тебя два случая либо идет символ & либо конец строки. Если так то попробуй вот такую -
(?<=my_code\=)(.*?)(?=&|$)
источник

R

R in Moscow Spark
У меня есть на скале заготовки, но если хочешь, можешь законтрибьютить и добавить для питона реализацию)
источник

R

R in Moscow Spark
источник