Size: a a a

2019 August 01

PK

Pavel Klemenkov in Moscow Spark
Ren
День добрый! А подскажите - бывает ли трансляция Moscow Spark?
Будет и трансляция и запись
источник

R

Ren in Moscow Spark
А ссылку на трансляцию как можно получить? После реги? Или рега только для очного?
источник

PK

Pavel Klemenkov in Moscow Spark
Ren
А ссылку на трансляцию как можно получить? После реги? Или рега только для очного?
Ссылка будет в этом чате за 10-15 минут до начала
источник

R

Ren in Moscow Spark
Pavel Klemenkov
Ссылка будет в этом чате за 10-15 минут до начала
источник

R

Ren in Moscow Spark
Спасибо!
источник

K

KrivdaTheTriewe in Moscow Spark
Pavel Klemenkov
Ссылка будет в этом чате за 10-15 минут до начала
ура
источник

K

KrivdaTheTriewe in Moscow Spark
приду
источник

K

KrivdaTheTriewe in Moscow Spark
интересно, Пётор придет?
источник

PK

Pavel Klemenkov in Moscow Spark
Какой из?
источник

K

KrivdaTheTriewe in Moscow Spark
@tenKe вы выбрали что то для стриминга и датаквалити по нему?
источник

t

tenKe in Moscow Spark
KrivdaTheTriewe
@tenKe вы выбрали что то для стриминга и датаквалити по нему?
первую часть вопроса не совсем понял, по второй обходимся тем же етл над стримами
источник

K

KrivdaTheTriewe in Moscow Spark
ну условно, вы как-то проверяете в микробатче значения какие-то  или потом батчем уже качество данных смотрите?
источник

t

tenKe in Moscow Spark
KrivdaTheTriewe
ну условно, вы как-то проверяете в микробатче значения какие-то  или потом батчем уже качество данных смотрите?
на стриме
источник

K

KrivdaTheTriewe in Moscow Spark
tenKe
на стриме
Вы какой - то фреймворк используете или сами условия кодом расписали?
источник

t

tenKe in Moscow Spark
все руками, никакой электроники)
источник
2019 August 02

ab

a b in Moscow Spark
Всем привет, подскажите по поведению спарка, есть логи в паркете (около 2 Tb), ищу в них регуляркой определенный паттерн, хочу записать csv с 100 строками из логов, удовлетворяющему условию.

val df = spark.read.parquet("/path/to/parquet/*").filter("_raw rlike 'GET'").limit(100)
val res = df.collect()
df.write.csv("/path/to/csv")

Почему collect отдает результаты почти сразу же, а write.csv запускает фильтр видимо по всем данным, а только потом выполняет limit?
источник

DG

Denis Gabaydulin in Moscow Spark
Привет.
Кто нибудь сталкивался с проблемой (см. также тикеты внутри) в spark 2.4.x + zeppelin 0.8.1:
https://issues.apache.org/jira/browse/SPARK-20525

Или может хотя бы объяснить в чем проблема, на пальцах?
источник
2019 August 06

SO

Simon Osipov in Moscow Spark
источник

PK

Pavel Klemenkov in Moscow Spark
Хм, бодренько мы закрыли регистрацию в этот раз ))
источник

С

Сюткин in Moscow Spark
Pavel Klemenkov
Хм, бодренько мы закрыли регистрацию в этот раз ))
Секрет в офисе
источник