Size: a a a

2019 October 09

R

Renarde in Data Engineers
а вот вопросик - кто нибудь пробовал crate.io / snowflakeDB?
источник

ДШ

Дмитрий Шмыглёв in Data Engineers
Renarde
а вот вопросик - кто нибудь пробовал crate.io / snowflakeDB?
Crate.io пробовал
источник

ДШ

Дмитрий Шмыглёв in Data Engineers
А что за вопрос?
источник

R

Renarde in Data Engineers
как у него с поддержкой вложенных структур? я вижу что она есть по типам данных, но я имею в виду индексирование например
источник

ДШ

Дмитрий Шмыглёв in Data Engineers
Все колонки автоматом индексируются
источник

ДШ

Дмитрий Шмыглёв in Data Engineers
Включая вложенные
источник

ДШ

Дмитрий Шмыглёв in Data Engineers
Есть сложности с массивами
источник

ДШ

Дмитрий Шмыглёв in Data Engineers
Но в целом - весьма неплохо
источник

ДШ

Дмитрий Шмыглёв in Data Engineers
При поиске он учитывет все затрагиваемые индексы
источник
2019 October 10

K

KrivdaTheTriewe in Data Engineers
источник

S

Stanislav in Data Engineers
Технологии Big Data в цифровой ортодонтии. Игорь Сухоруков, Big Data тимлид в Align Technology.
источник

S

Stanislav in Data Engineers
даже и непонятно
источник

S

Stanislav in Data Engineers
как он туда прокрался
источник

OI

Oleg Ilinsky in Data Engineers
Привет) вопрос
Можно ли в одном джобе запустить несколько стримов? И, если можно, то как?)
Я пробовал насоздавать в цикле несколько стримов
for (topic <- topics_list) {
...
   val stream_write = sparkSession.readStream.schema (input_data_schema).format ("parquet").load (files_path)
         .writeStream.foreachBatch (call_proc).outputMode ("append").start ()
         stream_write.awaitTermination ()
         sparkSession.stop ()
}

Что логично, он доходит до первого стрима и на нём и остаётся 😊
Есть ли стандартная апишка для этого? Или надо прям параллелить внутри джоба на несколько тредов или процессов и из каждого запускать стрим?
источник

GP

Grigory Pomadchin in Data Engineers
Oleg Ilinsky
Привет) вопрос
Можно ли в одном джобе запустить несколько стримов? И, если можно, то как?)
Я пробовал насоздавать в цикле несколько стримов
for (topic <- topics_list) {
...
   val stream_write = sparkSession.readStream.schema (input_data_schema).format ("parquet").load (files_path)
         .writeStream.foreachBatch (call_proc).outputMode ("append").start ()
         stream_write.awaitTermination ()
         sparkSession.stop ()
}

Что логично, он доходит до первого стрима и на нём и остаётся 😊
Есть ли стандартная апишка для этого? Или надо прям параллелить внутри джоба на несколько тредов или процессов и из каждого запускать стрим?
Можно без паралела - читани из разных сурсов и мапайся/ форичись / джойнись
источник

GP

Grigory Pomadchin in Data Engineers
он ждать будет только на ssc.awaitTermination
источник

GP

Grigory Pomadchin in Data Engineers
у тебя висит потому что ты в фор компехенщине на первой итерации вешаешь его
источник

OI

Oleg Ilinsky in Data Engineers
Grigory Pomadchin
у тебя висит потому что ты в фор компехенщине на первой итерации вешаешь его
ну вот я тоже так понял)
источник

OI

Oleg Ilinsky in Data Engineers
Grigory Pomadchin
Можно без паралела - читани из разных сурсов и мапайся/ форичись / джойнись
Ну т.е. несколько стримов создать нельзя, только 1 и там уже раскладывать по табличкам?
источник

OI

Oleg Ilinsky in Data Engineers
хотя стоп, у меня же схемы разные
источник