Телеграмм чат группы hadoopusers страница 1683

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 October 09

R

Renarde in Data Engineers

а вот вопросик - кто нибудь пробовал crate.io / snowflakeDB?

источник

15:30пожаловаться #1

ДШ

Дмитрий Шмыглёв in Data Engineers

а вот вопросик - кто нибудь пробовал crate.io / snowflakeDB?

Crate.io пробовал

источник

15:38пожаловаться #2

ДШ

Дмитрий Шмыглёв in Data Engineers

А что за вопрос?

источник

15:38пожаловаться #3

R

Renarde in Data Engineers

как у него с поддержкой вложенных структур? я вижу что она есть по типам данных, но я имею в виду индексирование например

источник

15:39пожаловаться #4

ДШ

Дмитрий Шмыглёв in Data Engineers

Все колонки автоматом индексируются

источник

15:39пожаловаться #5

ДШ

Дмитрий Шмыглёв in Data Engineers

Включая вложенные

источник

15:39пожаловаться #6

ДШ

Дмитрий Шмыглёв in Data Engineers

Есть сложности с массивами

источник

15:39пожаловаться #7

ДШ

Дмитрий Шмыглёв in Data Engineers

Но в целом - весьма неплохо

источник

15:40пожаловаться #8

ДШ

Дмитрий Шмыглёв in Data Engineers

При поиске он учитывет все затрагиваемые индексы

источник

15:41пожаловаться #9

2019 October 10

K

KrivdaTheTriewe in Data Engineers

https://women-in-big-data-communi.timepad.ru/event/1075959/

источник

01:48пожаловаться #10

S

Stanislav in Data Engineers

Технологии Big Data в цифровой ортодонтии. Игорь Сухоруков, Big Data тимлид в Align Technology.

источник

07:09пожаловаться #11

S

Stanislav in Data Engineers

даже и непонятно

источник

07:09пожаловаться #12

S

Stanislav in Data Engineers

как он туда прокрался

источник

07:09пожаловаться #13

OI

Oleg Ilinsky in Data Engineers

Привет) вопрос
Можно ли в одном джобе запустить несколько стримов? И, если можно, то как?)
Я пробовал насоздавать в цикле несколько стримов

for (topic <- topics_list) {
...
    val stream_write = sparkSession.readStream.schema (input_data_schema).format ("parquet").load (files_path)
          .writeStream.foreachBatch (call_proc).outputMode ("append").start ()
          stream_write.awaitTermination ()
          sparkSession.stop ()
}

Что логично, он доходит до первого стрима и на нём и остаётся 😊
Есть ли стандартная апишка для этого? Или надо прям параллелить внутри джоба на несколько тредов или процессов и из каждого запускать стрим?

источник

07:26пожаловаться #14

GP

Grigory Pomadchin in Data Engineers

Привет) вопрос
Можно ли в одном джобе запустить несколько стримов? И, если можно, то как?)
Я пробовал насоздавать в цикле несколько стримов

for (topic <- topics_list) {
...
    val stream_write = sparkSession.readStream.schema (input_data_schema).format ("parquet").load (files_path)
          .writeStream.foreachBatch (call_proc).outputMode ("append").start ()
          stream_write.awaitTermination ()
          sparkSession.stop ()
}

Что логично, он доходит до первого стрима и на нём и остаётся 😊
Есть ли стандартная апишка для этого? Или надо прям параллелить внутри джоба на несколько тредов или процессов и из каждого запускать стрим?

Можно без паралела - читани из разных сурсов и мапайся/ форичись / джойнись

источник

07:40пожаловаться #15

GP

Grigory Pomadchin in Data Engineers

он ждать будет только на ssc.awaitTermination

источник

07:41пожаловаться #16

GP

Grigory Pomadchin in Data Engineers

у тебя висит потому что ты в фор компехенщине на первой итерации вешаешь его

источник

07:41пожаловаться #17

OI

Oleg Ilinsky in Data Engineers

Grigory Pomadchin

у тебя висит потому что ты в фор компехенщине на первой итерации вешаешь его

ну вот я тоже так понял)

источник

07:42пожаловаться #18

OI

Oleg Ilinsky in Data Engineers

Grigory Pomadchin

Можно без паралела - читани из разных сурсов и мапайся/ форичись / джойнись

Ну т.е. несколько стримов создать нельзя, только 1 и там уже раскладывать по табличкам?

источник

07:42пожаловаться #19

OI

Oleg Ilinsky in Data Engineers

хотя стоп, у меня же схемы разные

источник

07:43пожаловаться #20