Телеграмм чат группы hadoopusers страница 1640

2019 September 24

AZ

Anton Zadorozhniy in Data Engineers

но последнее может дать в два раза ускорение максимум...

источник

14:03пожаловаться #1

RI

Rustam Iksanov in Data Engineers

Вопрос по spark phoenix connector. Читаю через

spark.read
      .format("org.apache.phoenix.spark")
      .options(Map("table" -> tableName, "zkUrl" -> phoenixHost))
      .load.show()

ставлю фильтр по ключу. jdbc клиенты отрабатывают очень быстро(пару секунд максимум), а вот спарк не хочет это делать быстро, ранится минутами. Кто-нибудь сталкивался с этим?

источник

14:34пожаловаться #2

RI

Rustam Iksanov in Data Engineers

Я кажется разобрался. В таком варианте, spark не закидывает фильтр внутрь запроса. Кто-то может сказать, как это сделать? Или только через jdbc?

источник

15:01пожаловаться #3

DZ

Dmitry Zaytsev in Data Engineers

Rustam Iksanov

Я кажется разобрался. В таком варианте, spark не закидывает фильтр внутрь запроса. Кто-то может сказать, как это сделать? Или только через jdbc?

Как тут на пример
val pushdownQuery = """(SELECT DISTINCT(FLIGHT_NUMBER) blah blah blah ) tbl_alias""" val dbDataFrame = spark.read.jdbc(url, pushdownQuery, "COUNTRY_CODE", 0L, 4L, 4, connectionProperties)

источник

21:14пожаловаться #4

DZ

Dmitry Zaytsev in Data Engineers

With Pushdown query in spark, how to get parallelism in spark-HBASE (BIGSQL as SQL engine)? - Stack Overflow
https://stackoverflow.com/questions/51977471/with-pushdown-query-in-spark-how-to-get-parallelism-in-spark-hbase-bigsql-as-s

Stack Overflow

With Pushdown query in spark, how to get parallelism in spark-HBASE (BIGSQL as SQL engine)?

In Spark PushdownQuery is processed by SQL Engine of the DB and with the result from it, dataframe is constructed.
so, spark querying the results of that query.

val pushdownQuery = """(SELECT DI...

источник

21:15пожаловаться #5

RI

Rustam Iksanov in Data Engineers

Dmitry Zaytsev

With Pushdown query in spark, how to get parallelism in spark-HBASE (BIGSQL as SQL engine)? - Stack Overflow
https://stackoverflow.com/questions/51977471/with-pushdown-query-in-spark-how-to-get-parallelism-in-spark-hbase-bigsql-as-s

Stack Overflow

With Pushdown query in spark, how to get parallelism in spark-HBASE (BIGSQL as SQL engine)?

In Spark PushdownQuery is processed by SQL Engine of the DB and with the result from it, dataframe is constructed.
so, spark querying the results of that query.

val pushdownQuery = """(SELECT DI...

Я так и сделал. Искал иные варианты

источник

21:37пожаловаться #6

2019 September 25

DZ

Dmitry Zaytsev in Data Engineers

Rustam Iksanov

Я так и сделал. Искал иные варианты

Могу ошибаться. Судя по всему все в "руках" используемого коннектора.
В jdbc как правило обходимся запросом вместо таблицы.
Cassandra коннектор вроде бы умеет пробрасывать предикат но только по определенным правилам и видимо не все.
https://docs.datastax.com/en/dse/6.0/dse-dev/datastax_enterprise/spark/sparkPredicatePushdown.html

Datastax

Using Spark predicate push down in Spark SQL queries

Spark predicate push down to database allows for better optimized Spark SQL queries.

источник

09:59пожаловаться #7

DZ

Dmitry Zaytsev in Data Engineers

Orc, parquet пробрасываются

источник

09:59пожаловаться #8

DZ

Dmitry Zaytsev in Data Engineers

https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/developing-spark-applications/content/enabling_predicate_push-down_optimization.html

источник

10:00пожаловаться #9

DZ

Dmitry Zaytsev in Data Engineers

Надо читать доку на феникс

источник

10:00пожаловаться #10

C

Combot in Data Engineers

Saha Power has been banned! Reason: CAS ban.

источник

12:50пожаловаться #11

RI

Rustam Iksanov in Data Engineers

Инженеры! Вопрос такой. Посмотрел примеры, и при join'ах советуют указывать массив с названием колонок, по которым нужно объединять, чтобы не возникало дублей колонок. Почему не советуют такой прием: a.join(b, a.columns.intersect(b.columns)) ? Чтобы точно объединять по пересекающимся?

источник

14:43пожаловаться #12

RI

Rustam Iksanov in Data Engineers

И еще вопрос, можно ли сделать запись датафрейма в разные приемники данных параллельно.

источник

14:55пожаловаться #13

АП

Алексей Пахомов in Data Engineers

Rustam Iksanov

Инженеры! Вопрос такой. Посмотрел примеры, и при join'ах советуют указывать массив с названием колонок, по которым нужно объединять, чтобы не возникало дублей колонок. Почему не советуют такой прием: a.join(b, a.columns.intersect(b.columns)) ? Чтобы точно объединять по пересекающимся?

Начнем с простого, не всегда natural join является тем, что вы хотите. Например в числе пересекающихся колонок оказался какой нибудь заботливо оставленный флаг, отладить такой кейс будет ооочень тяжело в силу неявности действия

источник

15:15пожаловаться #14

RI

Rustam Iksanov in Data Engineers

Алексей Пахомов

Начнем с простого, не всегда natural join является тем, что вы хотите. Например в числе пересекающихся колонок оказался какой нибудь заботливо оставленный флаг, отладить такой кейс будет ооочень тяжело в силу неявности действия

Я согласен, но искать по коду, где происходит дублирование колонок, просто потому, что эту колонку забыли включить в джоин тоже не просто.

источник

15:18пожаловаться #15

АП

Алексей Пахомов in Data Engineers

Ровно это и иллюстрирует проблему, вы хотя бы знаете, что нужно что-то искать, в обратном случае вместо указания, что нужно разрешить конфликт, вы получаете утечку где-то в длинном пайплайне, которую ещё нужно обнаружить

источник

15:21пожаловаться #16

АП

Алексей Пахомов in Data Engineers

А ужастиков можно начитатся во всех natural join топиках, там и про миграции есть ( аналогичный кейс с select *)

источник

15:27пожаловаться #17

RI

Rustam Iksanov in Data Engineers

Алексей Пахомов

Ровно это и иллюстрирует проблему, вы хотя бы знаете, что нужно что-то искать, в обратном случае вместо указания, что нужно разрешить конфликт, вы получаете утечку где-то в длинном пайплайне, которую ещё нужно обнаружить

То есть натурально, лучше всего делать просто Seq(columns) ручным способом?

источник

15:29пожаловаться #18

АП

Алексей Пахомов in Data Engineers

Явно указать по чему соединяете, если вы уверены что ещё одна колонка не повредит соединению, то добавляете, если повредит переименовывете или удаляете

источник

15:32пожаловаться #19

RI

Rustam Iksanov in Data Engineers

Спс

источник

15:34пожаловаться #20