Телеграмм чат группы hadoopusers страница 1621

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 September 17

AS

Andrey Sutugin in Data Engineers

Vladislav Akatov

Вопрос по Apache Spark. Количество выходных файлов при вызове метода write у DataFrame можно контролировать методом repartition. Кто-нибудь знает, как задать размер выходных файлов в формате parquet в байтах при записи?

Еще можно попробовать:
df.write.option("maxRecordsPerFile", n)

Еще есть вот такая штука, но я ничего адекватного не смог получить:
import org.apache.spark.util.SizeEstimator val size = SizeEstimator.estimate(df)

Ну или вот так, но адекватный размер возвращаел у меня, только при чтении с диска:
val catalyst_plan = df.queryExecution.logical
val df_size_in_bytes = spark.sessionState.executePlan( catalyst_plan).optimizedPlan.stats.sizeInBytes

источник

23:58пожаловаться #1

2019 September 18

PA

Polina Azarova in Data Engineers

при условии что откусили память/ядра у ярна (в конфигах)

С сигруппами?

источник

00:15пожаловаться #2

UD

Uncel Duk in Data Engineers

С сигруппами?

Да

источник

00:16пожаловаться #3

C

Combot in Data Engineers

Jack LaFaME has been banned! Reason: CAS ban.

источник

08:16пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

Да

кмк используйте наздоровье, но утилизация кластера будет низкая, плюс управление ресурсами остается проблемой (но это в любом случае проблема при сочетании YARN / non-YARN нагрузки на он-преме, независимо от того где бежит ваша не ярновая нагрузка)

источник

09:12пожаловаться #5

DP

Dumitru Preguza in Data Engineers

Привет,
https://docs.oracle.com/cd/B19306_01/server.102/b14200/functions129.htm
Есть аналог REGEXP_INSTR в спарке ?

источник

10:03пожаловаться #6

ПФ

Паша Финкельштейн in Data Engineers

Dumitru Preguza

Привет,
https://docs.oracle.com/cd/B19306_01/server.102/b14200/functions129.htm
Есть аналог REGEXP_INSTR в спарке ?

rlike ?

источник

10:06пожаловаться #7

ПФ

Паша Финкельштейн in Data Engineers

Если нужен оттуда position —то можно заиспользовать substr

источник

10:09пожаловаться #8

DP

Dumitru Preguza in Data Engineers

Паша Финкельштейн

rlike ?

нет, он возврашает true/false, мне нужен index этого regex, и что бы можно было выбрать 3 параметра: start, occurrence, position after occurrence

Вот как выглядит юзкэйс:
SELECT REGEXP_INSTR('AN AN AN', 'AN', 1, 1, 1) FROM DUAL

источник

10:13пожаловаться #9

ПФ

Паша Финкельштейн in Data Engineers

аааа

источник

10:14пожаловаться #10

ПФ

Паша Финкельштейн in Data Engineers

ну явно можно эмулировать через split

источник

10:15пожаловаться #11

DB

Daniil Berdnikov in Data Engineers

Всем привет!
Подскажите, пожалуйста, сейчас перехожу на позицию, где активно используется Big Data, ранее с этим не работал, но есть хороший опыт работы с MS SQL
Какие есть нюансы при подобном переходе, которые нужно учитывать? Если есть статьи, можно ткнуть носом в них, я дальше докопаю

источник

10:39пожаловаться #12

S

Stanislav in Data Engineers

бигдата бигдате рознь

источник

10:42пожаловаться #13

DB

Daniil Berdnikov in Data Engineers

бигдата бигдате рознь

Конкретизирую - обещали Teradata

источник

10:42пожаловаться #14

M

Mi in Data Engineers

Dumitru Preguza

нет, он возврашает true/false, мне нужен index этого regex, и что бы можно было выбрать 3 параметра: start, occurrence, position after occurrence

Вот как выглядит юзкэйс:
SELECT REGEXP_INSTR('AN AN AN', 'AN', 1, 1, 1) FROM DUAL

я тут на хайве по быстрому накидал, на спарке должно тоже работать:

SELECT length(regexp_extract(substr('${SRC}', ${START_POS}), '${PTRN}', 0)) + ${START_POS}

источник

10:49пожаловаться #15

M

Mi in Data Engineers

источник

10:50пожаловаться #16

DP

Dumitru Preguza in Data Engineers

вау спасибо большое

источник

10:50пожаловаться #17

M

Mi in Data Engineers

хотя стоп, может и не совсем работает 😅

источник

10:50пожаловаться #18

M

Mi in Data Engineers

не хватает индекса начала этой подстроки

источник

10:51пожаловаться #19

DP

Dumitru Preguza in Data Engineers

я буду учитывать и создам свой велосипед )

источник

10:51пожаловаться #20