Size: a a a

2019 September 17

AS

Andrey Sutugin in Data Engineers
Vladislav Akatov
Вопрос по Apache Spark. Количество выходных файлов при вызове метода write у DataFrame можно контролировать методом repartition. Кто-нибудь знает, как задать размер выходных файлов    в формате parquet в байтах при записи?
Еще можно попробовать:
df.write.option("maxRecordsPerFile", n)

Еще есть вот такая штука, но я ничего адекватного не смог получить:
import org.apache.spark.util.SizeEstimator val size = SizeEstimator.estimate(df)

Ну или вот так, но адекватный размер возвращаел у меня, только при чтении с диска:
val catalyst_plan = df.queryExecution.logical
val df_size_in_bytes = spark.sessionState.executePlan( catalyst_plan).optimizedPlan.stats.sizeInBytes
источник
2019 September 18

PA

Polina Azarova in Data Engineers
Uncel Duk
при условии что откусили память/ядра у ярна (в конфигах)
С сигруппами?
источник

UD

Uncel Duk in Data Engineers
Polina Azarova
С сигруппами?
Да
источник

C

Combot in Data Engineers
Jack LaFaME has been banned! Reason: CAS ban.
источник

AZ

Anton Zadorozhniy in Data Engineers
кмк используйте наздоровье, но утилизация кластера будет низкая, плюс управление ресурсами остается проблемой (но это в любом случае проблема при сочетании YARN / non-YARN нагрузки на он-преме, независимо от того где бежит ваша не ярновая нагрузка)
источник

DP

Dumitru Preguza in Data Engineers
Привет,
https://docs.oracle.com/cd/B19306_01/server.102/b14200/functions129.htm
Есть аналог REGEXP_INSTR в спарке ?
источник

ПФ

Паша Финкельштейн in Data Engineers
Dumitru Preguza
Привет,
https://docs.oracle.com/cd/B19306_01/server.102/b14200/functions129.htm
Есть аналог REGEXP_INSTR в спарке ?
rlike ?
источник

ПФ

Паша Финкельштейн in Data Engineers
Если нужен оттуда position  —то можно заиспользовать substr
источник

DP

Dumitru Preguza in Data Engineers
нет, он возврашает true/false, мне нужен index этого regex, и что бы можно было выбрать 3 параметра: start, occurrence, position after occurrence

Вот как выглядит юзкэйс:
SELECT REGEXP_INSTR('AN AN AN', 'AN', 1, 1, 1) FROM DUAL
источник

ПФ

Паша Финкельштейн in Data Engineers
аааа
источник

ПФ

Паша Финкельштейн in Data Engineers
ну явно можно эмулировать через split
источник

DB

Daniil Berdnikov in Data Engineers
Всем привет!
Подскажите, пожалуйста, сейчас перехожу на позицию, где активно используется Big Data, ранее с этим не работал, но есть хороший опыт работы с MS SQL
Какие есть нюансы при подобном переходе, которые нужно учитывать? Если есть статьи, можно ткнуть носом в них, я дальше докопаю
источник

S

Stanislav in Data Engineers
бигдата бигдате рознь
источник

DB

Daniil Berdnikov in Data Engineers
Stanislav
бигдата бигдате рознь
Конкретизирую - обещали Teradata
источник

M

Mi in Data Engineers
Dumitru Preguza
нет, он возврашает true/false, мне нужен index этого regex, и что бы можно было выбрать 3 параметра: start, occurrence, position after occurrence

Вот как выглядит юзкэйс:
SELECT REGEXP_INSTR('AN AN AN', 'AN', 1, 1, 1) FROM DUAL
я тут на хайве по быстрому накидал, на спарке должно тоже работать:

SELECT length(regexp_extract(substr('${SRC}', ${START_POS}), '${PTRN}', 0)) + ${START_POS}
источник

M

Mi in Data Engineers
источник

DP

Dumitru Preguza in Data Engineers
вау спасибо большое
источник

M

Mi in Data Engineers
хотя стоп, может и не совсем работает 😅
источник

M

Mi in Data Engineers
не хватает индекса начала этой подстроки
источник

DP

Dumitru Preguza in Data Engineers
я буду учитывать и создам свой велосипед )
источник