Size: a a a

2020 November 02

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
У него есть разные стратегии для таблиц. Есть copy on write когда он вмердживает все в паркет на этапе записи. Это для батча. А есть merge on read, когда новые данные наваливаются рядом в авро и периодически на этапе чтения вмердживаются. Это для стриминга. И есть ещё запросы оптимизированные на чтение и чтение по ключу.
по-моему Copy-on-Write это такой очень специальный мердж, там вроде свою логику (когда по пачке колонок, к примеру) нельзя поставить
источник

AT

Al T in Data Engineers
это все неважно, важно щас про Livy )) см. вопрос выше ))
источник

AZ

Anton Zadorozhniy in Data Engineers
Anton Zadorozhniy
по-моему Copy-on-Write это такой очень специальный мердж, там вроде свою логику (когда по пачке колонок, к примеру) нельзя поставить
а нет, вру, можно их через запятую в RECORDKEY_FIELD_OPT_KEY указать
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
по-моему Copy-on-Write это такой очень специальный мердж, там вроде свою логику (когда по пачке колонок, к примеру) нельзя поставить
Можно, почему. Через запятую.
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Можно, почему. Через запятую.
да, можно
источник

AZ

Anton Zadorozhniy in Data Engineers
вообще худи видно что работающее, батл-тестед, решение, но видно что оно писалось постепенно для каких-то очень практических задач.. и архитектура такая, патчворк, взять ту же синхронизацию с хайв
источник

A

Aleksey in Data Engineers
Al T
дорогие мои эксперты, подскажите плиз - Livy может одновременно исполнять multiple statements в одной session? или надо несколько session создавать?
Вроде через POST/sessions можно, а вот про шаринг DF не подскажу, хотя если одна сессия, то должно работать
источник

AT

Al T in Data Engineers
ну я вот как понял что можно сабмитить только если session status - idle
источник

AE

Alexey Evdokimov in Data Engineers
кто знает, для жабки есть нормальный аналог linq to objects?
источник

A

Aleksey in Data Engineers
Al T
ну я вот как понял что можно сабмитить только если session status - idle
Их там пачкой можно засабмитить, но выполняться естественно будут последовательно в рамках одной сессии, по аналогии со spark-shell
источник

AT

Al T in Data Engineers
Оки спасиб!
источник

AE

Alexey Evdokimov in Data Engineers
чё я опять глупости спрашиваю.

как показывает практика, отсутствие схемы есть серьёзное конкурентное преимущество, потому как позволяет консюмить любые датасеты. теоретически. но отсутствие схемы не позволяет юзать spark sql и похожие вещи. вот мне и интересно, не сделал ли уже кто-нить аналог linq чтобы самому его не писать.
источник

AE

Alexey Evdokimov in Data Engineers
компилятор sql, ежели делать парсер на антлере, легко укладывается в пару тыщ строк. а вот предикаты к чему попало писать чё-то муторно
источник

AS

Andrey Smirnov in Data Engineers
Alexey Evdokimov
чё я опять глупости спрашиваю.

как показывает практика, отсутствие схемы есть серьёзное конкурентное преимущество, потому как позволяет консюмить любые датасеты. теоретически. но отсутствие схемы не позволяет юзать spark sql и похожие вещи. вот мне и интересно, не сделал ли уже кто-нить аналог linq чтобы самому его не писать.
как аналог языка не встречал, на скале обычно просто функции над коллекциями используются, или что похоже на for,
сейчас погуглил, нашел эквиваленты для функций
https://gist.github.com/SteveBate/6f463283d6e0b5567db9
источник

AE

Alexey Evdokimov in Data Engineers
ну это такой закат солнца вручную
источник

AE

Alexey Evdokimov in Data Engineers
у меня тут чё. у меня тут разнородные датасеты с кучей полей, к которым хочется сделать SELECT, но схема ни фига не задана. известно, что в каждой записи есть штук пять более-менее одинаковых пропертей, и вот по ним хочется чё-нить выбрать для анализа
источник

AE

Alexey Evdokimov in Data Engineers
сами-то объекты я могу с грехом пополам привести к JTS Point, и все проперти сложить в мапу, которую засунуть в userData для каждого Point'а
источник

AE

Alexey Evdokimov in Data Engineers
но эт частный случай, может и не Point быть, а например какая-нить коллекция с вложенными в неё Point'ами
источник

А

Алексей in Data Engineers
опция
option("inferSchema", "true")
не подходит для автоматического определения схемы при чтении?
источник

N

Nikita Blagodarnyy in Data Engineers
источник