Телеграмм чат группы hadoopusers страница 2915

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2007 membersпожаловаться на группу

2020 November 02

AZ

Anton Zadorozhniy in Data Engineers

Nikita Blagodarnyy

У него есть разные стратегии для таблиц. Есть copy on write когда он вмердживает все в паркет на этапе записи. Это для батча. А есть merge on read, когда новые данные наваливаются рядом в авро и периодически на этапе чтения вмердживаются. Это для стриминга. И есть ещё запросы оптимизированные на чтение и чтение по ключу.

по-моему Copy-on-Write это такой очень специальный мердж, там вроде свою логику (когда по пачке колонок, к примеру) нельзя поставить

источник

13:51пожаловаться #1

AT

Al T in Data Engineers

это все неважно, важно щас про Livy )) см. вопрос выше ))

источник

13:52пожаловаться #2

AZ

Anton Zadorozhniy in Data Engineers

Anton Zadorozhniy

по-моему Copy-on-Write это такой очень специальный мердж, там вроде свою логику (когда по пачке колонок, к примеру) нельзя поставить

а нет, вру, можно их через запятую в RECORDKEY_FIELD_OPT_KEY указать

источник

13:53пожаловаться #3

N

Nikita Blagodarnyy in Data Engineers

Anton Zadorozhniy

по-моему Copy-on-Write это такой очень специальный мердж, там вроде свою логику (когда по пачке колонок, к примеру) нельзя поставить

Можно, почему. Через запятую.

источник

13:53пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

Nikita Blagodarnyy

Можно, почему. Через запятую.

да, можно

источник

13:55пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

вообще худи видно что работающее, батл-тестед, решение, но видно что оно писалось постепенно для каких-то очень практических задач.. и архитектура такая, патчворк, взять ту же синхронизацию с хайв

источник

14:01пожаловаться #6

A

Aleksey in Data Engineers

Al T

дорогие мои эксперты, подскажите плиз - Livy может одновременно исполнять multiple statements в одной session? или надо несколько session создавать?

Вроде через POST/sessions можно, а вот про шаринг DF не подскажу, хотя если одна сессия, то должно работать

источник

14:07пожаловаться #7

AT

Al T in Data Engineers

ну я вот как понял что можно сабмитить только если session status - idle

источник

14:17пожаловаться #8

AE

Alexey Evdokimov in Data Engineers

кто знает, для жабки есть нормальный аналог linq to objects?

источник

16:11пожаловаться #9

A

Aleksey in Data Engineers

Al T

ну я вот как понял что можно сабмитить только если session status - idle

Их там пачкой можно засабмитить, но выполняться естественно будут последовательно в рамках одной сессии, по аналогии со spark-shell

источник

16:42пожаловаться #10

AT

Al T in Data Engineers

Оки спасиб!

источник

16:44пожаловаться #11

AE

Alexey Evdokimov in Data Engineers

чё я опять глупости спрашиваю.

как показывает практика, отсутствие схемы есть серьёзное конкурентное преимущество, потому как позволяет консюмить любые датасеты. теоретически. но отсутствие схемы не позволяет юзать spark sql и похожие вещи. вот мне и интересно, не сделал ли уже кто-нить аналог linq чтобы самому его не писать.

источник

17:01пожаловаться #12

AE

Alexey Evdokimov in Data Engineers

компилятор sql, ежели делать парсер на антлере, легко укладывается в пару тыщ строк. а вот предикаты к чему попало писать чё-то муторно

источник

17:07пожаловаться #13

AS

Andrey Smirnov in Data Engineers

Alexey Evdokimov

чё я опять глупости спрашиваю.

как показывает практика, отсутствие схемы есть серьёзное конкурентное преимущество, потому как позволяет консюмить любые датасеты. теоретически. но отсутствие схемы не позволяет юзать spark sql и похожие вещи. вот мне и интересно, не сделал ли уже кто-нить аналог linq чтобы самому его не писать.

как аналог языка не встречал, на скале обычно просто функции над коллекциями используются, или что похоже на for,
сейчас погуглил, нашел эквиваленты для функций
https://gist.github.com/SteveBate/6f463283d6e0b5567db9

Scala LINQ equivalents

Scala LINQ equivalents. GitHub Gist: instantly share code, notes, and snippets.

источник

17:08пожаловаться #14

AE

Alexey Evdokimov in Data Engineers

ну это такой закат солнца вручную

источник

17:12пожаловаться #15

AE

Alexey Evdokimov in Data Engineers

у меня тут чё. у меня тут разнородные датасеты с кучей полей, к которым хочется сделать SELECT, но схема ни фига не задана. известно, что в каждой записи есть штук пять более-менее одинаковых пропертей, и вот по ним хочется чё-нить выбрать для анализа

источник

17:14пожаловаться #16

AE

Alexey Evdokimov in Data Engineers

сами-то объекты я могу с грехом пополам привести к JTS Point, и все проперти сложить в мапу, которую засунуть в userData для каждого Point'а

источник

17:15пожаловаться #17

AE

Alexey Evdokimov in Data Engineers

но эт частный случай, может и не Point быть, а например какая-нить коллекция с вложенными в неё Point'ами

источник

17:16пожаловаться #18

А

Алексей in Data Engineers

опция

option("inferSchema", "true")

не подходит для автоматического определения схемы при чтении?

источник

17:18пожаловаться #19

N

Nikita Blagodarnyy in Data Engineers

https://matemarketing.timepad.ru/event/1130936/

matemarketing.timepad.ru

МАТЕМАРКЕТИНГ-2020 / События на TimePad.ru

Матемáркетинг – международная практическая конференция по маркетинговой и продуктовой аналитике, монетизации и решениях, основанным на данных.

Целевая аудитория  маркетинговые и продуктовые аналитики, руководители и директора по аналитике, performance-маркетологи и директора по маркетингу, product-менеджеры и data-инженеры.

источник

17:23пожаловаться #20