Size: a a a

2019 September 18

UD

Uncel Duk in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
в целом лучше иметь больше нод похуже, чем маленькое количество роскошных
источник

VE

Vladimir E. in Data Engineers
Mi
hadoop ведь и разрабатывался под максимально дешевое железо
ну такое, сейчас уже много всего поменялось кажется.
источник

VE

Vladimir E. in Data Engineers
это как с data locality
источник

VE

Vladimir E. in Data Engineers
которая никому уже не нужна
источник

AZ

Anton Zadorozhniy in Data Engineers
и да, в отличном железе есть смысл, например если у вас хорошая сеть то никакой даталокалити не нужно (для батча)
источник

AZ

Anton Zadorozhniy in Data Engineers
в наших железках и BDA стоит InfiniBand, 2х40Gbit/s от каждой ноды, это очень удобно
источник

S

Stanislav in Data Engineers
Vladimir E.
которая никому уже не нужна
ребятам из облаков, потому как не обеспечить
а на он-преме - почему нет?
источник

AZ

Anton Zadorozhniy in Data Engineers
Stanislav
ребятам из облаков, потому как не обеспечить
а на он-преме - почему нет?
вы упираетесь в дисковый интерфейс, а не в сеть, поэтому и говорят что не нужна
источник

UD

Uncel Duk in Data Engineers
Anton Zadorozhniy
в наших железках и BDA стоит InfiniBand, 2х40Gbit/s от каждой ноды, это очень удобно
Инфиник гуд, и стоит дешевле
источник

AZ

Anton Zadorozhniy in Data Engineers
я не к тому что нужно прям от дата локалити отказываться, это удобная фича особенно когда вам нужно делать low latency (например HBase), но если у вас есть возможность без потерь использовать компьют на отдельном кластере - это очень удобно
источник

VE

Vladimir E. in Data Engineers
Был заказчик который имел два кластера - один hdfs и второй чисто процессинг, по бенчмаркам говорил что ничего не потеряли особо, зато теперь конфигировать/апгрейдить в разы легче
источник

VE

Vladimir E. in Data Engineers
на хортонворксе работали вроде
источник

ДД

Дмитрий Демитов in Data Engineers
Подскажите пожалуйста, испытываю проблемы с доступом к вэб мордам HDFS и т.п. в керберизированом кластере HDP, MIT Kerberos KDC для кластера и пользователи в MS AD.
Если поднять отдельный контроллер домена для кластера и настроить доверительные отношения, это избавит меня от секса с KfW на виндовых машинах?
источник

A

Aleksandr in Data Engineers
Всем привет. Есть простой вопрос, но в тоже время и сложный. Как записать спарком через jdbc в RDS так, чтобы в последнем не было дубликатов? Датасет без ключей, поэтому валидация на стороне базы не возможна. Экзекьюторы могут падать после коммита, также спекулятивные таски могут вызывать дублирование. Вопрос - как сделать красиво?
источник

ПФ

Паша Финкельштейн in Data Engineers
Aleksandr
Всем привет. Есть простой вопрос, но в тоже время и сложный. Как записать спарком через jdbc в RDS так, чтобы в последнем не было дубликатов? Датасет без ключей, поэтому валидация на стороне базы не возможна. Экзекьюторы могут падать после коммита, также спекулятивные таски могут вызывать дублирование. Вопрос - как сделать красиво?
Залить, а потом сравнить посчитать залитое?
источник

AZ

Anton Zadorozhniy in Data Engineers
Aleksandr
Всем привет. Есть простой вопрос, но в тоже время и сложный. Как записать спарком через jdbc в RDS так, чтобы в последнем не было дубликатов? Датасет без ключей, поэтому валидация на стороне базы не возможна. Экзекьюторы могут падать после коммита, также спекулятивные таски могут вызывать дублирование. Вопрос - как сделать красиво?
писать из Spark в S3, а потом поднимать нормально в базу, чем у вас принято, хоть дата пайплайном
источник

R

Renarde in Data Engineers
Дмитрий Демитов
Подскажите пожалуйста, испытываю проблемы с доступом к вэб мордам HDFS и т.п. в керберизированом кластере HDP, MIT Kerberos KDC для кластера и пользователи в MS AD.
Если поднять отдельный контроллер домена для кластера и настроить доверительные отношения, это избавит меня от секса с KfW на виндовых машинах?
можно вместо чистого MIT Kerberos KDC использовать IPA Server, который умеет натягивать трасты с MS AD
источник

AZ

Anton Zadorozhniy in Data Engineers
Дмитрий Демитов
Подскажите пожалуйста, испытываю проблемы с доступом к вэб мордам HDFS и т.п. в керберизированом кластере HDP, MIT Kerberos KDC для кластера и пользователи в MS AD.
Если поднять отдельный контроллер домена для кластера и настроить доверительные отношения, это избавит меня от секса с KfW на виндовых машинах?
надо настроить cross-realm trust между вашим MS AD и MIT KDC релмами, и тогда имея тикет от AD у вас должно работать SPNEGO на UI
источник

R

Renarde in Data Engineers
Anton Zadorozhniy
надо настроить cross-realm trust между вашим MS AD и MIT KDC релмами, и тогда имея тикет от AD у вас должно работать SPNEGO на UI
ну собственно то же самое, но на чистом MIT KDC работать - такое себе удовольствие, честно говоря...
источник