Size: a a a

2019 September 17

K

KrivdaTheTriewe in Data Engineers
Ребята, у вас было такое, что хайвзапускает таску в одной очереди, после чего проходят мепры и редьюсеры, а мердж файлов происходит не в той очереди, что меппило и редьюсило , а в дефаулте
источник

AS

Andrey Smirnov in Data Engineers
Андрей Жуков
Дык а почему бы с облаков не начать? Покрутить всякие Яндексы и Мейлы,  снять себя сначала головную боль по базовой настройке и поддержке.
Майлы по состоянию их хранилища лучше не пробывать, а яндекс можно
источник

АЖ

Андрей Жуков in Data Engineers
Andrey Smirnov
Майлы по состоянию их хранилища лучше не пробывать, а яндекс можно
Мы тестили их hdp,  вполне. Яндекс долго запрягает с хадупами
источник

AS

Andrey Smirnov in Data Engineers
Андрей Жуков
Мы тестили их hdp,  вполне. Яндекс долго запрягает с хадупами
Я тестировал их хранилище, даже пару раз разговаривал с суппортом, так себе (в июле дело было)
источник

ЭТ

Элен Теванян in Data Engineers
Андрей Жуков
Мы тестили их hdp,  вполне. Яндекс долго запрягает с хадупами
мэйлище?
источник

DY

Dan Y in Data Engineers
ась? :)
источник

DY

Dan Y in Data Engineers
Alex
А сцилла уже начала работать с диском как и аэроспайк? Блочное устройство на которое переписываем большими страницами и со своим gc чтобы не плодить трим и write amplification
сцилла всегда работала с диском
источник

АЖ

Андрей Жуков in Data Engineers
Dan Y
ась? :)
(объявляется пятиминутка рекламы Сциллы)
источник

DY

Dan Y in Data Engineers
Андрей Жуков
(объявляется пятиминутка рекламы Сциллы)
я только на вопросы отвечаю
источник

АЖ

Андрей Жуков in Data Engineers
источник

IB

Ivan Blinkov in Data Engineers
ClickHouse митап Мюнхен, прямая трансляция через 5 минут (на английском): https://youtu.be/LY0mF2OmPQY
источник

TT

Tsh Tsh in Data Engineers
Anton Zadorozhniy
в любом случае прослойка клиентов которым нужно импала и аллуксио одновременно ничтожно мала, думаю никакого серьезного развития сюда в эту сторону не будет
Хехе, я такой изврат видел своими глазами несколько раз.
Все инвестбанки (вернее оналитеги внутри них) переползают с оракла на хадуп через импалу. Они ее обожают, клаудера их в этом поддерживает :))
И все хотят инмемори для быстроты, поэтому импала + аллюксио на одном кластере = частое явление
источник

VA

Vladislav Akatov in Data Engineers
Вопрос по Apache Spark. Количество выходных файлов при вызове метода write у DataFrame можно контролировать методом repartition. Кто-нибудь знает, как задать размер выходных файлов    в формате parquet в байтах при записи?
источник

C

Combot in Data Engineers
N@ni Rathi has been banned! Reason: CAS ban.
источник

UD

Uncel Duk in Data Engineers
тупой вопрос, престо на датанодах имеет право на жизнь?
источник

UD

Uncel Duk in Data Engineers
при условии что откусили память/ядра у ярна (в конфигах)
источник

_

_ in Data Engineers
Vladislav Akatov
Вопрос по Apache Spark. Количество выходных файлов при вызове метода write у DataFrame можно контролировать методом repartition. Кто-нибудь знает, как задать размер выходных файлов    в формате parquet в байтах при записи?
Такого нет, только примерно можно подобрать колво файлов
источник

A

Alex in Data Engineers
Dan Y
сцилла всегда работала с диском
https://github.com/scylladb/scylla/blob/master/conf/scylla.yaml#L30

Сцилла ожидает файловую систему на которую она будет кидать sstable (вы даже заявляете о бинарно совместимости их с кассандрой)

В случае aerospike он может просто воспринимать диск как /dev/sda и без всяких файловых систем и прослоек долбить его.

(не в минус сцилле, просто развернул что имел в виду, мало кто пытается с raw диском работать).
источник

A

Alex in Data Engineers
Хотя и догадываюсь о чем первоначально автор говорил: асинкио, параллелизм и тд
источник

DY

Dan Y in Data Engineers
Alex
https://github.com/scylladb/scylla/blob/master/conf/scylla.yaml#L30

Сцилла ожидает файловую систему на которую она будет кидать sstable (вы даже заявляете о бинарно совместимости их с кассандрой)

В случае aerospike он может просто воспринимать диск как /dev/sda и без всяких файловых систем и прослоек долбить его.

(не в минус сцилле, просто развернул что имел в виду, мало кто пытается с raw диском работать).
понятно, я это не так понял (не уловил момент с raw). в любом случае, из личного опыта, работать с чистыми оффсетами на уровне блоков далеко не песня, и при современных дисках разница слишком мизерная чтоб оно того стоило. Учитывая то что Сцилла вложилась в доработку XFS как раз под свои нужды, смысла в уменьшении прослойки тут очень очень мало. Мы очень редко упираемся в боттлнеки когда сервера используют nvme
источник