Телеграмм чат группы hadoopusers страница 1620

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 September 17

K

KrivdaTheTriewe in Data Engineers

Ребята, у вас было такое, что хайвзапускает таску в одной очереди, после чего проходят мепры и редьюсеры, а мердж файлов происходит не в той очереди, что меппило и редьюсило , а в дефаулте

источник

19:40пожаловаться #1

AS

Andrey Smirnov in Data Engineers

Андрей Жуков

Дык а почему бы с облаков не начать? Покрутить всякие Яндексы и Мейлы, снять себя сначала головную боль по базовой настройке и поддержке.

Майлы по состоянию их хранилища лучше не пробывать, а яндекс можно

источник

19:47пожаловаться #2

АЖ

Андрей Жуков in Data Engineers

Майлы по состоянию их хранилища лучше не пробывать, а яндекс можно

Мы тестили их hdp, вполне. Яндекс долго запрягает с хадупами

источник

19:47пожаловаться #3

AS

Andrey Smirnov in Data Engineers

Андрей Жуков

Мы тестили их hdp, вполне. Яндекс долго запрягает с хадупами

Я тестировал их хранилище, даже пару раз разговаривал с суппортом, так себе (в июле дело было)

источник

19:49пожаловаться #4

ЭТ

Элен Теванян in Data Engineers

Андрей Жуков

Мы тестили их hdp, вполне. Яндекс долго запрягает с хадупами

мэйлище?

источник

19:51пожаловаться #5

DY

Dan Y in Data Engineers

ась? :)

источник

20:07пожаловаться #6

DY

Dan Y in Data Engineers

А сцилла уже начала работать с диском как и аэроспайк? Блочное устройство на которое переписываем большими страницами и со своим gc чтобы не плодить трим и write amplification

сцилла всегда работала с диском

источник

20:08пожаловаться #7

АЖ

Андрей Жуков in Data Engineers

ась? :)

(объявляется пятиминутка рекламы Сциллы)

источник

20:09пожаловаться #8

DY

Dan Y in Data Engineers

Андрей Жуков

(объявляется пятиминутка рекламы Сциллы)

я только на вопросы отвечаю

источник

20:10пожаловаться #9

АЖ

Андрей Жуков in Data Engineers

источник

20:11пожаловаться #10

IB

Ivan Blinkov in Data Engineers

ClickHouse митап Мюнхен, прямая трансляция через 5 минут (на английском): https://youtu.be/LY0mF2OmPQY

ClickHouse Meetup Munich

Slides: https://github.com/yandex/clickhouse-presentations/tree/master/meetup29 00:25:01 — Introduction by Alexey Milovidov 00:25:44 — Saving money without b...

источник

20:11пожаловаться #11

TT

Tsh Tsh in Data Engineers

Anton Zadorozhniy

в любом случае прослойка клиентов которым нужно импала и аллуксио одновременно ничтожно мала, думаю никакого серьезного развития сюда в эту сторону не будет

Хехе, я такой изврат видел своими глазами несколько раз.
Все инвестбанки (вернее оналитеги внутри них) переползают с оракла на хадуп через импалу. Они ее обожают, клаудера их в этом поддерживает :))
И все хотят инмемори для быстроты, поэтому импала + аллюксио на одном кластере = частое явление

источник

20:13пожаловаться #12

VA

Vladislav Akatov in Data Engineers

Вопрос по Apache Spark. Количество выходных файлов при вызове метода write у DataFrame можно контролировать методом repartition. Кто-нибудь знает, как задать размер выходных файлов в формате parquet в байтах при записи?

источник

21:57пожаловаться #13

C

Combot in Data Engineers

N@ni Rathi has been banned! Reason: CAS ban.

источник

22:00пожаловаться #14

UD

Uncel Duk in Data Engineers

тупой вопрос, престо на датанодах имеет право на жизнь?

источник

22:02пожаловаться #15

UD

Uncel Duk in Data Engineers

при условии что откусили память/ядра у ярна (в конфигах)

источник

22:02пожаловаться #16

_

_ in Data Engineers

Vladislav Akatov

Вопрос по Apache Spark. Количество выходных файлов при вызове метода write у DataFrame можно контролировать методом repartition. Кто-нибудь знает, как задать размер выходных файлов в формате parquet в байтах при записи?

Такого нет, только примерно можно подобрать колво файлов

источник

22:03пожаловаться #17

A

Alex in Data Engineers

сцилла всегда работала с диском

https://github.com/scylladb/scylla/blob/master/conf/scylla.yaml#L30

Сцилла ожидает файловую систему на которую она будет кидать sstable (вы даже заявляете о бинарно совместимости их с кассандрой)

В случае aerospike он может просто воспринимать диск как /dev/sda и без всяких файловых систем и прослоек долбить его.

(не в минус сцилле, просто развернул что имел в виду, мало кто пытается с raw диском работать).

scylladb/scylla

NoSQL data store using the seastar framework, compatible with Apache Cassandra - scylladb/scylla

источник

23:19пожаловаться #18

A

Alex in Data Engineers

Хотя и догадываюсь о чем первоначально автор говорил: асинкио, параллелизм и тд

источник

23:21пожаловаться #19

DY

Dan Y in Data Engineers

https://github.com/scylladb/scylla/blob/master/conf/scylla.yaml#L30

Сцилла ожидает файловую систему на которую она будет кидать sstable (вы даже заявляете о бинарно совместимости их с кассандрой)

В случае aerospike он может просто воспринимать диск как /dev/sda и без всяких файловых систем и прослоек долбить его.

(не в минус сцилле, просто развернул что имел в виду, мало кто пытается с raw диском работать).

scylladb/scylla

NoSQL data store using the seastar framework, compatible with Apache Cassandra - scylladb/scylla

понятно, я это не так понял (не уловил момент с raw). в любом случае, из личного опыта, работать с чистыми оффсетами на уровне блоков далеко не песня, и при современных дисках разница слишком мизерная чтоб оно того стоило. Учитывая то что Сцилла вложилась в доработку XFS как раз под свои нужды, смысла в уменьшении прослойки тут очень очень мало. Мы очень редко упираемся в боттлнеки когда сервера используют nvme

источник

23:30пожаловаться #20