Size: a a a

2021 February 05

UD

Uncel Duk in Data Engineers
Alex
Это же вообще доступно, насколько помню в платной раньше был jfr бекпортнут, но сейчас он и в опенждк уже есть (не помню точно номер, 242 вроде, летом вышла)
Ну про г1 пока не спешат
источник

UD

Uncel Duk in Data Engineers
Может конеш чо изменится
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
репартишоном. сколько партишонов-столько и файлов. но надо понимать, что это довольно дорогая операция.
Ещё coalesce, без сортировки
источник

ИК

Иван Калининский... in Data Engineers
Anton Zadorozhniy
Ещё coalesce, без сортировки
В конкретном кейсе, если я правильно понял, надо увеличивать количество партишенов-файлов. Coalesce не поможет
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Ещё coalesce, без сортировки
когда много данных-будет медленнее.
источник

AZ

Anton Zadorozhniy in Data Engineers
Иван Калининский
В конкретном кейсе, если я правильно понял, надо увеличивать количество партишенов-файлов. Coalesce не поможет
Да, это только уменьшать число файлов (что нужно чаще)
источник

ИК

Иван Калининский... in Data Engineers
Nikita Blagodarnyy
когда много данных-будет медленнее.
медленнее - потому что будет меньше тасков и каждый из них будет выполняться дольше. И неравномерно к тому же. Сам стейдж coalesce как правило намного быстрее repartition
источник

AK

Anton Kulaga in Data Engineers
"при записи спарком в партиционированную папку?"
Имеется в виду .partitionBy при записи? Или каждая партиция отдельно пишется?
источник

RY

Ruslan515 Y in Data Engineers
Переслано от Ruslan515 Y
Всем добрый вечер. Пытаюь к Postgre подлючится через ssh. Нашел такой пример. ssh  тунель создается нормально, но к post не могу подлючится. Кто может подсказать, что не так делаю?
источник

NT

Nikita Tikhomirov in Data Engineers
Ruslan515 Y
Переслано от Ruslan515 Y
Всем добрый вечер. Пытаюь к Postgre подлючится через ssh. Нашел такой пример. ssh  тунель создается нормально, но к post не могу подлючится. Кто может подсказать, что не так делаю?
там нужен localhost, а не ip адрес бд (в params)
источник

NT

Nikita Tikhomirov in Data Engineers
Так как тунель создается на localhost
источник

RY

Ruslan515 Y in Data Engineers
Nikita Tikhomirov
там нужен localhost, а не ip адрес бд (в params)
Получается там просто пишем "localhost"?
источник

NT

Nikita Tikhomirov in Data Engineers
+
источник

RY

Ruslan515 Y in Data Engineers
Ща проверим 😀
источник

NT

Nikita Tikhomirov in Data Engineers
Ruslan515 Y
Ща проверим 😀
Скажешь, если работает)
источник

K

KrivdaTheTriewe in Data Engineers
Maksim Batsiuk
Добрый день. Может был у кого-то опыт написания перекладчика с kafka в hadoop (hdfs)? Интересуют показатели (скорость чтения, скорость записи).
Spark easy datalake
источник

K

KrivdaTheTriewe in Data Engineers
Maksim Batsiuk
Добрый день. Может был у кого-то опыт написания перекладчика с kafka в hadoop (hdfs)? Интересуют показатели (скорость чтения, скорость записи).
источник

K

KrivdaTheTriewe in Data Engineers
Там можно в сто раз лучше решить все конечно же
источник

P

Pavel in Data Engineers
Ruslan515 Y
Переслано от Ruslan515 Y
Всем добрый вечер. Пытаюь к Postgre подлючится через ssh. Нашел такой пример. ssh  тунель создается нормально, но к post не могу подлючится. Кто может подсказать, что не так делаю?
Надо разрешить подключение всконфиг файле с желаемых хостов, либо со всех
источник

NG

Nikita Gunbin in Data Engineers
Привет! Пробую настроить spark-submit на удаленный кластер с помощью Big Data Tools в InteliJ. Все отлично работает. Хочу добавть в before lauch сборку через sbt package. В итоге отрабатывает только сборка и все. (перекидывание джарника и spark-submit не стартует). Есть идеи?
источник