Телеграмм чат группы moscowspark страница 866

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1176 membersпожаловаться на группу

2021 October 20

AS

Alexander Shorin in Moscow Spark

Это делаем, но проблема в том, что это всё операции постфактум когда уже случилась фигня. Хочется такое предупреждать заранее (мечты) или в процессе работы до того как результат повлиляет на всех.

источник

11:02пожаловаться #1

AS

Alexander Shorin in Moscow Spark

Парни пока действительно решили вопрос так: будем обрабатывать меньше данныз для обучения модели. ¯\_(ツ)_/¯

источник

11:04пожаловаться #2

N

Nick in Moscow Spark

Формул не знаю, сами эмпирически подбираем, после нескольких прогонов оптимальные параметры. И также бывает когда есть какие-то задержки и пачка становится огромной, то по памяти вылетает

источник

11:07пожаловаться #3

N

Nick in Moscow Spark

Обычный совет размазать объёмы по всем воркерам, чтобы избегать проблем с памятью при больших джойнах это шафл партишинс выкручивать, но в конце надо обязательно делать репартишн, а то ещё то счастье получить можно

источник

11:09пожаловаться #4

ДД

Джон Дориан... in Moscow Spark

Всем привет!
Подскажите, пожалуйста, можно ли Спарком прочитать в один датафрейм папку, где лежат несколько csv-файлов с разным числом колонок?
Отсутствующие колонки можно оставить NULL.

Я знаю, что вроде бы можно явно прокинуть желаемую схему как параметр при чтении, но может есть ещё какая-нибудь магия

источник

11:26пожаловаться #5

N

Nikita Blagodarnyy in Moscow Spark

посоветуйте какой-нибудь самообновляющийся кэш для спарк-стриминг приложения. кейс такой-на старте драйвер ходит в апи, получает коллекцию схем, дальше эти схемы используются в маппортишонах. но данные в апи могут измениться по ходу работы приложения, поэтому надо как-то коллекцию схем электрифицированно обновлять.

источник

11:41пожаловаться #6

k

kvadratura in Moscow Spark

скорее всего можно, только насчет можно с csv - не уверен. сами уже попробовали? сделайте два файлика с разными схемами и поэкспериментируйте

источник

11:48пожаловаться #7

ДД

Джон Дориан... in Moscow Spark

Пробовал. Если без параметров - то возвращает датафрейм с общими колонками, отсутствующие отбрасывает

источник

11:49пожаловаться #8

k

kvadratura in Moscow Spark

а с параметрами какой результат?

источник

11:49пожаловаться #9

AS

Alexander Shorin in Moscow Spark

У нас есть такой кейс. Просто в каждом экзекьютере поднимается отдельный тред на получение актуальных данных. Можно напрямую из апи, можно через свой периодически обновляемый кэш. Наверное можно было сделать лучше, но банально и работает.

источник

11:49пожаловаться #10

k

kvadratura in Moscow Spark

когда говорите "данные могут измениться" означает ли это, что по одному и тому же ключу получим разные схемы после обновления?

источник

11:51пожаловаться #11

k

kvadratura in Moscow Spark

у меня был похожий кейс: приходящие сообщения имели ключ схемы. за схемой нужно было сходить в апи

делал примерно так: датафрейм разбивал на рандомные партиции, далее - foreachPartition (вроде) внутри его поднимался коннект к апи с кешем. делать рефреш кэша не требовалось, т. к. одному ключу всегда соответствовала одна схема. когда приходила новая схема - в апи нужно было сходить только 1 раз на 1 партицию, далее у партиции уже она была в кэше

источник

12:00пожаловаться #12

k

kvadratura in Moscow Spark

можно еще сделать следующи паттерн: при обновлении схемы отправлять новую схему в кафку (или что там у вас) и делать broadcast join схем (которых, наверное, немного) с самой датой

источник

12:04пожаловаться #13

N

Nikita Blagodarnyy in Moscow Spark

да

источник

12:09пожаловаться #14

N

Nikita Blagodarnyy in Moscow Spark

я понимаю, что можно на каждый триггер долбить апи в экзекуторе и получать самое свежее. но не хочется раз в 5 секунд с пары десятков экзекуторов долбить апи.

источник

12:11пожаловаться #15

k

kvadratura in Moscow Spark

долбить апи вроде никто не предлагал 🤔

источник

12:12пожаловаться #16

2021 October 22

PK

Pavel Klemenkov in Moscow Spark

Мэтью Роклин решил тут покликбейтить, но внутри все более-менее по делу https://coiled.io/blog/dask-as-a-spark-replacement/

Dask as a Spark Replacement - Coiled

Many Dask users and Coiled customers are looking for a Spark/Databricks replacement. This article discusses the problem that these folks are trying to solve, the relative strengths of Dask/Coiled for large-scale ETL processing, and also the current shortcomings. We focus on the shortcomings of Dask in this regard and describe ongoing technical efforts to address these.

источник

10:56пожаловаться #17

GP

Grigory Pomadchin in Moscow Spark

источник

15:41пожаловаться #18

NN

No Name in Moscow Spark

Что за хрень происходит в последнее время?
Какой-то исключительно странный спам попер

источник

15:41пожаловаться #19

GP

Grigory Pomadchin in Moscow Spark

Ты про даск?

источник

15:42пожаловаться #20