Телеграмм чат группы moscowspark страница 1002

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1244 membersпожаловаться на группу

2022 February 08

ДМ

Дмитрий Морозов... in Moscow Spark

def path_length(fromnode, tonode):

try:
return nx.dijkstra_path_length(graph.value, fromnode, tonode, weight='weight')
except Exception:
return ''

len_udf = F.udf(path_length)
data = data.withColumn('path_length', len_udf(data.fromnode, data.tonode))

источник

13:19пожаловаться #1

DZ

Dmitry Zuev in Moscow Spark

откуда graph.value ?

источник

13:20пожаловаться #2

ДМ

Дмитрий Морозов... in Moscow Spark

до этого граф пришлось вне спарка собрать

data_list = data.collect()

G = nx.DiGraph()

for graph_row in data_list:
G.add_edge(graph_row['fromnode'], graph_row['tonode'], weight=graph_row['weight'])

broadcastGraph = spark_session.sparkContext.broadcast(G)

источник

13:20пожаловаться #3

DZ

Dmitry Zuev in Moscow Spark

источник

13:21пожаловаться #4

ДМ

Дмитрий Морозов... in Moscow Spark

если есть варианты, как собрать граф по другому буду рад услышать)

источник

13:23пожаловаться #5

DB

Dmitry Buslov in Moscow Spark

Если это разовая задачка - можно активировать фри инстанс SAP HANA Cloud и там оч. быстро все посчитать для всех маршрутов. Пример параллельного поиска множества кратчайших путей - https://github.com/SAP-samples/hana-graph-examples/blob/main/POKEC/POKEC_1k_SP_pairs_bench_sequential_and_parallel.sql

hana-graph-examples/POKEC_1k_SP_pairs_bench_sequential_and_parallel.sql at main · SAP-samples/hana-graph-examples

SAP HANA includes a graph engine for network analysis. The examples demonstrate the usage of built-in algorithms, e.g. for path finding. - hana-graph-examples/POKEC_1k_SP_pairs_bench_sequential_and...

источник

13:26пожаловаться #6

DZ

Dmitry Zuev in Moscow Spark

источник

13:27пожаловаться #7

DZ

Dmitry Zuev in Moscow Spark

graphx

источник

13:27пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Graphframes рекомендую, это надстройка над graphx

источник

13:29пожаловаться #9

DZ

Dmitry Zuev in Moscow Spark

да вроде на дейкстре не поможет

источник

13:29пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

А, там чёт сильно сложное надо крутануть, понял)

источник

13:30пожаловаться #11

РБ

Руслан Бикмаев... in Moscow Spark

Не по вариациям сборки, а по оптимизации.
При выборе кратчайшего маршрута, если дропать заведомо ненужные варианты на этапе сборки цепочек, объем вычислений может сократиться на неск. порядков и вписаться в возможности реального железа.
К примеру граф междугородней логистики или курьерской доставки.
Вариант ограничения по максимальной длине. Вычисляется заранее длина наикратчашего маршрута, в отдельную табличку. И если трасса по маршруту заткнулась, авария, дорожные работы, нашествие лягушек, обрабатываются цепочки маршрутов , с предельным превышением = эталонное_ расстояние * 1.7
Примерный коэффициент, полученный несколькими пробами.
В этом случае петли маршрутов, идущие в противоположную сторону, или по спирали будут отсекаться на ранних стадиях.
Можно фильтровать "полосой пропускания" , например ограничив построение альтернативных маршрутов отклонением на 1 - 2 района в сторону от наикратчайшего маршрута.

Кстати при озвученных исходных условиях можно решать не графовыми алгоритмами, а отранжировав с десяток альтернативных маршрутов из точки А в точку В, и выбраковывая из них те, на которые поступила информация о непригодности для движения. Сложнее, когда данные о весе ребер поступают динамически, из расчета дорожной обстановки. Здесь обработка графа необходима.

Похожая ситуация возникает при селф-джоине, когда таблица джоинится сама на себя с целью анализа сочетаний и сходства. Добавив фильтры и подропав таким образом ненужные варианты, я сократил объем двух промежуточных таблиц по 1.2 Тб весом до одной в 56 Гб.

Это такой же случай, когда сначала производится вычисление всех возможных вариантов, а потом выбираются оптимальные из них.

источник

18:28пожаловаться #12

2022 February 09

Н

Никита in Moscow Spark

Всем привет!
Читаю spark.read.load() AVRO на HDFS с папками в виде дат

/a/b/c/2020-01-01/part-0001.avro

Задача прочитать только даты на 1 число

TRUNC(month, dt)

Получаю spark reading partition values: [empty row].
Можно ли указать, где либо партицирование на этапе загрузки датафрейма или единственный вариант делать динамический путь типа /a/b/c/20**-**-01, чтобы читать только первое число месяца?

источник

18:17пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Надо наоборот, trunc(dt, 'MM')

источник

18:19пожаловаться #14

Н

Никита in Moscow Spark

да это я написал так для понимания

metrics = metrics.withColumn("dt", extract_date_from_input_file())
metrics = metrics.filter(metrics["dt"] == F.date_trunc("month", metrics["dt"]))

мне кажется он сначала все дни загружает потом фильтрует, а я хочу чтобы он загрузил только 1 число месяца сразу

источник

18:20пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Варик с подстановкой числа в хдфс годный, но надо вписать .option("basePath", "/a/b/c")

источник

18:20пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Чтоб саму дату не потерять

источник

18:20пожаловаться #17

Н

Никита in Moscow Spark

ну я так и думал, просто мб есть какой-то option, чтобы сказать ему типа тут есть партиции, как в хайве

источник

18:21пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

Ну это и есть указание

источник

18:21пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

А так пиши where, прунинг должен работать

источник

18:21пожаловаться #20