Size: a a a

Data Science Chat

2021 November 18

A

Alex in Data Science Chat
Ну не единственная точно
источник

A

Andrey in Data Science Chat
я там не работал... знакомые вроде есть... чот даже и не спрашивал про кухню.

дело у Яндекса не в печеньках на кухне. вот лично я в свои за 30 далеко сейчас бы туда не пошёл. в свои 20+ я туда не стремился, о чем жалею сейчас.

я лично выбираю работу по двум критериям: 1. оплата, 2. содержание работы.

все остальное лишнее имхо. но это когда у тебя дети, семья, огород у родителей, такие вот концепции
источник

OS

Oleg Shapovalov in Data Science Chat
плюсую, сейчас вроде и не хочется, а вот в 20 туда очень полезно было бы попасть
источник

GG

Grigoriy Ghazaryan in Data Science Chat
Всем привет!только начинаю постигать DS, изучаю сейчас математику, возник такой вопрос, а где именно она применяется? Извините если вопрос глупый
источник

В

Вадим in Data Science Chat
Везде
источник

В

Вадим in Data Science Chat
Все зависит от того чем ты хочешь заниматься
источник

GG

Grigoriy Ghazaryan in Data Science Chat
Я бы хотел заниматься анализом последовательности генов. Но и вообще заниматься DS в биотехе
источник

GG

Grigoriy Ghazaryan in Data Science Chat
Изучаю с 0, сам. Проблема в том, что математического бэкграунда совсем нет
источник

В

Вадим in Data Science Chat
В разных местах нужна разная глубина. Про «то чем заниматься будешь» - скорее техническая сторона вопрос. То есть, например, некоторым нужно математическое программирование для решения каких то бизнес задач
источник

В

Вадим in Data Science Chat
(Линейное программирование в задачах оптимизации процессов)
источник

ДТ

Дмитрий Тихомиров... in Data Science Chat
Добрый день, коллеги, что-то не дает текст вставить с вопросом(
источник

В

Вадим in Data Science Chat
Что по сути, само по себе, чистой воды математика
источник

ДТ

Дмитрий Тихомиров... in Data Science Chat
Вопрос по математике/аналитике данных есть
источник

ДТ

Дмитрий Тихомиров... in Data Science Chat
Нужна консультация, по расчету данных в потоке, т.е нужно продумать и максимально упростить объем исходных данных, за счет математических расчетов. Подробнее могу рассказать на звонке.
Как пример накопительное среднее значение, дано:
1) текущее среднее значение (наш итоговый буфер)
Тоесть, средняя цена товара в бренде за сегодня, сумма продаж бренда за сегодня и тд
2) поток данных, являющийся частью накопительного итога
Это продажи по одному из товаров
___
Результат, нам надо минимально используя дынные, расчитать продажи (в примере) по бренду.
Поэтому мы можем сказать как посчитать среднюю цену, для этого нужно хранить, сколько раз мы ее пересчитывали в таблице итоге, и само среднее значение. Потом среднее умножаем на количество, прибавляем новую цену, и делим на количество + 1, сохраняем новую среднюю и новое количество.

Как итог, мы можем расчитывать продажи бренда и среднюю цену, с минимальной сложностью алгоритма расчета.

Примерно такие аналитически расчеты нам надо продумать, как решить математически ту или иную задачу по упращению алгоритмической сложности. Только в срезах, которые мы не знаем как посчитать сами

Если кто-то готов взяться, напишите мне, пожалуйста
источник

ДТ

Дмитрий Тихомиров... in Data Science Chat
Дано:
Поток данных обновления рейтинга и отзывов товаров

1) Данные  обнавляются со случайно частотой (каждый день, раз в два дня, раз в 7 дней)
2) Буферная таблица, содержащяя последнее обновленное значение данных (по каждому из товаров)
3) Поток данных текущий товар, его рейтинг и отзывы
4) Товары объедененые в группу (для одной группы, общее значение рейтинга и отзывов)

У каждого товара есть свойство - бренд
Нужно расчитать на лету (с минимальным чтением данных из БД) сколько будет среднее рейтинга и сумма отзывов для группы бренда, не учитывая дубли группы товаров и при этом накапливая значение для бренда.

Тоесть нужно использовать LOCF (Last Observation Carried Forward) при аггрегации для каждого уникального значения группы товаров, до текущей даты обновления в потоке данных, при этом не пересчитывая каждый раз данные для бренда, а накапливая их (текущее + изменение)
источник

В

Вадим in Data Science Chat
Описание лучше бы не писал. Вышло бы короче и результат тот же
источник

В

Вадим in Data Science Chat
Один черт ничего не понятно из него
источник

ДТ

Дмитрий Тихомиров... in Data Science Chat
Старался развернуть суть )
источник

GG

Grigoriy Ghazaryan in Data Science Chat
Спасибо!
источник

ДТ

Дмитрий Тихомиров... in Data Science Chat
Тут 2 проблемы, на лету пересчитывать необходимый объем на каждую итерацию обновления данных - накладно, а если по итогу дня в один проход, теряется аткуальность данных. Нужно думать, как делать это налету, и не перечитывать все товары бренда каждый раз, с заполнением LOCF
источник