Size: a a a

2019 May 08

N

Nikolay in Moscow Spark
Pavel Klemenkov
Это чушь. Гридсерч используют для подбора гиперпараметров, те параметров, которые не учатся из данных. При чем тут понимание?
Учатся на данных ) . Такое определение скорее для гуманитариев ).  Гридсеарч на тех же данных параметры проверяет . Он плох тем ,что просто делает перебор без попыток выявить направления роста
источник

N

Nikolay in Moscow Spark
Aleksandr Severinov
Ну типо если понимаешь, какую функцию оптимизируешь и как, то гиперпараметры сразу из головы берешь. Но чем плох грид серч, я не понял :)
Понимание в другом.  Это когда видишь нужно увеличивать какой параметр или уменьшать для того , что бы улучшить результат.
источник

N

Nikolay in Moscow Spark
Anton Alekseev
Да, тоооочно, из головы...) грид затратный просто, вот и не понравилось человеку видимо:) А вообще это заблуждение по поводу ds как у Николая, стало довольно распространённым из-за волны хайпа и кучи желающих зарабатывать 300к в сек, но это не ds специалисты, к сожалению.
А в чем заблуждение ?
источник

AA

Anton Alekseev in Moscow Spark
Nikolay
А в чем заблуждение ?
"суть там не понимают" и "а где уже сложнее модели - бустинг. Уже все ."
источник

НК

Николай Крупий... in Moscow Spark
Смысл жизни

Смысл жизни в том, чтобы кормить нейросети примерами.
источник

N

Nikolay in Moscow Spark
Anton Alekseev
"суть там не понимают" и "а где уже сложнее модели - бустинг. Уже все ."
Сформулирую так. Подобрали параметры через гридсеарч. Спрашиваю. Что будет , если условный параметр альфа увеличить в 2 раза . Что мне ответят ? Скажут, что нужно запустить с этими параметрами и проверить. Или спрошу вопрос почему сработала модель X, а не модель Y. В большинстве случае что скажут ?
источник

PK

Pavel Klemenkov in Moscow Spark
Nikolay
Учатся на данных ) . Такое определение скорее для гуманитариев ).  Гридсеарч на тех же данных параметры проверяет . Он плох тем ,что просто делает перебор без попыток выявить направления роста
У нашего чата очень широкая аудитория, стараюсь выражаться понятно. Но на очередном митапе готов с тобой обсудить особенности работы дата сайнтиста в более строгих формулировках)
источник

N

Nikolay in Moscow Spark
Можно и обсудить . Но людям тут тоже интересно  почитать дискуссию. Если не обсуждать , то тишина настанет .
источник

KS

Kostya Shchetkin in Moscow Spark
Байес опт и прочее придуман от бедности, то есть из-за того, что долго делать грид серч. А я бы не стал сводить работу ds к методам fit, predict известных фреймворков. Гораздо сложнее правильно сформировать реальную бизнес-задачу в задачу ML и метрики для неё в реальных условиях и с теми данными, что есть. Если ты правильно это сделал и у тебя норм поизнаки, то война с подбором параметров не такая важная
источник
2019 May 09

ЕГ

Евгений Глотов... in Moscow Spark
Гораздо важнее решить бизнес-задачу в максимально короткий срок, чем думать, датасаенс вы делаете, или подбираете параметры, пока не станет норм)
источник
2019 May 11

С

Сюткин in Moscow Spark
А так можно было?
источник
2019 May 13

С

Сюткин in Moscow Spark
@pklemenkov забаньте чувака выше
источник

С

Сюткин in Moscow Spark
Спасибо
источник
2019 May 14

A🦕

Alexander Rodionov 🦕... in Moscow Spark
+---+
|  A|
+---+
|  8|
|  8|
|  2|
|  6|
|  9|
|  7|
|  7|
|  5|
|  7|
|  5|
|  5|
|  0|
+---+


вот допустим есть датафрейм
как в 1 проход сделать 2 вещи:

- distinct, получить датафрейм с уникальными строчками
- посчитать число уникальных элементов в датафрейме

???


- кеш тоже 2 прохода, хоть и быстро
- писать ручной reduce?
- оконные функции?
источник

t

tenKe in Moscow Spark
groupBy().agg(count_distinct, collect_set)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Никак, это физически невозможно, число уникальных требует весь промежуточный результат слить на одну ноду, а вы хотите промежуточным результатом иметь дистинкт
источник

PK

Pavel Klemenkov in Moscow Spark
Всем привет. Допустим есть хороший питон программист, который может в спарк и ему очень быстро, желательно недели за 2, освойть скалку. В объёме, необходимом для приличного прога на спарке. Какой путь вы бы предложили бедняге?
источник

PK

Pavel Klemenkov in Moscow Spark
Естественно друг спросил)
источник

AS

Andrey Sutugin in Moscow Spark
Pavel Klemenkov
Всем привет. Допустим есть хороший питон программист, который может в спарк и ему очень быстро, желательно недели за 2, освойть скалку. В объёме, необходимом для приличного прога на спарке. Какой путь вы бы предложили бедняге?
Книги Одерски для спарка как мне кажется за глаза хватит, а дальше только практика и набивание шишек... Ну ещё круто что бы был кто-то рядом помог с jvm миром, конфиги и все такое
источник

PF

Pavel Filatov in Moscow Spark
Pavel Klemenkov
Всем привет. Допустим есть хороший питон программист, который может в спарк и ему очень быстро, желательно недели за 2, освойть скалку. В объёме, необходимом для приличного прога на спарке. Какой путь вы бы предложили бедняге?
источник