Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 November 22

AS

Alexandr Sterkhov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
XIII
Скиллбокс и брейнс - разводняк, практикум получше - первая половина курса нормальная, где про анализ и обработку данных и про ml, остальное сфейлено, две недели на nlp и cv даже звучит смешно
А вот и конкретику подвезли, спасибо👍🏻
источник

SP

Straxoff Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Всем привет

Юзаю в спарке monotonically_inscreasing_id для генерации столбца с айдишниками

В какой-то момент значение айди для следующей записи увеличивается не на 1, а на много больше, кто-нибудь знает в чем дело?
источник

SP

Straxoff Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
источник

SP

Straxoff Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Вот так
источник

SP

Straxoff Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Заметил, что на +1 увеличивается только для первых 2х тыщ записей
источник

ТС

Тимофей Смирнов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Straxoff Pavel
Всем привет

Юзаю в спарке monotonically_inscreasing_id для генерации столбца с айдишниками

В какой-то момент значение айди для следующей записи увеличивается не на 1, а на много больше, кто-нибудь знает в чем дело?
Привет! Эта функция и не должна генерировать подряд id-шники, она гарантирует только то что они будут монотонно возрастать)
источник

ТС

Тимофей Смирнов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Если хочешь прям занумеровать то делай SF.row_number().over(Window().orderBy(column)) без partitionBy
источник

ТС

Тимофей Смирнов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
только это будет работать в один поток(( Вроде можно через rdd сделать это быстрее, но запариться надо будет
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Привет, по rl есть нормальные бенчмарки?
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Вообще
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Что лучше
источник

VC

Vadim Chashechnikov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Sac или ppo?
источник

SP

Straxoff Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Тимофей Смирнов
Если хочешь прям занумеровать то делай SF.row_number().over(Window().orderBy(column)) без partitionBy
Спасибо, но прям такие номера не подходят, нужны похожие на мои

В общем ничего не придумал кроме как каждый датасет бить на 2к записей
источник

SP

Straxoff Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
А вообще это к екселе решается тупым растягиванием ><
источник

ТС

Тимофей Смирнов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Straxoff Pavel
А вообще это к екселе решается тупым растягиванием ><
особенно для таблички в 20 млрд строчек🌚🌚
источник

D

Di in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Alexandr Sterkhov
Всем привет🙌🏻
Друзья, хочу ворваться в мир DS и претендовать на почетное звание вашего коллеги. Поделитесь пожалуйста ссылкой на обсуждения/сравнения популярных обучающих программ(практикум, скиллбокс, брэйнс, москоддинг, скиллфэктори, удэми , нетология и т.д.). Или если кто учился дайте отзыв об оных обучающих заведениях. Море информации, разброс цен большой, программы все разные, а для новичка это все дак вообще лес дремучий..:)
По мне практикум в топе. С ML придётся подтянуть самостоятельно скилл, тк в практике слабовато дают
источник

SP

Straxoff Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Тимофей Смирнов
особенно для таблички в 20 млрд строчек🌚🌚
Ну вроде не предвидится такого
источник

SP

Straxoff Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Я вообще автотесты пишу, работал раньше в банках спокойно, нажимал кнопки, пришёл в биг дата и хочу сдохнуть теперь
источник

YD

Yevhen Dmytrenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Тимофей Смирнов
особенно для таблички в 20 млрд строчек🌚🌚
Вроде в екселе 65к строк потолок, не?
источник

ТС

Тимофей Смирнов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Yevhen Dmytrenko
Вроде в екселе 65к строк потолок, не?
ну в этом и проблема)
источник