Size: a a a

мамкин Data Scientist

2018 July 22
мамкин Data Scientist
Что ты умеешь? Для дата сайнса очень важен бэкграунд, сюда не залетишь с корабля на бал, поэтому план следующий:

Итак, начнем непосредственно с программирования, если ты вообще никогда не имел с этим дела то в анализе данных ловить тебе будет нечего, а если кодил до этого, то не надо выебыватсья и закрепи свои знания, лишним не будет

Самое главное не ведись на уловки курсов которые обещают сделать тебя senior data sceintist за 2 недели с нуля - это откровенный наеб

Значит берем либо бесплатный курс на степике будет немного тяжеловато, сразу говорю, придется включать голову, и много гуглить
https://stepik.org/course/%D0%9F%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5-%D0%BD%D0%B0-Python-67

Или берем курс на курсере, но он платный, но более лояльный к начинающим, чем предыдущий, есть конечно вариант как выклянчить его бесплатно, если интрестинг, то пиши сюда @BoykoAA
https://www.coursera.org/learn/python-osnovy-programmirovaniya

Начни с питона, дальше я расскажу, как там обстоят дела с тем чего ты боишься больше всего - математикой (все не так страшно)

See you, брат
источник
2018 August 07
мамкин Data Scientist
Когда питон у нас на вооружении, можем приступать к околодатасайнсу, будем узнавать новенькое про математику, скажу сразу для протестантов, которые ну не в какую не хотят ботать математику и думают, что прокатит и так, авторитетно заявляю, не прокатит.
Итак, что нужно знать, чтобы класть себе в карман топовые вилки зп с линкдина и хх?
Мат. Анализ
Линейную алгебру
Мат. Статистику
Дискретную математику
Теорию вероятностей


Испугался? Не торопись, все будет zaebis, нужно далеко не все для начала. Мои рекомендации следующие:

Линейная алгебра: Кузнецова С.Н. Линейная алгебра и аналитическая геометрия
Мат. Статистика: Гланц Медико-Биологическая статистика
Матан: подойдет что угодно, нам понадобится для начала знать, что есть градиентный спуск (если ты помнишь, что такое производная конечно)

Не очень хочется становиться распространителем пиратского контента, поэтому линки на книжки не оставлю, либо копируем названия и вставляем в поисковик, добавляя «скачать пдф», либо покупаем )0)0

Так же есть множество курсов по данным дисциплинам, но мне они не очень помогли в свое время, а вот в книжках было достаточно четко и ясно, но если ты tupoy и не умеешь воспринимать текстовую информацию

Лин. Алгебра
https://www.coursera.org/learn/algebra-lineynaya

Теор. Вер. (Можно оставить на потом)
https://www.coursera.org/learn/probability-theory-basics

Статистика
https://stepik.org/course/%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D1%8B-%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B8-76

Список книг и курсов я буду пополнять, это далеко не все интересные материалы. Но уверенно могу сказать, что после прохождения хотя бы половины из этого, сможешь залетать на курсы по ДС, но не торопись с выбором, к этому нужно подойти ответственно, очень много всякой хуйни типа дата сайнс за 12 дней, о хороших курсах в следующем выпуске, не пропусти

Не прощаемся, бандитос
источник
2018 August 15
мамкин Data Scientist
Ну че,  уже умеешь в математике и можешь в питоне, что же дальше? Дальше приступаем к тому, для чего мы собственно тут и собрались. Как обстоят дела с курсами по дата сайнсу в рунете? Очень huevo. Тут всего 2 известных мне годных продукта:

1. Курс от MIPT/Yandex на курсере
https://www.coursera.org/specializations/machine-learning-data-analysis

Это охуительная специализация из 6 курсов, они конеш платные, но оно того стоит (если хочешь получить бесплатно, пиши в личку, расскажу немного о финансовой помощи от курсеры)
Что хочется сказать про курс, оч структурированная инфа, от оч крутых преподов, многие ученики находят работу уже на 3 курсе специализации, короче мастхев. Возможно вначале покажется трудновато и у тебя загорится жопа, не спеши ливать и идти работать в Макдональдс. Направляй Бэт-сигнал мне в личку, и я приду на помощь (но это не точно), а наиболее популярные разберем прямо здесь.

2. Бесплатный курс от Open Data Science (ODS)
https://github.com/Yorko/mlcourse_open

Я не буду заявлять, что это замена курсеровскому, многие моменты там дублируются, но я бы советовал пройти его дополнительно к первому. Курс тоже достаточно хардкорный, легко не будет (ну а хули хотел, ты зарплаты ДС видел??)

Из русскоязычных это все известные мне годные продукты, возможно, есть еще что-то, я постоянно копаю и если мне попадется что-то интересное, вы первые об этом узнаете

Работаем, братва
источник
2018 August 20
мамкин Data Scientist
Ну че, как успехи? Движемся с трудом? Заметил, что основная проблема заключается в математике, не будь тряпкой - это норма, так было у всех. Зато у меня как всегда есть то, что тебе точно поможет - pizdatiy ютуб канал про линейную алгебру.
Всё разложено по полкам с самых азов, но даже если ты бывалый, советую заглянуть, оценишь визуализацию и освежишь в памяти забытую инфу
https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab

P.S Канал, конечно же, на английском, как я уже говорил, годной инфы на Великом и могучем, совсем с гулькин penis, поэтому если ты еще нe like a native speaker, совет номер 0, выучить язык, потому что дальше будет еще хуже.

Если хочешь советов/полезных ресурсов, по английскому, то жми своим пальцем на чудо ракету, пристегивай ремни, и я расскажу как эффективно ботать англ

Мы взлетаем!
источник
2018 August 29
мамкин Data Scientist
Hello ёpta!

Почему я начал по-английски? Тому есть повод. Как ранее было сказано англ - мастхев для ДС. Но где и как его учить? В ответ на этот вопрос хочу сделать тебе present, не могу сказать, что ресурс топовый, но для старта, повторения и поддержания навыка сойдет, и как говорится дареному horse в teeth не смотрят. И так, у нас на повестке дня интерактивная платформа для изучения английского, а вместе с ней 12 месяцев бесплатного использования (да, прям 0 рублей, 0 копеек, не благодари, сочтемся)
https://goo.gl/bYhfRs

Что мне на ней делать? Заходишь, и в соответствии со своим уровнем выбираешь курс, но если ты совсем tupoy, начинай с элементари и ботай постепенно.
Если ты собрался ливать из vodka/balalayka, то там есть тренажер для IELTS, ну и конечно же английский для айти.
Рано радуешься, это далеко не все, что нужно для изучения языка, скоро будут еще рекомендации на эту тему

А в следующей серии этого сезона вернемся к датасайнсу, не пропусти

Ну, по-английски пришел, так же и уйду. Не прощаемся
источник
2018 September 06
мамкин Data Scientist
Заводи свою машину ленинга, мы стартуем

Итак, самый частый вопрос у меня в личке, это «Я смотрю и ni-hu-ya не запоминаю»/«Я посмотрел и все забыл»/«у меня в голове все перемешалось». Все нормально, мамкины датасайнтесты, чуваки из стенфорда любезно позаботились о нас с тобой и сделали охуительные шпаргалки, которые вернут тебе знания, как в фильме вспомнить все

Обучение с учителем:
https://stanford.edu/~shervine/teaching/cs-229/cheatsheet-supervised-learning

Обучение без учителя:
https://stanford.edu/~shervine/teaching/cs-229/cheatsheet-unsupervised-learning

Трюки и уловки в МЛ:
https://stanford.edu/~shervine/teaching/cs-229/cheatsheet-machine-learning-tips-and-tricks

Ну и конечно главная матка муравья Deep learning:
https://stanford.edu/~shervine/teaching/cs-229/cheatsheet-deep-learning

Ну ладно, оставлю свои остроумные джоксы на потом и перейдем собственно к делу. Что дают эти шпаргалки и когда самое время их использовать?
Первые две в точности соответствуют второму и третьему курсу на курсере, поэтому прошел - повтори, структурируй у себя в голове всю информацию и периодически возвращайся к ним, например во время того как думаешь над подходом в той или иной задаче.
А если тебе уже удалось оседлать машину лернинга и компании жаждут поиметь такого специалиста, советую не расслабляться и повторить все вышеперечисленное перед собесом, дабы не упасть в грязь face-oм.  Будь уверен - это точно пригодится

Информации на канале становится много, поэтому сделаю в ближайшее время навигацию по нашему маленькому миру дата сайнса, которая будет в виде последовательного гайда, что куда и зачем, и конечно же будем его пополнять

Не останавливаемся на достигнутом, комрадосы
источник
2018 September 11
мамкин Data Scientist
​​Первым делом сюда (❗️❗️❗️)

Легкого пути в МЛ не бывает, но и сильно затягивать тоже не надо. Для нормального входа в профессию, тебе нужно хорошо знать питон и несколько разделов математики. То в каком порядке это делать — дело каждого, некоторым удобно параллельно, некоторые любят поочередно. Да, сучара, без этого никак, не надо думать, что это по сложности, как проебывать пары философии.

Вот минимум, после которого вилки зп становятся шестизначными. Любой из вариантов хорош, отличаются лишь сложностью и актуальностью, но приводят примерно к одному результату.
1. Классическая классика. Покрывает все нужные темы, погружает жестко, медленно, словно маньяк. Эффективно. Для понимания нужна некоторая математическая интуиция.
Убираем страхОсновы мат. анализаЛин.АлгебраТеор.верПитонМЛ.
2. Вариант чуть сложней первого, более самобытный, требует самостоятельности и понимания чем ты вообще собираешься заниматься. Нет проверок ДЗ. Требуется хороший уровень некоторых разделов математики. Слабо подходит нубам.
Убираем страхОсновы мат. анализаЛин.АлгебраТеор.верПитонМЛ.
3. Самый модный, молодежный вариант. Погружает не больно, но достаточно быстро. Можно использовать как вариант, если tupoy. Зумеры, ваша тема.
Убираем страхТеор.вер → Мат. Статистика: Гланц Медико-Биологическая статистика (основы) → ПитонМЛ.

После прохождения этих этапов, надо залетать на работу, для этого мы уже сделали сервис с вопросами интервью и некоторые ответы на них. Не стесняемся добавлять свои вопросы, перцы.

Сервис с вопросами → https://interview-mds.ru/
Вопросы с ответами → жми

А теперь база данных по каналу. Тут собрано гигантское количество курсов/ресурсов/ и пр. Это не значит, что надо смотреть все подряд, в таком случае ты выйдешь на работу примерно через N жизней. Это база создается для того, что бы ты знал куда обратиться в случае возникновения проблемы по тому или иному направлению. Возникла потребность, смотрим.

Математика, та тетка из твоих кошмаров, по совместительству царица наук.
0. Что вообще надо?
1. Необходимая литература для начала
2. Курс по линейной алгебре
3. Курс по теор. вер.
4. Курс по статистике
5. Супер понятная линейная алгебра
6. Интенсивы мат. анализ
7. Два Подхода к изучению статистики
8. Линейная алгебра для DL от MIT
9. Базовый Теор. Вер. МФТИ
10. План по мат. анализу
11. Основательный подход к статистике

Питон, это не тот python, которого ты душишь под одеялом.
1. Необходимые для старта курсы
2. Питон не для начинающих

Data Science, с ним будешь первый парень на деревне.
1. Стартовые курсы на выбор
2. ML курс от Физтеха
3. ML курс от института Биоинформатики
источник
2018 September 17
мамкин Data Scientist
​​Deep Learning, главная матка муравья.
1. Введение в диплернинг
2. Классика диплернинга
3. Курс по ДЛ от ШАДа
4. Курс по Computer Vision Стенфорд cs231
5. Курс по Байесовским методам машинного обучения
6. Курс DL school от Физтеха
7. Мини-курсы по работе с временными рядами
8. DL Воронцов
9. База NLP

Reinforcement learning, для одичалых.
1. План по изучению RL

Big Data, клерковский вариантик.
1. Курс по работе с большими данными

Соревнование ML.
1. Введение в соревнование и первые начинания
2. Внутренние соревнование NASA
3. Внутренние соревнование PUBG
4. Соревнование от Росбанка
5. Kaggle MNIST
 5.1. Решение победителя
6. Курс «Как побеждать на Каггле»
7. Соревнование Santander Customer Transaction Prediction
 7.1 Разбор решения
8. Топовые решение соревнований
9. Разбор соревнования Титаник без цензуры

Алгоритмы, страж на пути в корпорацию.
1. Алгоритмы и структуры данных
2. Мягкий вход в алгоритмы

Английский, извини, но ты живешь в России
1. Щедрый жест, спешл фор ю

SQL.
1.  Азы SQL
2. Тренажеры SQL

Стажировки / Школы
1. Летние стажировки
2. Топовые школы

Джентльменский набор
1. Джентльменский набор часть 1
2. Джентльменский набор часть 2
3. Джентльменский набор часть 3
4. Джентльменский набор часть 4

Приятные плюшки
1. Шпаргалки от стенфорда
2. Большенство тем, реализованных на питоне
3. Джентльменский набор часть 1
4. Сборник теоретических задач по МЛ
5. Features engineering часть 1
6. Features engineering часть 2
7. Features engineering часть 3
8. Features selection часть 1
9. Советы для резюме
10. Гайд по аренде ГПУ в облаке

Блеклист курсов МЛ
1. Говнокурс 1
2. Рейтинг дерьмовых курсов, по мнению подписчиков

ШАД/CSC, для любителей БДСМчика.
1. Что это?
2. Интервью
3. Подготовка

Деплой МЛ моделей, когда ваш малыш вырос.
1. Быстрый путь
2. Основательный подход

Глубокое проникновение в глубокое обучение на Keras
1. Часть 1 MNIST
2. Часть 2 CNN
3. Часть 3 VGG16

Смотрите, читайте, охуевайте
источник
2018 September 21
мамкин Data Scientist
Вечер в хату, ученные

Итак, сегодня гость нашей программы - король хайпа и главный герой в каждой бредовой статьи про то, как роботы захватят мир и прочее govno. Нейронные сети собственной персоны. Шутки шутками, но если абстрагироваться от детей солнца, которые генерят эти шедевры, то нейронки очень серьезный инструмент в современной индустрии, я считаю крайне важно понимать, как они работают.
Поможет в этом мини-курс, смотрим его в первую очередь, маст хэв
https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi

Далее, у нас по расписанию, один из топовых, по моему мнению, вводный курс в дип лернинг, сюда залетай сразу после первого
http://course.fast.ai
Не жди, что после этого станешь deep learning researcher, но определенную базу сформируешь, там всего 7 лекций, но все по делу и все шикарные.

Только прошу, когда научишься делать нейронные сети, не суй их, как своего python-а в каждую дырку, в обычных задачах классификации, регрессии, им делать нечего, твой любимый xgboost справится куда лучше, нейронные сети нужно юзать там, где непонятно что такое «признак», типа звук/фото/видео, вот там они короли

Конечно, это не все материалы, которые помогут устоять на доске, несущейся на гребне волны хайпа, поэтому рекомендации по дип лернингу еще конечно же будут
Если у тебя вопросы, не стесняйся, я не кусаюсь @BoykoAA

Не прощаемся, мучачос
источник
2018 September 26
мамкин Data Scientist
Хеллоу, senior-помидоры дата сайнтисты

Слышали про Kaggle? Если нет, то вас точно zaebal вопрос, где тренировать свой супер скил и как пополнить портфолио. Kaggle— это платформа для проведения конкурсов по машинному обучению. Причем от очень простых до жопоподжигающих, поимев весь лидборд пару раз, вам на почту посыпется офферы от крупных забугорских компаний (а ты  ведь только этого и ждешь проказник). НО, не надо думать, что Kaggle это для каких-то там джедаев дата сайнса, ni-hu-ya, там есть соревнования для всех уровней, причем прокачать скилл на кагле можно очень быстро. Не надо бояться словосочетания «соревнования на Kaggle», просто заходим и участвуем
Вот с чего рекомендую начать:

Титаник - классика Kaggle, с него все начинают:
https://www.kaggle.com/c/titanic

Прогнозирование оттока пользователей - 230 фичей, бинарная классификация, все как мы любим:
https://www.kaggle.com/c/telecom-clients-churn-prediction

Сентимент-анализ отзывов на товары (простая версия) - классификация отзывов:
https://www.kaggle.com/c/product-reviews-sentiment-analysis-light

Ну и бонусом, 5 советов как стать богом Кагла:
https://www.youtube.com/watch?v=fXnzjJMbujc

Работаем, братва
источник
2018 October 02
мамкин Data Scientist
Здорова, сайнтисты

В этой серии у меня для вас сюрприз
Вы вероятно думали, что всего вышеперечисленного хватит для того чтобы отхапать позициию джуна, но спешу вас осадить - нихуямба подобного
Собственно к чему я это все?

Разрешите представить:
SQL - стандартный язык для работы с реляционными базами данных.
«Вот же блять, еще этот sql подъехал», думаешь ты, но не надо спешить с выводами и расстраиваться, мой юный друг, хочу тебя обрадовать, сказав, что уровень на котором нужно знать sql для начала совсем невысокий и вот что поможет быстро его заботать:

https://www.youtube.com/playlist?list=PLY4rE9dstrJwFmPYd03vZU90-TvXEpVzD - вот тут самые азы

http://www.sql-ex.ru/ - а вот тут, упражнения по sql c самого дна (маст хэв)

Понимаю твое негодование из-за огромного количества материалов, для входа в профессию, но делать нечего, как говорится «ну а ты зарплаты видел епта??»

Дерзайте
источник
2018 October 09
мамкин Data Scientist
Вечер в хату, люд работящий

Пост про дип лернинг неслабо хайпанул (ну впрочем для ДЛ ничего необычного), посыпались вопросы, а че же дальше после такого скромного вступления? Ну что, братва, пришло время познакомить вас с истинным эталоном курса по ДЛ. Барабанная дробь…
https://www.coursera.org/specializations/deep-learning

Говорить тут много не придется, потому что невъебеный Andrew Ng (или по нашему Андрюха Ын), сделал все, чтобы твой жаждущий мозг получил свою порцию машинного обучения, охуел и попросил еще, а если серьезно то это самая известная и популярная специализация про Deep learning, состоящая из 5 курсов, которая включает практические задачи и много всего интересного, это наш маст хэв. Так что если ты уже расквитался с классик МЛ и у тебя ощущение недосказанности, то тебе сюда.

Бонусом глоссарий от гугла по машинному обучению, вы знаете, что делать

Как мы и говорили не забываем о практике, без нее все ранее заботанное отправится прямым рейсом в pizdu, поэтому чаще участвуем на Kaggle, чаще ходим на всякие хакатоны/тренировки и тд, кстати 20 октября будет хакатон от NASA (как тебе такое Ило.. ай похуй), там будет много ML кейсов, отличная возможность прокачать скилл, к слову я там тоже буду, так что можем после хака поболтать о том о сем
https://2018.spaceappschallenge.org/locations/moscow

Погнали
Telegram
мамкин Data Scientist
Вечер в хату, ученные

Итак, сегодня гость нашей программы - король хайпа и главный герой в каждой бредовой статьи про то, как роботы захватят мир и прочее govno. Нейронные сети собственной персоны. Шутки шутками, но если абстрагироваться от детей солнца, которые генерят эти шедевры, то нейронки очень серьезный инструмент в современной индустрии, я считаю крайне важно понимать, как они работают.
Поможет в этом мини-курс, смотрим его в первую очередь, маст хэв
https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi

Далее, у нас по расписанию, один из топовых, по моему мнению, вводный курс в дип лернинг, сюда залетай сразу после первого
http://course.fast.ai
Не жди, что после этого станешь deep learning researcher, но определенную базу сформируешь, там всего 7 лекций, но все по делу и все шикарные.

Только прошу, когда научишься делать нейронные сети, не суй их, как своего python-а в каждую дырку, в обычных задачах классификации, регрессии, им делать нечего, твой любимый xgboost справится куда…
источник
2018 October 17
мамкин Data Scientist
Aloha epta

Вопрос стоит следующий: «где можно обучиться машинлернингу офлайн, если у меня в универе этого нет или есть, но полное говно?», решение как всегда нашлось, но в этот раз нихуя непростое. В России существует два топовых места, где учиться так сложно, что попросишься обратно домой к мамке дата саентиста под юбку, но поверь, оно того стоит.
ШАД и CSC, о каждом по порядку.

ШАД или школа анализа данных от Яндекса.
https://yandexdataschool.ru/
Для обучения требуется очень хорошая математическая подготовка, а не такая как у тебя. Занятия проходят пару раз в неделю вечером, остально время ты страдаешь над домашкой. Месторасположение - Москва (есть онлайн поток). Вот пример прошлогоднего экзамена, смотри, но не плачь
https://yadi.sk/i/42Y7_uYn3SXgWF
Старт набора в апреле

На десерт можешь глянуть открытые лекции шада, чтоб понять че там вообще происходит
https://yandexdataschool.ru/edu-process/courses/machine-learning

CSC или Computer Science Center
https://compscicenter.ru/
Это почти тоже самое, только в Питере и Новосибе, много говорить не буду, просто покажу примеры вступительных
Тест: https://yadi.sk/i/R6iX_rSv3PvwEL
Экзамен: https://yadi.sk/i/qEK7LYJr3Pw3md

Оба места очень стоящее и дадут тебе охуенные знания, но являются крайне трудозатратными и с работой на фултайм ты хрен совместишь, решать готовиться или нет тебе

Пробуем, господа
источник
2018 October 26
мамкин Data Scientist
Бонджорно, мучачос

Наш сегодняшний выпуск посвящен хакатону от NASA. Кстати, в конце поста будет nihueviy конкурс.

Из многочисленных челенджей мы остановились на проблеме лесных пожаров, она звучала так: 'помогите нам сделать какую-нибудь шляпу, которая используя человеческие ресурсы, помогала бы детектить пожары.'

Окей, NASA, говно вопрос, мы решили сделать телеграм бота, с помощью которого можно сообщить в специальные органы о происшествие. Че по итогу он делал и где уже машина лернинга, suka? Первоначальная задача этого пиздюка была помочь людям, при обнаружении пожара сообщить в специальные органы, но мы нашли парочку датасетов, один был от NASA, другой с каггла и научили, помимо основной задачи, предсказывать площадь пожара по погоде,  находить ближайшие пожары и показывать их на карте, если хотите чтоб я более подробно расписал технологию создания телеграм бота и как засовывать в него МЛ модель, то пишите в личку, сделаю на эту тему отдельный пост

Задачи анализа данных, как и ожидалось, оказались до боли простыми, поэтому я и рекомендовал идти на хакатон абсолютно всем и не бояться. Предсказание площади пожара я оставлю в виде конкурса, поэтому про нее рассказывать не буду, а поиск ближайшего пожара нам помог осуществить датасет от NASA, который хранит в себе все актуальные пожары, поэтому сделать это было достаточно просто.

Вот кстати бот, можете потыкать
@monitoring_fire_bot

Давайте поиграем, мамкины датасайнтесты, я вам микро датасет, который использовали для предсказания площади возгорания, а вы мне результат кросс валидации на 10 фолдах по метрике MSE. У кого будет самая маленькая среднеквадратичная ошибка, тому подарю годную книжку по статистике, написанную главным аналитиком гугла. Дедлайн пускай будет воскресенье 12 ночи, там делов на 5 минут, если ты совсем новичек, то это отличная возможность попробовать что-то сделать и получить мою консультацию, которая объясняет твой результат (или его отсутствие)
Данные → https://yadi.sk/d/Iz1UFlYI0jn5mg
Решение и результат → @BoykoAA

Работаем, братва
источник
2018 October 29
мамкин Data Scientist
​​Ну что, братва, подведу итог нашего челенджа. Все, кто участвовал - большие молодцы, особенно приятно смотреть на эволюцию решения, которое из дерьма превращается в конфетку с каждым новым коммитом мне в личку. Я получил десятки хороших решений и не смог определиться с одним победителем, поэтому выбрал трех (могу себе позволить подарить 3 книжки, епта). Вот эти три всадника апокалипсиса и их решения, смотрим и разбираем

1. @milovan68 решение
2. @CrAzZy_CoOkIe решение
3. @danilka_na решение

Первые 2 места получили бумажное издание книги, а третье электронное
Кто не участвовал, не расстраиваемся, такие соревнования еще будут

До скорого, мафия
источник
2018 November 01
мамкин Data Scientist
Здорово, бандиты

Подъехал эксклюзивный контент, только для членов нашего картеля. Я и так знаю, что ты tupoy в математике, это и к гадалке не ходи, поэтому я купил на одноименном сайте все необходимые методички по матану и отдам их тебе конечно же бэсплатно.
Чуваки, я как могу пытаюсь помочь вам пробраться сквозь этот тернистый путь, поэтому заполните формочку внизу, чтоб мне было проще это делать
Форма → https://goo.gl/forms/QXBroD8CGQGssGS23

Поехали:
Интенсив по производным:
https://yadi.sk/i/f-UL1-ZyI4Nh3w

Интенсив по интегралам:
https://yadi.sk/i/siN_Er6tMB0CLw

Интенсив по пределам:
https://yadi.sk/i/-vh3dhzrq_p3fA

Интенсив по диффурам:
https://yadi.sk/i/lE7YEdzbkOjptg

Ну и самое вкусное:
Школьные формулы:
https://yadi.sk/i/M6UFokxfrtjq4Q

Таблица интегралов:
https://yadi.sk/i/d_TjxJEYx30I1A

Таблица производных:
https://yadi.sk/i/EtH-teA9Q8OirA

Тригонометрические формулы:
https://yadi.sk/i/a_RFsxSzNuIuZw

Открываешь интересующую тему и начинаешь решать, через пару дней ты себя не узнаешь.

Решаем, бродяги
источник
2018 November 06
мамкин Data Scientist
Привет, разбойники

Уже придумали как проведете лето? Huy вам, а не солнце и море,надо работать. Но не просто грести на галере, а хапануть опыта за бугром. Многие мафиози в прошлом опросе просили что-нибудь рассказать о стажировках, ну вот собственно, я и надыбал карту сокровищ интершипинга

Первая таблица - это европейские летние стажировки, там все понятно:
https://docs.google.com/spreadsheets/d/1yhrno8LaKCJs2XRubv_3gwF4z_YVqpl0HgoHgoX_Y50/edit#gid=0

А вот Омэриканские стажировки:
https://github.com/christine-hu/summer-2019-internships/blob/master/README.md

Смотрите, братва, самый zaebis вариант - это отправить заявки во все компании сразу, как бы смешно и глупо это ни звучало, но это реально работает, поэтому не стесняемся, смело сабмитимся и пакуем чемоданы

В следующей серии вернёмся к МЛу, есть для вас годная инфа

Не прощаемся, работяги
источник
2018 November 12
мамкин Data Scientist
​​Здорова, картель

Как успехи, на чем застряли? Пишите → @BoykoAA

Появилась идея - собрать наш личный джентльменский набор, включающий в себя:  статьи/методы/подходы, которые можно будет применить практически к любой задаче.

Заводи машину лернига, погнали

Первое.
Неотъемлемой частью любой задачи МЛ является отбор признаков, без этого можешь сразу пиздовать на дно лидборда Kaggle, неплохим введением в это дело будет статья, почитай
https://proglib.io/p/feature-selector/

Второе.
К тебе в задачу обязательно закрадутся сучьи категориальные признаки, вот самые популярные методы их поиметь, так же как жизнь поимела тебя
https://www.datacamp.com/community/tutorials/categorical-data

Третье.
Ну и наконец настройка алгоритма, тут рассмотрен градиентный бустинг, советую прочитать и понять общий принцип настройки алгоритмов, потому что тупо засунуть все параметры в GridSearchCV получится только в учебных задачках
https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

Будем расширять список методов, которыми можно воспользоваться в любой задаче и получим настоящий набор Джеймса мать его Бонда

Let’s go!
источник
2018 November 20
мамкин Data Scientist
¡Buenas tardes! (бу-э-нас тар-дес бле-ать)

Можно бесконечно долго изучать книжки и курсы по автомобилю лернинга, но как говорится, в теории ты Лев Толстой, а на деле huy простой. Поэтому лет’c старт райт нау, предлагаю поучаствовать в соревновании на Kaggle, по предсказанию позиции участника в таблице результатов игры PUBG (от первого до последнего места). Соревнование открыто до лета, НО мы сделаем интересней, наш личный дедлайн будет 31 декабря 00-00, присылай свое решение и скрин места на лидборде, первые позиции нашего личного рейтинга(а может и не только первые) получат подарок на новый год.

А теперь инструкция к действию, если ты уже уверенный пользователь ПК, то жду твоего решения, но если ты tupoy и при виде задачи даже не знаешь с чего начинать, то я подготовил небольшую инструкцию одного из возможных подходов начала решения задачи машинного обучения
Лови → http://mommy-scientist.ru/PUBG_mds.html

Соревнование → https://www.kaggle.com/c/pubg-finish-placement-prediction
Решение → @BoykoAA
источник
2018 November 27
мамкин Data Scientist
Хеллоу, бандитос

Даже самый прожженный daun знает, что основа дата сайнс - это статистка. Без хороших знаний в этой науке ты, мало того, что не решишь ни одной задачи, так еще и на собеседовании скажут: “мы вам перезвоним”(idi na huy).

Есть два варианта подкатить к этой своенравной даме:

1. Основательный подкат. Даст тебе хорошее представление о науке, ты покодишь на R всякие крутые статистические штуки, будешь как рыба в воде, но это достаточно трудоемко и времязатратно. Зато у тебя будет глубокое понимание задач анализа данных со статистической точки зрения, также за счет этого можешь выехать на собесе, когда ответишь на какой-нибудь нетривиальный вопрос.
Что нужно для реализации этого подхода? Два последовательных курса, они кстати бесплатные, от техасского универа “The University of Texas at Austin”

Основы:
https://www.class-central.com/course/edx-ut-7-01x-foundations-of-data-analysis-2244
Вторая часть:
https://www.class-central.com/course/edx-foundations-of-data-analysis-part-2-inferential-statistics-4804

2. Поверхностный подкат. Даст тебе большую часть теоретической информации, достаточную для понимания курсов по дата сайнс и практически комфортную атмосферу при решении прикладных задач анализа данных. Плюсы: быстро, легко. Минусы: придется много искать дополнительно.
С быстрым подходом нам поможет курс “Учимся любить статистику” от University of Notre Dame
https://www.class-central.com/course/edx-i-heart-stats-learning-to-love-statistics-3048

А также книга для совсем тупорылых:        
Владимир Савельев “Статистика и котики”. Но ее рекомендую, если ты собираешься покорять data science и вообще не имеешь технического бекграунда.
Книгу можно либо купить, либо... ну ты сам знаешь как это делают в россии, чертов пират

Не прощаемся, котики
источник