Size: a a a

мамкин Data Scientist

2018 December 03
мамкин Data Scientist
​​Хеллоу епта

Бандиты, признавайтесь, есть среди вас такие одичалые сайнтисты, которые собираются нырять с головой в обучение с подкреплением (reinforcement learning)? Тут OpenAI подготовил для вас целый suka туториал, как стать частью этой секты. Там есть почти все, от вступления до документации алгоритмов, короче можно смело на него опираться, лови
https://spinningup.openai.com/en/latest/

Так напоминаю, чтоб по итогу не сделать присед на huy индустрии, нужно как можно больше практиковаться, и тут я тоже не с пустыми руками. Во-первых, ты не забыл про наш конкурс?  Во-вторых, на платформе Boosters, крутые чуваки устроили для Росбанка новогодний чемп по МЛу. Задача -  оптимизировать расположение банкоматов, твой шанс решить эту ebanuyu проблему, когда их вечно нет рядом, жиза? После завершения, конечно же посмотрим на лучшее решение и разберем его по косточкам
Участвуем → https://rosbank.boosters.pro/

Ботай, практикуйся, ebash
источник
2018 December 11
мамкин Data Scientist
Здорова, ганстеры

Если ты имеешь виды на крупные компании, будь то российские или тем более забугорные, то будь готов, даже на позицию ДС, проронить всего пару слов по теме машин лернинга на интервью, все остальное время тебя будут дрючить по алгоритмам. Но..но..но, никаких НО, солдат. Да это больно, да это неприятно, да хочется уже плакать, но это неизбежно, поэтому наша задача быть готовым и к этому пиздецу.

Что нам поможет? (тебе только чудо)(шутка)
Во-первых, бесплатный курс на степике от CSC послужит неплохим введение.
Тут у нас много алгоритмов, с домашками, а самое главное с разбором некоторых из них. Просто топ
https://stepik.org/course/217

А еще? Хорошо
Во-вторых, видеолекции курса «Алгоритмы и структуры данных» от ШАД, чуть сложнее и нет домашек, но посмотреть непересекающееся видео стоит.
https://yandexdataschool.ru/edu-process/courses/algorithms

Ну и наконец практика, маст хев. Переходим к  LeetCode - это лучшая платформа, которая может подготовить тебя к техническому собеседованию. На ней куча разных алгоритмических задач, разного уровня. Моя первая рекомендация, научись решать быстро и правильно легкие задачи, эти шаблоны в голове, очень помогут на сложных алгоритмах. Вторая рекомендация, не злоупотребляй кнопкой Run, это приблизит тебя к ситуации, когда пишешь код ручкой на листочке, кстати да, почти на всех собесах код пишется именно так
https://leetcode.com/

Работы еще много, погнали
источник
2018 December 18
мамкин Data Scientist
Привет, мафия

Понимаю, что перед новым годом у всех суматоха: сессии, отчеты, дедлайны и тд, поэтому не буду вас сильно нагружать, просто хочу поделиться одним из лучших курсов по питону на русском языке. Правда есть одно НО, он рассчитан на людей, которые уже знакомы с кодингом в целом и просто хотят сделать присед на python-a, вместо бутылки. Курс был создан для студентов CSC, поэтому найти домашки к нему будет проблематично (но не так проблематично, как тебе найти работу). Но этот вопрос решается достаточно просто, берем любой задачник по питону и решаем в соответствии с темами.

Курс → https://habr.com/company/compscicenter/blog/280426/
Веселый задачник(с ачивками и форумом) → www.checkio.org

Это еще не все, в догонку к курсу держи шпаргалку по питону, которую ты сохранишь и никогда больше не откроешь (это по-нашему)
https://yadi.sk/i/H2IHwU_Ws9gieQ

Закрываем всякое новогоднее говно и снова в бой, мафиози, не прощаемся
источник
2018 December 25
мамкин Data Scientist
Здорова, бродяги

Сегодня у нас классика, классика для любителей БДСМ, доставай шарик изо рта и смотри. Самый настоящий курс по диплернингу от ШАДа, с ШАДовскими лекциями и даже с некоторыми домашками/семинарами. Что у нас внутри? 11 недель слез и страданий, от вопросов как устроена сеть до RL и тому подобного. Курс достаточно свеженький, информация актуальная. Что хочется сказать от себя, настоятельно не рекомендую новичкам в DL (не лезь блять, она тебя сожрет). Спросишь, стал бы я проходить его или прошел бы новенький god of war? Я бы выбрал второе, но если у тебя тоже нет ps4 (шучу у меня есть), то лекции посмотреть стоит, они достаточно необычные, а что касается домашних заданий, сильно упарываться не советую. Конечно, посидеть пару вечеров над домашкой будет профитно, но не более того

Курс → https://github.com/yandexdataschool/Practical_DL

Перед НГ держи руку на пульсе (если он у тебя еще есть), 31 числа будет маленькая викторина с призами, бай
источник
2018 December 31
мамкин Data Scientist
​​Хо-хо-хо, работяги

Никаких итогов года, никаких пожеланий, только хардкор. Впереди еще dohuya работы и сложностей, но все вы были хорошими мальчиками и девочками в этом году, поэтому я с подарками. У нас в распоряжении 5 новогодних сюрпризов, которые получат всадники апокалипсиса, верно и быстро решившие новогоднюю викторину

VICTORY → Конкурс завершен

Из подарков у нас:
Подписка на видеосервис 1 месяц
Подписка на аудиокниги 1 месяц
Подписка на фильмы/сериалы 1 месяц
Одна аудиокнига на выбор
Подписка на фильмы/сериалы 10 дней

Работаем даже 31го, банда
источник
2019 January 09
мамкин Data Scientist
​​Здорова, головорезы

Эксклюзив подъехал, отходим от новогоднего угара и приступаем к делу. Завершился конкурс PUBG, борьба была не на жизнь, а на смэрть. Ну а вот наш всадник апокалипсиса, пожиратель миров @thurs88 и его решение, которое он расписал максимально подробно, так что даже если ты super tupoy все равно поймешь.

Часть 1 → http://mommy-scientist.ru/pubg_competition_eda.html
Часть 2 → http://mommy-scientist.ru/pubg_competition_lgbm.html

Победитель получает Кингу С. Николенко «Глубокое обучение. Погружение в мир нейронных сетей» Поздравляем!

Так, ну а если ты, ленивая suka, еще даже не начал и не знаешь с чего начать, напоминаю, я подготовил быстрый старт для этого соревнования, можешь начать с него

Соревнование →  https://www.kaggle.com/c/pubg-finish-placement-prediction
Быстрый старт → http://mommy-scientist.ru/PUBG_mds.html

Ну и еще, кто заблудился на канале, я переработал закреп, так что жми своим толстым пальцем и вперед

Смотрим решение, учавствуем, побеждаем
источник
2019 January 16
мамкин Data Scientist
​​Йоу, нигеры

Мне тут птичка на хвосте принесла, что ты боишься лезть в нейронки, думаешь это намного сложнее чем классик МЛ? А если я тебе скажу, что нейронку для распознавания рукописных цифр можно написать в 8 строчек кода. Pizdec? Ну так вот, я  наваял пример как это сделать с помощью библиотеки Keras, залетай и чекай. Вот и все, фенита ля комедия блять

http://mommy-scientist.ru/MNIST.html

Ну что, понравилось? Я так и думал, а теперь собери свою дряблую жопу в кулак и вперёд на курс по сверточным нейронным сетям от стенфорда. Там у нас 10 недель чистого компьютер вижн, как говорится, будет сложно, но тебе понравится.

Курс → http://cs231n.stanford.edu

Работаем, братва
источник
2019 January 22
мамкин Data Scientist
Здорова, мафиози

Сверху для нубов, снизу для олдов, поэтому читаем до конца, не ленимся.

В нашем картеле много молодых и зелёных, с этим связано оверкильное число вопросов в личке. Поэтому напоминаю, что делать после того как ты поботаешь математику и питон, берёмся за дело и ебошим Data Science. Тут, к счастью, у нас есть топ специализация от Яндекса/Мфти. Это целая эпопея, которая длится 6 прекрасных курсов, да что греха таить, есть дети индиго, которые находят job после 3го курса, так что мастхев
Специализация → https://datasciencecourse.ru

Олды здесь? В ML теория и практика идут рука об руку, поэтому упарываться в kaggle 24/7 не всегда имеет смысл, иногда методы кончаются и уже не знаешь что делать, в этом случае на помощь снова приходит теория, вот сборник теоретических задачек по ML с решениями(на русском). Что-то подобное любят спросить на собесе. Открываем, читаем, сохраняем
Сборник → https://clck.ru/F5KCT

Го, го, го
источник
2019 January 29
мамкин Data Scientist
​​Вечер в хату, бродяги

Ну че, вдохновился предыдущей историей про нейронные сети? Сегодня у нас продолжение курса «Глубокое проникновение в глубокое обучение»  и несколько анонсов, стартуем

Во-первых, в этой серии мы рассматриваем пример CNN (сверточная нейронная сеть) и как она реализована в Keras (спойлер: один сука в один как и обычная), поэтому, чтоб не идти на курсы по нейронкам совсем уж вонючим нубом, давайте учиться. Я подготовил небольшое домашнее задание в конце ноутбука, на случай если не хочешь так и сдохнуть tupim, советую сделать.

http://mommy-scientist.ru/cifar10.html

Во-вторых, давай уже покорять Kaggle, хватит ждать подходящего момента, этот ebuchiy момент прямо сейчас, поэтому взял свою ленивую жопу и понес участвовать в соревновании по распознанию рукописных цифр MNIST, это своеобразный «хеллоу ворлд» в МЛ. Ноутбук, который я подготовил послужит шаблоном и типа как бейзланом, поэтому дело за малым. А чтобы мотивировать вас окончательно, объявляю наше личное соревнование, присылаем мне скрин места на лидборде и решение, через месяц выберем всадника апокалипсиса и одарим его ценными ништяками, дедлайн 29 февраля, е бой

https://www.kaggle.com/c/digit-recognizer

Наконец, хочу вам кое-что порекомендовать.
Ну давай, какую-нибудь дико скучную хуету, еще и на английском насоветуешь?
А вот и нет, bitches, дело в том, что у ODS выходит курс по нейронным сетям, старт в феврале. С ODS вас знакомить смысла нет, вы и так знаете этих разбойников, смело записываемся и покоряем эту индустрию (бесплатно, на великом могучем)

Запись → https://dlcourse.ai/
Программа → https://habr.com/ru/post/414165/

Хочешь продолжения курса «Глубокое проникновение в глубокое обучение»? Тогда жми пальцем прямо на govno и будет тебе потеха
источник
2019 February 05
мамкин Data Scientist
​​Солнце заходит, бандиты выходят, здорова

Как продвигается наше соревнование? Пора серьезно браться за дело и разносить лидборды. Соревнования МЛ - это своеобразная вещь, они не всегда поддаются логике и не побеждаются стандартными методами, которые написаны в книжке, но некоторые рекомендации я все же дам. И если думаешь, что побеждают соревнования только ребята с рожей сальной, жопой колоссальной, то это не так. Ты тоже сможешь, поехали

Первое, посмотри курс от HSE «How to Win a Data Science Competition: Learn from Top Kagglers», там рассматриваются основные моменты Feature Engineering, Feature Extraction и тд, таким образом сформируется хорошая база для полного осознания публичных кернелов, которые выкладывают какие-то сука инопланетяне. В курсе 5 недель и финальное соревнование, он конечно на английском, как ты уже догадался по названию, НО читают наши ребята из HSE, поэтому разобраться сможешь, там английский словно русский. Да, он платный, но ты же знаешь, у кого спрашивать про финансовую помощь, @BoykoAA, ага

Курс → https://www.coursera.org/learn/competitive-data-science

Второе, можно почитать статью про то, как фармить каггл, я бы не сказал, что согласен со всем, что пишет автор, но для общего развития читаем

Статья → https://habr.com/ru/company/ods/blog/426227/

Третье, посещай ML тренировки, там можно послушать ребят, которые реально чего-то достигли в соревнованиях (не то что ты в жизни), кстати ближайшая в этом месяце 26 числа

Тренировка → https://events.yandex.ru/events/mltr/26-jan-2019/

Четвертое, как можно больше практики, начать можно от сюда, а потом браться за актуальные соревнования, разбирая как можно больше публичных кернелов

Работаем, контрабандисты
источник
2019 February 13
мамкин Data Scientist
​​Гамарджоба, картель

Новая серия эксклюзивного курса «Глубокое проникновение в глубокое обучение» уже здесь, встречаем.Наш конкурс близок к завершению, дедлайн был назначен на 29 февраля, но я тут подумал, что лучше перенести на день, который все-таки существует (я сам охуел), поэтому судный день теперь 1 Марта.
Вернемся к курсу, сегодня на повестке дня тема «Предобученные сети», я подготовил целых 3 ноутбука и небольшой датасет из фоток кошек и собак, можешь сам поиграться с собачками (только не как Панин, лол)

Ноутбуки:
- Использование голой сети VGG16

- Использование кастомной сети VGG16 для распознавания котов и собак, бонусом реализация генератора

- Использование сети Inception для распознования котов и собак

Данные → https://clck.ru/FCCcF

Часто поступающий вопрос, какую библиотеку мне ботать для ДЛ? Смотря какие цели преследуешь, если ты tupoy, рекомендую начать с keras, она изи, потом уже переходить на более высокоуровневые варианты. А вообще имеется неплохая статистика по библиотекам, смотри

Статистика по библиотекам для ДЛ → https://clck.ru/FCCjV

Джаст ду ит, братва
источник
2019 February 20
мамкин Data Scientist
​​Здорова, работнички

Один вариант pizdatogo лета я уже предлагал, но это еще не все. Есть такое понятие как Летняя школа. Это недельная смена обстановки, новые знакомства, возможность узнать что-нибудь новенькое и интересное. Таких школ, по разным темам, хуева тутуева штук, но среди шлака и токсинов, есть и продуктивные. Лично мне довелось участвовать в некоторых сектантских мероприятиях такого рода. Далее те, которые однозначно порекомендую, так сказать мастхев саммер скул.

1. Летняя школа по биоинформатике,  29 июля — 3 августа 2019 | Москва. Прием заявок открывается сегодня. Лично чилил там прошлым летом, было кайфово. В программе школы много лекций, а под конец еще и хакатон. Если интересно, какой проект мы делали или какие лекции там читали, тебе сюда → @BoykoAA
Как попасть? Участники поделены на биологов и информатиков, биологам нужно будет пройти курс по питону (думаю количество биологов, подписанных на этот канал, как и размер твоей зарплаты стремится к нулю, но да пох), а информатикам курс по биологии, благо он на степике и с неограниченным количеством попыток, ну ты понял.
Не упусти шанс послушать что-то новенькое, а то уже совсем otupel.
Школа биоинформатики → https://clck.ru/FEcFo

2.  Летняя школа Deep Learning and Bayesian Methods 20 — 25 Августа 2019 | Москва. Прием заявок открыт. Это более хардкорный вариант, с нуля туда залететь не получится. Желательны знания МЛ, питона, математики, да еще и язык школы английский. Если все это тебя устраивает, то смело регайся, не пожалеешь
Deep Learning and Bayesian Methods → http://deepbayes.ru/

Не стесняйся кидать заявки. Вероятность, что тебя возьмут аж 1/10, работаем
источник
2019 March 01
мамкин Data Scientist
​​Йоу йоу, гангстеры

Вот и наступил судный день нашего конкурса, пора выбрать гладиаторов и удостоить наград. Все, кто участвовал - красавцы. Вы проделали большую работу, в первую очередь над собой.
Ну что, @milovan68 не в первый раз на нашем лидерборде, поздравляем с лучшим результатом. Денис неслабо наебал систему и получил скор 1.00, но это kaggle, тут все способы хороши. Плюс ко всему, очень подробно расписал решение, так шо смотрим (PyTorch). Получает всадник апокалипсиса 2 книжки:
Эндрю Брюс «Практическая статистика для специалистов Data Science»
Владимир Вьюгин «Математические основы машинного обучения и прогнозирования»

Решение → https://github.com/milovan68/notebooks/blob/master/mnist_for_mommy.ipynb

А так же, приз зрительских симпатий получает @robertlu за простое, но эффективное решение с результатом 0.999 (Keras). Роберт, в качестве приза, выбрал финансовую помощь на кокаин и шлюх (очень дешевых).

Решение → https://github.com/Lurrobert/ML-Hackathons-/blob/master/Mnist-0.999.ipynb

Смотрим решения наших ассасинов, разбираемся и в следующий раз побеждаем

Погнали
источник
2019 March 06
мамкин Data Scientist
​​Конишуа, синоби

Читаем до конца. Как всегда, сверху для нубов снизу для олдов. Начинаем

Ну что, уже устроился на работу? Или до сих пор трясутся коленки перед собеседованием, сыкуха? Не будь тряпкой, сейчас все решим, один из мамкиных ДСов любезно поделился списком вопросов к интервью для разных уровней познания бытия, поэтому не надо тянуть кота за яйца и ждать когда же наступит тот самый момент. Повторяешь/учишь этот список и вперед, навстречу унижениям, без этого никак

Вопросы → https://clck.ru/FJv3d

Знаю, олды на месте. Если ты поработал в индустрии больше 5 минут, понимаешь, что наши галеры - это далеко не Kaggle. Проделывается огромная работа, до того как в твоих похотливых ручонках окажется чистый датасет. А если ты претендуешь на позиции выше Junior, то без таких слов как MapReduce, Hadoop и тд будешь послан natribu.org. Но и тут есть решение, записываешься на этот курс от Яндекса, и тебя введут в курс дела. Тут у нас 4 недели и 49 часов на выполнение. Здесь тебе и о MapReduce, и о Apache Spark, ну короче норм. Платный? Да, но финансовую помощь никто не отменял, пиши сюда и получай лайвхаки @BoykoAA

Курс → https://www.coursera.org/learn/big-data-essentials?specialization=big-data-engineering

Работаем, бандиты
источник
2019 March 14
мамкин Data Scientist
​​Здорова, бандиты

Байес передает привет и говорит, что если будешь его игнорить так и останешься tupoy. А если серьезно, пора расширять кругозор и узнать о Байесовских методах машинного обучения. Зачем мне это?
Suka, да для того, чтобы наконец-то научиться извлекать информацию из маленьких наборов данных,  оценивать неопределенность в прогнозах, да в конце концов нормально настраивать гиперпараменты алгоритмов. В изучении данного вопроса поможет один из моих любимых курсов, который так и называется - Bayesian Methods for Machine Learning (ну охуеть теперь). Тут у нас 4 недели и 40 часов на выполнение, это мастхевный курс, пацаны

Курс →  https://www.coursera.org/learn/bayesian-methods-in-machine-learning

Таааак, смотрю ждешь лайвхаки? Ладно, если ты ленивая jopa просто хочешь профессионально настраивать гиперпараметы алгоритма и нагибать на Kaggle, не выполняя при этом курс 40 часов, то вот кернл, где чувак все рассказывает и показывает, вариант для ленивых

Lazy jopa →  https://www.kaggle.com/sz8416/simple-bayesian-optimization-for-lightgbm

Погнали, банда
источник
2019 March 21
мамкин Data Scientist
​​Вечер в хату, ученые

Все говорят об этом по углам, единицы понимают, а занимаются только кагглеры.
Встречайте, Features engineering собственной персоны. Заводи машину лернинга, поехали

Что это такое? Зачем это нужно?
Ну начну с того, что искусство создания новых признаков сравнимо с долгим путем самурая, которое не приходит и уходит за один день (в отличие от твоей зарплаты). Тем не менее могу тебя успокоить, и тут есть определенный кодекс самурая, в котором выработаны определенные приемчики.

Начнем с самого неочевидного приема, до которого ты тупорез никогда сам не догадаешься.
Это комбинации некоторых признаков, например, при прогнозировании цены на дом, признаки длинны и ширины дома будут работать хуже, чем признак площади, т.е длинны умноженной на ширину. Так ты убьешь двух зайцев, сократишь размерность признакового пространства и получишь более влиятельную фичу.

Второй простой приёмчик всеми любимый .groupby().
Он работает, когда есть категориальный признак, типа ID, который повторяется в строках некоторое количество раз. Этот метод позволяет нихуево апнуть скор. Реализацию можно посмотреть в этом ноутбуке.
https://www.kaggle.com/rejasupotaro/effective-feature-engineering

Частенько pizdato заходит метод knn-features, про который отлично рассказывают в первой части вот этой ml-тренировки.
https://www.youtube.com/watch?v=cjoi-PCcpf0

А чтобы отсечь всратых снобов, которым вечно нужен основательный подход к каждому вопросу, вот вам огромная книга, где про все это написано подробно
https://perso.limsi.fr/annlor/enseignement/ensiie/Feature_Engineering_for_Machine_Learning.pdf

Это далеко не все методы FE, будем рассматривать еще.
И помните, самураи, нет уникальной катаны под все задачи.
источник
2019 March 28
мамкин Data Scientist
​​Здорова, ганста

Снизу анонс, может тебе вонючему цыгану позолочу ручку, так что читаем.
А пока что новость, CSC открывает новый набор мазохистов и подрубает заочное обучение в этом году. Кто до сих пор не в теме что это такое, то вот. Если ты все таки решил провести 2 года в латексе и шариком во рту, вот что надо:
- До 13 апреля заполнить вот эту шляпу https://compscicenter.ru/application/,
- До 14 апреля решить тестовое,
- Сдать экзамен в мае,
- Пройти собес
(Экзамен по сложности, словно его придумывали Чужие для Хищников)
Дело за малым, епта

Примеры вступительных
Тест: https://yadi.sk/i/R6iX_rSv3PvwEL
Экзамен: https://yadi.sk/i/qEK7LYJr3Pw3md

Кста, если кто-то хочет рассказать, как он готовился к поступлению в ШАД/CSC, а потом поступил/не поступил, пишите мне. Будем делать крутую статью @BoykoAA

Ну что, щенки, потренировались на игровых соревнованиях каггла, настало время приступать к боевым действиям. Призываю участвовать в компетишине Santander Customer Transaction Prediction. Это оочень простой челендж, так что не ссы, все будет заебумба. Наш личный дедлайн будет в тот же день, что и дедлайн на каггле, т.е. 10 апреля. Соревнование реально очень простое, приличный результат можно получить в 90 строк (правда как его улучшить никто не знает)
https://www.kaggle.com/jesucristo/90-lines-solution-0-901-fast

Присылай свои решения/гипотезы/рассуждения и 10 апреля мы выберем парочку победителей, могу себе позволить так сказать. Так же объявляется конкурс на самое ебанутое (понимайте это как хотите) решение/гипотезу, тут ты точно выиграешь.

Погнали
источник
2019 April 05
мамкин Data Scientist
​​Алоха, бездельники

Давненько мы не пополняли наш джентльменский набор.

Начнем по традиции с отбора признаков. Зачем? Ну представь ты нагенерил 5к признаков и сам не ебешь какие важные, а какие нет. Особенно если они анонимированы. Или в задаче изначально много фичей, так часто бывает в телекоме, да где угодно может встретиться. Представляю вашему вниманию Boruta (че, пацаны, аниме?).
Naruto, точнее Boruta - метод отбора самых важных признаков из общего множества, это означает, что он пытается найти все фичи, которые несут информацию. В 2к19 это один из самых используемых методов. Кроме того, очень простой.
https://github.com/scikit-learn-contrib/boruta_py

И конечно же качаем наш скилл в Features engineering. Помните книгу, которую советовал снобам. Я нашел, где собраны все методы создания новых признаков из этого криминального чтива. Они уже реализованы в коде и готовы к применению в задачках. Тут от создания полиномиальных фичей до K-means
https://github.com/alicezheng/feature-engineering-book

С таким набором надо залетать на соревнование, давай ebash

Зеленые, пишите на чем застряли по пути в нашу хайповую науку, может что-нибудь и разберем
@BoykoAA. И не забывайте, что для вас в закрепе много всего интересного

Летс гоу, братва
источник
2019 April 12
мамкин Data Scientist
​​Здорова, проказники

Как ваше ничего? Пришло время подвести итоги соревнования. Хочется сразу сказать, что паблике кернел, как и 0.901 никому пробить не удалось. Это не беда, ведь мы здесь, чтоб учиться и узнавать что-то новое, а какие-то локальные неудачи, это просто часть пути, который нужно мужественно пройти. Но дядя Саша без подарков не оставит. За over9000 попыток и гипотез @HitMIss получает Кингу Николенко «Глубокое обучение».

Но давайте все же разберем, что пошло не так. В чем же суть этого ебаного соревнования. Проведем так скажем ML тренировку на минималках. Думаю, с условием соревнования ты ознакомился, если нет, то вот. 200 фичей, предсказываем вероятность.

Что нужно было сделать, чтоб залезть в бронзу, в самую нижнюю границу? Так сказать вариант для бомжей. Все очень просто, нужно было сблендить результаты свои + общедоступные, кластерным блендингом, его кстати отлично описали в паблике кернеле
https://www.kaggle.com/darbin/clustering-blender-of-0-901-solutions
Но! Этот вариант достижения цели не несет никакой интеллектуальный нагрузки и так делают реально бомжары, которые не хотят учиться, а хотят просто медали. Но для общего развития знать будешь.

Где же была dog зарыта? Участники соревнования заметили, что у фичей очень странная частотность, частоты отличались трейна от теста, в итоге суть соревнования сводилась к тому, чтобы догадаться применить Frequency encoding ко всем фичам и заменить 200 стандартных на 200 закодированных. Не каждый день применяешь Frequency encoding к флоат фичам в этом и pizdec. Что такое Frequency encoding? Frequency encoding - это частотное кодирование, короче говоря, замена значения на частоту встречаемости этого значения. Если у нас есть фича Животные, и там 3 строчки: Собака, Кошка, Собака. Frequency encoding преобразует это в 2, 1, 2. Думаю вы поняли. Вот ребята, кто нашел этот прикол отправлялись прямиком в топ лидборда. Хорошую реализацию можно глянуть тут
https://www.kaggle.com/zfturbo/magic-feature-generator

А что касается тебя, мой юный(или не очень) друг, не стоит расстраиваться из-за одного соревнования. Главное, что ты учишься и получаешь опыт. А медали и звания каггл это все дело наживное и приходящее со временем, у тебя еще все впереди, мамкин дата сайнтист.

Если понравилась наша ML тренировка на минималках, нажимай на лицо своей девушки, когда она увидела твоего python-а в первый раз, будем проводить такие иногда.

Работаем, братва
источник
2019 April 22
мамкин Data Scientist
​​Здорова, пацаны

Сегодня pizdec. Обычно я рассказываю о курсах, которые стоит посмотреть, но сегодня наоборот. Курс, на который не надо тратить время и money. И пройди опрос внизу, плиз.

Не так давно мне в личку долбило приличное количество людей, спрашивая о этой параше neural-university.ru. Мол стоит ли тратить время и деньги на курсы от сюда. Сразу, подозревая неладное, говорил нет, не надо. Я просто хуй знает, насколько надо быть ребенком солнца, чтоб назвать контору Университет искусственного интеллекта, лол. Но это были всего лишь догадки. Из-за непрерывного роста вопросов от вас, мои любимые, я проебал 40к и купил этот продукт, чтобы убедиться. (У меня даже всратый сертификат теперь есть)

Вся проблема подобных курсов в том, что они зазывают людей без абсолютно какого-либо бекграунда и обещают им горы работы и 300к/сек после курса, но в ML/DL это так не работает, тут нужны колоссальные усилия еще до того как пришел на курс. Они же говорят, не нужон нам ваш Python, ваша математика и прочая ересь, научитесь всему с нуля и до грандмастера прямо у нас.

Лекции более-менее норм, они везде говорят примерно одно и тоже, но вот домашние задания, а они являются фундаментом образования, полнейший pizdec. Все домашки сводятся к перезапуску ноутбука, который был получен на лекции (ЧТО БЛЯ? 40к?). Ну а что могут сделать еще люди, которые пришли с нулевыми питоном и математикой? Серьезное домашние задание им не дать, они не справятся и будут недовольны. Дадим им перезапускать ноутбуки, для этого действительно знания питона не нужны.

Думаю, у вас сложилось примерное представление о качестве образовательных услуг университета искусственного интеллекта (господи прости). Добавляем в наш личный блеклист. И если ты собрался купить какой-то курс, лучше напиши вначале @BoykoAA, я их схавал уже сто штук.

Не сочти за сложность, бро, опросик → https://goo-gl.ru/5dMc
источник