Телеграмм чат группы bigdata

2021 February 22

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Например эта

источник

13:53пожаловаться #1

SL

Sergey L in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Вам же обьяснили уже, что это не совсем так работает. Почитайте чуть чуть что-то по статистике, а потом задайте вопрос

источник

13:54пожаловаться #2

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Sergey L

Вам же обьяснили уже, что это не совсем так работает. Почитайте чуть чуть что-то по статистике, а потом задайте вопрос

Читаю...единственное не могу понять что такое критерий достаточности выборки, я уже погуглил и единственное что нашел это формулы на Википедии с теоремами непонятными, а по простому нигде не вижу ответ зачем нужен и как рассчитать эту достаточность выборки

источник

14:03пожаловаться #3

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Как же меня бесит , когда я чего-то не знаю или не пониманию

источник

16:04пожаловаться #4

MC

Makha Cloud in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Как же меня бесит , когда я чего-то не знаю или не пониманию

Эт норм, все мучаются )
95% мучений, 5% результата)

источник

16:12пожаловаться #5

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Anton

Скорее всего тебе поможет CTC-loss для реализации задачи. Посмотри недавно соревнование было от сбера AI-Journey по распознаванию рукописного текста Петра Первого.

Он есть в модели которую использую, попробую, спс

источник

18:18пожаловаться #6

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ребят, а если я просто скачаю датасет с kaggle , то этот датасет можно считать генеральной совокупностью ?

источник

18:48пожаловаться #7

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Я погуглил минут 20-30, но так и не понял одну вещь. Ребят подскажите, зачем отвергать нулевую гипотезу ? Ну да, я пойму что среднее значение какого-то признака будет отличаться для одной группы в отличии от другой...но зачем это нужно ? Какая разница что среднее значение этого признака будет отличаться ?

источник

20:43пожаловаться #8

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Я погуглил минут 20-30, но так и не понял одну вещь. Ребят подскажите, зачем отвергать нулевую гипотезу ? Ну да, я пойму что среднее значение какого-то признака будет отличаться для одной группы в отличии от другой...но зачем это нужно ? Какая разница что среднее значение этого признака будет отличаться ?

Сформулируй гипотезу чтобы была разница

источник

20:44пожаловаться #9

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

А если я корреляцию по кендаллу ищу, то мне нужно оценивать мощность выборки заранее ?

источник

22:40пожаловаться #10

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

И есть ли какой-то скрипт , который сразу по всем переменным показывает в датафрейме что переменная нормальная или нет, и выписывает те которые не нормальные ?

источник

23:18пожаловаться #11

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Ребят, а если я просто скачаю датасет с kaggle , то этот датасет можно считать генеральной совокупностью ?

Нет.

источник

23:26пожаловаться #12

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Я погуглил минут 20-30, но так и не понял одну вещь. Ребят подскажите, зачем отвергать нулевую гипотезу ? Ну да, я пойму что среднее значение какого-то признака будет отличаться для одной группы в отличии от другой...но зачем это нужно ? Какая разница что среднее значение этого признака будет отличаться ?

Обычно наша нулевая гипотеза состоит в том, что различий между выбранными параметрами нет. Если мы её отвергаем, то оно вроде бы есть.

источник

23:27пожаловаться #13

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

А если я корреляцию по кендаллу ищу, то мне нужно оценивать мощность выборки заранее ?

http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82_%D0%BA%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D0%B8_%D0%9A%D0%B5%D0%BD%D0%B4%D0%B5%D0%BB%D0%BB%D0%B0#:~:text=%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82%20%D0%BA%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D0%B8%20%D0%9A%D0%B5%D0%BD%D0%B4%D0%B5%D0%BB%D0%BB%D0%B0%20(Kendall%20tau,%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D1%8F%2C%20%D0%B0%20%D1%81%D0%BE%D0%BE%D1%82%D0%B2%D0%B5%D1%82%D1%81%D1%82%D0%B2%D1%83%D1%8E%D1%89%D0%B8%D0%B5%20%D0%B8%D0%BC%20%D1%80%D0%B0%D0%BD%D0%B3%D0%B8.

источник

23:27пожаловаться #14

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

И есть ли какой-то скрипт , который сразу по всем переменным показывает в датафрейме что переменная нормальная или нет, и выписывает те которые не нормальные ?

Да, можно замапить критерий Шапиро-Уилка.

источник

23:28пожаловаться #15

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

А по поводу мощности ? Ее надо рассчитывать ?

источник

23:43пожаловаться #16

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

А по поводу мощности ? Ее надо рассчитывать ?

Мощность выборки — это количество объектов в выборке.

источник

23:46пожаловаться #17

2021 February 23

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Тут немного другое определение, но мой вопрос был в другом.
Мощность нужно рассчитывать, чтобы если различия в группах были незначимы, то никто не мог сказать что типо мало набрал наблюдений.

Но у меня не про группы анализ, у меня задача - найти связь между переменными (корреляцию), и я не пойму нужно ли мощность рассчитывать для этой задачи

источник

00:13пожаловаться #18

АК

Андрей Копылов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

k k

Тут немного другое определение, но мой вопрос был в другом.
Мощность нужно рассчитывать, чтобы если различия в группах были незначимы, то никто не мог сказать что типо мало набрал наблюдений.

Но у меня не про группы анализ, у меня задача - найти связь между переменными (корреляцию), и я не пойму нужно ли мощность рассчитывать для этой задачи

Мат статистика и анализ данных всё-таки имеют разную философию..

Классический пример: рулетка в казино 30 раз подряд выпала на красное. Мат стат скажет ставить 50 на 50, тк события между собой не связаны.. А анализ данных покажет, что надо ставить на красные, потому что рулетка имеет дефект и скорее всего опять будет красное.

Для чего тебе статистическая мощность из мат стата?)

источник

00:39пожаловаться #19

A

Alisa in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Андрей Копылов

Мат статистика и анализ данных всё-таки имеют разную философию..

Классический пример: рулетка в казино 30 раз подряд выпала на красное. Мат стат скажет ставить 50 на 50, тк события между собой не связаны.. А анализ данных покажет, что надо ставить на красные, потому что рулетка имеет дефект и скорее всего опять будет красное.

Для чего тебе статистическая мощность из мат стата?)

А почему матстат скажет ставить на чёрное, разве выпадение чисел на рулетке - зависимые события (те выпадение красных как-то может повлиять на выпадение черных в будущем)?

источник

00:47пожаловаться #20