Телеграмм чат группы datasciencechat страница 7023

Size: a a a

Data Science Chat

5162 membersпожаловаться на группу

2021 September 03

yaroslav katashynsky... in Data Science Chat

спасибо

источник

10:27пожаловаться #1

Jorillo in Data Science Chat

Привет! У кого-то был опыт перехода с pandas на koalas? Насколько сильно частые переходы to_pandas / from_pandas замедляют систему?

Во многих местах простой заменой панды на коалу не получается, частенько выкидывает ошибку что у коалы этот метод нереализован либо работает как-то иначе. В этих местах чтобы особо не трогать код перевожу все на панды.
Но сейчас вот столкнулся с тем, что память течет:(

источник

13:01пожаловаться #2

Dima in Data Science Chat

можешь сам чекнуть
загрузить 500 мб файлик, и закинуть его с пандаса на коалу и обратно, с пандаса на коалу не сильно то замедлит работу т.к. коала не загружает весь файлик в оперативу, а вот с коалы на панду будет потяжелее мб один
проще будет перейти на скалу и дергать оттуда спарк и багов ловить не будешь от питонячей апихи спарка либо на даск там вроде нет перехода на py4j
так же ,когда ты будешь на разных нодах гонять свой файлик и сделаешь to pandas, у тебя все файлики с нод перейдут на драйвер ноду и хватит ли у тебя там места большой вопрос

источник

13:39пожаловаться #3

Jorillo in Data Science Chat

Спасибо) я уже предложил это нашему пм, но он настаивает на коале чтобы быстренько перейти на Спарк, а дальше уже потихоньку переделывать все шаг за шагом.
Но чето этот переход оказался нифига не быстреньким, плюс ещё и память течёт где-то

источник

13:57пожаловаться #4

Dima in Data Science Chat

так коала - это обертка над спарком,если я не ошибаюсь

источник

13:59пожаловаться #5

Jorillo in Data Science Chat

Так и есть. Коала позиционирует себя как интерфейс панды + бекэнд на спарке. Только там не совсем все как в пандах реализовано:(

источник

14:05пожаловаться #6

Dmytro Striletskyi in Data Science Chat

Привет.

Ищу библиотеку, в которой можно запускать разные classifiers и тестировать их эффективность. Наткнулся на lazypredict, но как-то не расширяемо получается. Банально нельзя recall и precision вывести одновременно, задать threshold. Может, вы подскажете еще инструменты такого рода?

источник

15:50пожаловаться #7

Andrey in Data Science Chat

да это ж не так сложно написать... у всех fit/predict

источник

15:56пожаловаться #8

Dmytro Striletskyi in Data Science Chat

Ну да, не сложно, но все равно забирает время. От проекта к проекту какие-то части меняются, приходится копировать, въезжать в контекст заново. А так если есть библиотека с удобным и понятным интерфейсом, это дело было бы легче делать.

источник

15:58пожаловаться #9

Andrey in Data Science Chat

была какая-то, pycaret вроде

источник

15:59пожаловаться #10

Dima in Data Science Chat

Так сделайте свою локальную библиотеку
Можете попробовать ещё pycaret
Либо какой-нибудь другой автомл

источник

15:59пожаловаться #11

Dmytro Striletskyi in Data Science Chat

Понял, спасибо. Тогда придется сделать.

источник

16:00пожаловаться #12

Jorillo in Data Science Chat

Можете ещё на Python Luigi попробовать построить архитектуру в духе «запустить десять тасков с различными классифаерами, подождать пока они отработают, потом сравнить результаты в одиннадцатой таске».

источник

18:58пожаловаться #13

Denis Zinner in Data Science Chat

Всем привет!
есть тут знатоки sklearn ?

Интересует вот эта смесь:
https://scikit-learn.org/stable/modules/generated/sklearn.mixture.BayesianGaussianMixture.html

А вернее параметр n_components.
Наткнулся как раз на такую ситуацию, что "иногда" модель может решить не использовать все компоненты, такое поведение выглядит ужасным.

Например:
bgm = BayesianGaussianMixture(n_components = 17)

labels_predict = bgm.fit_predict(x_train) (число эффективных лейблов 16)
proba = bgm.predict_proba(test_data) - (уже выдает матрицу с 17 столбцами)
К слову сказать , в proba присутствуют все компоненты, все 17, хотя да, один из них достаточно близок к нулю.

все бы ничего , но умное поведение , иногда создает проблемы. Как с этим бороться?
Как заставить модельку, перестать умничать?

источник

21:14пожаловаться #14

2021 September 04

Виталий in Data Science Chat

Цифровое производство. Искусственный интеллект в машиностроении.

https://youtu.be/zIniZDHS4Ok

YouTube

Цифровое производство. Искусственный интеллект в машиностроении.

Рассказываю о примере внедрения искусственного интеллекта на производстве в машиностроении. Что такое цифровое производство? Что дает цифровизация экономики?

Таймкоды:
0:00 цифровое производство
0:36 проблема в производстве
2:34 человек слабое звено
3:13 задача для ИИ
4:29 стоимость ошибки предсказания
5:08 плюсы использования ИИ
6:33 примеры цифрового производства

#ЦифровоеПроизводство #цифровизация

источник

19:10пожаловаться #15

Boris Protoss in Data Science Chat

Здравствуйте! Подскажите пожалуйста, что такое association rule mining, sequential pattern mining и affinity grouping?

источник

19:26пожаловаться #16

Alex K in Data Science Chat

Подскажите, какой-нить библиотечкой можно взять строчки из одного df и сопоставить со вторым по минимальному евклидовому расстоянию?
При это не дб повторов

Мне только перебор пришёл в голову

источник

19:55пожаловаться #17

Somebody in Data Science Chat

Перебор и будет в конце концов, скорее всего

источник

20:00пожаловаться #18

Манкурт Кобейн... in Data Science Chat

Может кто дать пояснения по алекснету?
А точнее, по каскадам свёрток: как 2 последовательно применённых свёртки 3х3 заменяют свёртку 5х5? В чём смысл этой операции?

источник

22:25пожаловаться #19

Roman Nm in Data Science Chat

Посмотри зону влияния одного пиксела при свёртке 5х5 и при двух последовательных свёртках 3х3

источник

22:28пожаловаться #20