Size: a a a

Data Science Chat

2021 September 03

yk

yaroslav katashynsky... in Data Science Chat
спасибо
источник

J

Jorillo in Data Science Chat
Привет! У кого-то был опыт перехода с pandas на koalas? Насколько сильно частые переходы to_pandas / from_pandas замедляют систему?

Во многих местах простой заменой панды на коалу не получается, частенько выкидывает ошибку что у коалы этот метод нереализован либо работает как-то иначе. В этих местах чтобы особо не трогать код перевожу все на панды.
Но сейчас вот столкнулся с тем, что память течет:(
источник

D

Dima in Data Science Chat
можешь сам чекнуть
загрузить 500 мб файлик, и закинуть его с пандаса на коалу и обратно, с пандаса на коалу не сильно то замедлит работу т.к. коала не загружает весь файлик в оперативу, а вот с коалы на панду будет потяжелее мб один
проще будет перейти на скалу и дергать оттуда спарк и багов ловить не будешь от питонячей апихи спарка либо на даск там вроде нет перехода на py4j
так же ,когда ты будешь на разных нодах гонять свой файлик и сделаешь to pandas, у тебя все файлики с нод перейдут на драйвер ноду и хватит ли у тебя там места большой вопрос
источник

J

Jorillo in Data Science Chat
Спасибо) я уже предложил это нашему пм, но он настаивает на коале чтобы быстренько перейти на Спарк, а дальше уже потихоньку переделывать все шаг за шагом.
Но чето этот переход оказался нифига не быстреньким, плюс ещё и память течёт где-то
источник

D

Dima in Data Science Chat
так коала - это обертка над спарком,если я не ошибаюсь
источник

J

Jorillo in Data Science Chat
Так и есть. Коала позиционирует себя как интерфейс панды + бекэнд на спарке. Только там не совсем все как в пандах реализовано:(
источник

DS

Dmytro Striletskyi in Data Science Chat
Привет.

Ищу библиотеку, в которой можно запускать разные classifiers и тестировать их эффективность. Наткнулся на lazypredict, но как-то не расширяемо получается. Банально нельзя recall и precision вывести одновременно, задать threshold. Может, вы подскажете еще инструменты такого рода?
источник

A

Andrey in Data Science Chat
да это ж не так сложно написать... у всех fit/predict
источник

DS

Dmytro Striletskyi in Data Science Chat
Ну да, не сложно, но все равно забирает время. От проекта к проекту какие-то части меняются, приходится копировать, въезжать в контекст заново. А так если есть библиотека с удобным и понятным интерфейсом, это дело было бы легче делать.
источник

A

Andrey in Data Science Chat
была какая-то, pycaret вроде
источник

D

Dima in Data Science Chat
Так сделайте свою локальную библиотеку
Можете попробовать ещё pycaret
Либо какой-нибудь другой автомл
источник

DS

Dmytro Striletskyi in Data Science Chat
Понял, спасибо. Тогда придется сделать.
источник

J

Jorillo in Data Science Chat
Можете ещё на Python Luigi попробовать построить архитектуру в духе «запустить десять тасков с различными классифаерами, подождать пока они отработают, потом сравнить результаты в одиннадцатой таске».
источник

DZ

Denis Zinner in Data Science Chat
Всем привет!
есть тут знатоки sklearn ?

Интересует вот эта смесь:
https://scikit-learn.org/stable/modules/generated/sklearn.mixture.BayesianGaussianMixture.html

А вернее параметр n_components.
Наткнулся как раз на такую ситуацию, что "иногда" модель может решить не использовать все компоненты, такое поведение выглядит ужасным.

Например:
bgm =  BayesianGaussianMixture(n_components = 17)

labels_predict = bgm.fit_predict(x_train)    (число эффективных лейблов 16)
proba = bgm.predict_proba(test_data) - (уже выдает матрицу с 17 столбцами)
К слову сказать , в proba присутствуют все компоненты, все 17, хотя да, один из них достаточно близок к нулю.


все бы ничего , но умное поведение , иногда создает проблемы. Как с этим бороться?
Как заставить модельку, перестать умничать?
источник
2021 September 04

В

Виталий in Data Science Chat
Цифровое производство. Искусственный интеллект в машиностроении.

https://youtu.be/zIniZDHS4Ok
источник

BP

Boris Protoss in Data Science Chat
Здравствуйте! Подскажите пожалуйста,  что такое association rule mining, sequential pattern mining и affinity grouping?
источник

AK

Alex K in Data Science Chat
Подскажите, какой-нить библиотечкой можно взять строчки из одного df и сопоставить со вторым по минимальному евклидовому расстоянию?
При это не дб повторов

Мне только перебор пришёл в голову
источник

S

Somebody in Data Science Chat
Перебор и будет в конце концов, скорее всего
источник

М

Манкурт Кобейн... in Data Science Chat
Может кто дать пояснения по алекснету?
А точнее, по каскадам свёрток: как 2 последовательно применённых свёртки 3х3 заменяют свёртку 5х5? В чём смысл этой операции?
источник

RN

Roman Nm in Data Science Chat
Посмотри зону влияния одного пиксела при свёртке 5х5 и при двух последовательных свёртках 3х3
источник