Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 January 04

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Если на выходе классификация предложений, можно doc2vec какой-нибудь использовать, или получать эмбеддинг предложения предтренированным бертом
источник

L

Leonid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
а такая вот еще идея.. тупо взять словарь со всеми уникальными, а потом раздать каждому предложению номера из словаря.. получится максимум 10 колонок.. как думаете?
источник

L

Leonid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ingvar
Если на выходе классификация предложений, можно doc2vec какой-нибудь использовать, или получать эмбеддинг предложения предтренированным бертом
спасибо! попробую
источник

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Не знаю насколько это будет быстро, но получение эмбеддингов предложений в стиле "усреднить векторы" даст хреновенький результат, не везде подойдет
источник
2021 January 06

🎩

🎩 Vlad in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
добрый вечер, подскажите как нанести на график в seaborn градиент на точки. не могу разобраться
источник

🎩

🎩 Vlad in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
в таком виде
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
🎩 Vlad
добрый вечер, подскажите как нанести на график в seaborn градиент на точки. не могу разобраться
Я бы попробовал передать что-то в параметр hue
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Мб есть какая-то переменная уже для этого или самому сделать
источник

🎩

🎩 Vlad in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
почитаю, спасибо
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
я делал что-то подобное через scatter из matplotlib      ax[1,1].scatter( ovation_msskg[:,2], ovation_msskg[:,0]/1e3,   marker='.', c=ovation.iloc[:,3], cmap='cool',alpha = 0.7)
источник

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Leonid
коллеги, все с Новым Годом!
совет нужен..
есть 7 млн предложений  (5-10 слов в каждом, но плюс в том, что все слова несут смысловую нагрузку - нет стоп слов) половина размечена на 10 классов. Проблема в том, что очень много уникальных слов получается. Т.е. тупо запихнуть в какой-нибудь векторайзер не вариант - матрица получается 7 млн х 40.000
Чем лучше подготовить данные для обучения?  И вообще какую стратегию тут применить?
Сделай из большой выборки маленькую выборку, отладь все ошибки, получи pipeline, потом уже тестируй на полной выборке , так время сэкономишь.
источник

P

Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
всем привет

обратное распространение при обучении нейронки - это я верно понимаю что:
- дано значение Y как эталон, правильный ответ
- входное значение N
- на выходе есть значение скажем X
- теперь (X-Y)**2: это чистая ошибка квадратичная
И собственно само распостранние:
- старый вес - (N * (X-Y))*alpha и это и будет новым весом для нейрона, типа как бы обратное распространение?
я просто путаюсь в разных источника по разному называют, где то корректировка веса, где backpropagate, где то обратной функцией обучения … в общем это все оно?
источник

S

Ssv in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Pavel
всем привет

обратное распространение при обучении нейронки - это я верно понимаю что:
- дано значение Y как эталон, правильный ответ
- входное значение N
- на выходе есть значение скажем X
- теперь (X-Y)**2: это чистая ошибка квадратичная
И собственно само распостранние:
- старый вес - (N * (X-Y))*alpha и это и будет новым весом для нейрона, типа как бы обратное распространение?
я просто путаюсь в разных источника по разному называют, где то корректировка веса, где backpropagate, где то обратной функцией обучения … в общем это все оно?
Ну как бы не совсем)).
источник

P

Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ssv
Ну как бы не совсем)).
а можно уточнить, почему или хз как правильно спросить, где ошибка …
источник

S

Ssv in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Pavel
а можно уточнить, почему или хз как правильно спросить, где ошибка …
источник

P

Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ssv
Ну как бы не совсем)).
вы имеете ввиду, что данную меру ошибки нужно распределить ка кто на весь граф?
источник

P

Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
спасибо
источник

L

Leonid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
коллеги, теоретический вопрос..
допустим, есть функция func. я запускаю ее на чистом jupyter notebook, при старте используется 200 мб памяти, в процессе работы func читает паркет, что-то с ним делает, а потом записывает обратно в паркет. т.е. не создает никаких глобальных переменных.. в процессе работы утилизация памяти доходит до 30 гб., а по окончанию работы функции в памяти остается что-то на 11гб, хотя никаких новых переменных в глобальной области не появилось..
в чем может быть дело? И как этого избежать?
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Leonid
коллеги, теоретический вопрос..
допустим, есть функция func. я запускаю ее на чистом jupyter notebook, при старте используется 200 мб памяти, в процессе работы func читает паркет, что-то с ним делает, а потом записывает обратно в паркет. т.е. не создает никаких глобальных переменных.. в процессе работы утилизация памяти доходит до 30 гб., а по окончанию работы функции в памяти остается что-то на 11гб, хотя никаких новых переменных в глобальной области не появилось..
в чем может быть дело? И как этого избежать?
Может, внутри функции дублируются временные данные?
источник

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Leonid
коллеги, теоретический вопрос..
допустим, есть функция func. я запускаю ее на чистом jupyter notebook, при старте используется 200 мб памяти, в процессе работы func читает паркет, что-то с ним делает, а потом записывает обратно в паркет. т.е. не создает никаких глобальных переменных.. в процессе работы утилизация памяти доходит до 30 гб., а по окончанию работы функции в памяти остается что-то на 11гб, хотя никаких новых переменных в глобальной области не появилось..
в чем может быть дело? И как этого избежать?
Питоновский сборщик мусора довольно ленив. Если ты вызовешь явно import gc; gc.collect() , как расход памяти меняется?
источник