Телеграмм чат группы bigdata_ru страница 2424

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4578 membersпожаловаться на группу

2021 January 04

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Если на выходе классификация предложений, можно doc2vec какой-нибудь использовать, или получать эмбеддинг предложения предтренированным бертом

источник

17:15пожаловаться #1

L

Leonid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

а такая вот еще идея.. тупо взять словарь со всеми уникальными, а потом раздать каждому предложению номера из словаря.. получится максимум 10 колонок.. как думаете?

источник

17:16пожаловаться #2

L

Leonid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Если на выходе классификация предложений, можно doc2vec какой-нибудь использовать, или получать эмбеддинг предложения предтренированным бертом

спасибо! попробую

источник

17:16пожаловаться #3

I

Ingvar in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Не знаю насколько это будет быстро, но получение эмбеддингов предложений в стиле "усреднить векторы" даст хреновенький результат, не везде подойдет

источник

17:16пожаловаться #4

2021 January 06

🎩

🎩 Vlad in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

добрый вечер, подскажите как нанести на график в seaborn градиент на точки. не могу разобраться

источник

01:06пожаловаться #5

🎩

🎩 Vlad in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

в таком виде

источник

01:07пожаловаться #6

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

добрый вечер, подскажите как нанести на график в seaborn градиент на точки. не могу разобраться

Я бы попробовал передать что-то в параметр hue

источник

01:40пожаловаться #7

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Мб есть какая-то переменная уже для этого или самому сделать

источник

01:41пожаловаться #8

🎩

🎩 Vlad in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

почитаю, спасибо

источник

01:45пожаловаться #9

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

я делал что-то подобное через scatter из matplotlib ax[1,1].scatter( ovation_msskg[:,2], ovation_msskg[:,0]/1e3, marker='.', c=ovation.iloc[:,3], cmap='cool',alpha = 0.7)

источник

01:55пожаловаться #10

kk

k k in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Leonid

коллеги, все с Новым Годом!
совет нужен..
есть 7 млн предложений (5-10 слов в каждом, но плюс в том, что все слова несут смысловую нагрузку - нет стоп слов) половина размечена на 10 классов. Проблема в том, что очень много уникальных слов получается. Т.е. тупо запихнуть в какой-нибудь векторайзер не вариант - матрица получается 7 млн х 40.000
Чем лучше подготовить данные для обучения? И вообще какую стратегию тут применить?

Сделай из большой выборки маленькую выборку, отладь все ошибки, получи pipeline, потом уже тестируй на полной выборке , так время сэкономишь.

источник

09:15пожаловаться #11

P

Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

всем привет

обратное распространение при обучении нейронки - это я верно понимаю что:
- дано значение Y как эталон, правильный ответ
- входное значение N
- на выходе есть значение скажем X
- теперь (X-Y)**2: это чистая ошибка квадратичная
И собственно само распостранние:
- старый вес - (N * (X-Y))*alpha и это и будет новым весом для нейрона, типа как бы обратное распространение?
я просто путаюсь в разных источника по разному называют, где то корректировка веса, где backpropagate, где то обратной функцией обучения … в общем это все оно?

источник

16:59пожаловаться #12

S

Ssv in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

всем привет

обратное распространение при обучении нейронки - это я верно понимаю что:
- дано значение Y как эталон, правильный ответ
- входное значение N
- на выходе есть значение скажем X
- теперь (X-Y)**2: это чистая ошибка квадратичная
И собственно само распостранние:
- старый вес - (N * (X-Y))*alpha и это и будет новым весом для нейрона, типа как бы обратное распространение?
я просто путаюсь в разных источника по разному называют, где то корректировка веса, где backpropagate, где то обратной функцией обучения … в общем это все оно?

Ну как бы не совсем)).

источник

17:29пожаловаться #13

P

Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ну как бы не совсем)).

а можно уточнить, почему или хз как правильно спросить, где ошибка …

источник

17:30пожаловаться #14

S

Ssv in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

а можно уточнить, почему или хз как правильно спросить, где ошибка …

https://www.youtube.com/watch?v=bZihskzsSjM

Deep Learning course 2019, seminar #3

Семинар №3 курса https://dlcourse.ai/
Разбираем математику вычисления градиента кросс-энтропии и софтмакса из задания 1.2 :
https://github.com/sim0nsays/dlcourse_ai/blob/master/assignments/assignment1/Linear%20classifier.ipynb

источник

17:35пожаловаться #15

P

Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ну как бы не совсем)).

вы имеете ввиду, что данную меру ошибки нужно распределить ка кто на весь граф?

источник

17:35пожаловаться #16

P

Pavel in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

https://www.youtube.com/watch?v=bZihskzsSjM

Deep Learning course 2019, seminar #3

Семинар №3 курса https://dlcourse.ai/
Разбираем математику вычисления градиента кросс-энтропии и софтмакса из задания 1.2 :
https://github.com/sim0nsays/dlcourse_ai/blob/master/assignments/assignment1/Linear%20classifier.ipynb

спасибо

источник

17:35пожаловаться #17

L

Leonid in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

коллеги, теоретический вопрос..
допустим, есть функция func. я запускаю ее на чистом jupyter notebook, при старте используется 200 мб памяти, в процессе работы func читает паркет, что-то с ним делает, а потом записывает обратно в паркет. т.е. не создает никаких глобальных переменных.. в процессе работы утилизация памяти доходит до 30 гб., а по окончанию работы функции в памяти остается что-то на 11гб, хотя никаких новых переменных в глобальной области не появилось..
в чем может быть дело? И как этого избежать?

источник

17:48пожаловаться #18

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Leonid

коллеги, теоретический вопрос..
допустим, есть функция func. я запускаю ее на чистом jupyter notebook, при старте используется 200 мб памяти, в процессе работы func читает паркет, что-то с ним делает, а потом записывает обратно в паркет. т.е. не создает никаких глобальных переменных.. в процессе работы утилизация памяти доходит до 30 гб., а по окончанию работы функции в памяти остается что-то на 11гб, хотя никаких новых переменных в глобальной области не появилось..
в чем может быть дело? И как этого избежать?

Может, внутри функции дублируются временные данные?

источник

17:50пожаловаться #19

DD

David Dale in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Leonid

коллеги, теоретический вопрос..
допустим, есть функция func. я запускаю ее на чистом jupyter notebook, при старте используется 200 мб памяти, в процессе работы func читает паркет, что-то с ним делает, а потом записывает обратно в паркет. т.е. не создает никаких глобальных переменных.. в процессе работы утилизация памяти доходит до 30 гб., а по окончанию работы функции в памяти остается что-то на 11гб, хотя никаких новых переменных в глобальной области не появилось..
в чем может быть дело? И как этого избежать?

Питоновский сборщик мусора довольно ленив. Если ты вызовешь явно import gc; gc.collect() , как расход памяти меняется?

источник

17:50пожаловаться #20