Size: a a a

Data Science Chat

2021 October 29

A

Andrey in Data Science Chat
1. нет. категориальные в Embedding-слой, континуальные - в Dense,
2. да, с уточнением по терминологии - выходы аутпуты,
3. нет. не совсем. аналогично первому, два выхода надо, и лосс - комбинация. я уже не помню как это на керасе...

суть - для входов надо выдать такой же вход, попутно скукожив его до вектора. а как будет получаться выход в декодере, дело совершенно неважно, равно как его скукожить до вектора.

рецепт хорошего аутоэнкодера:
1. декодер может быть меньше по слоям и шире по нейронам в слоях, т.е. несимметрично
2. чем ниже вкладываемая размерность, тем больше слоёв в энкодере,
3. следить за активациями по фичам. скэйлить стандарт скэйлером обычно при relu,
4. train/val/test пользовать.
источник

D

Dmitry in Data Science Chat
большое спасибо за развернутый ответ!
источник

D

Dmitry in Data Science Chat
Если прокидывать только числовые фичи, то всё работает.
Но я еще делаю эмбеддинги для категорий и не могу понять, какой output у декодера должен быть для них.
источник

РК

Рома Кочережченко... in Data Science Chat
Ребят, всем привет, можете помочь в сборе данных?)
Если вы студент или родитель, то прошу:
https://forms.gle/McTu39D1P21p8D9m7
источник

DB

Dmitry Belyaev in Data Science Chat
Всем привет!
Ищем DS специалистов с компетенциями в OpenCV и YOLO, для совместного выступления в хакатонах.
Кому интересно, прошу написать в ЛС.
источник

AK

Alexander Khachikyan in Data Science Chat
источник
2021 October 30

АА

Абстрактный Аутист... in Data Science Chat
Вечер добрый!
Хотела поинтересоваться, как отсортировать df  чтобы значения колонок были больше или равны startdate? На данный момент она введена таким ущербным образом, но так значение будет доставаться из sql.
источник

A

Artem in Data Science Chat
взять лист с колонками и фильтровать по датам, типа for cols in df.columns: дальше сравниваешь все колонки с нудной датой, преобразоваав их тоже в дату
источник

A

Andrey in Data Science Chat
на каждую категориальную фичу либо один выход под сигмоиду (бинарная фича), либо столько, сколько классов (софтмакс). что-то другое тут изобретать вряд ли надо
источник

D

Dmitry in Data Science Chat
Вариантов категорий много - 300-4000 значений. На вход категории пошли в эмбеддинги, а на выходе последовал совету и закодировал бинарно + BCE loss. Не успел ещё проверить, что там в боттлнеке получилось, но реконструкция что на трейне, что на тесте очень хорошая. 99.9% точность на категориалках с высокой кардинальностью, на числовых значениях маленький mse, mae. От таких результатов ощущение, что что-то делаю не так )
источник

D

Dmitry in Data Science Chat
У меня 32 инпута отдельных. У каждого из которых есть свой  Dense на 64 нейрона.  Все сливается в общий Dense на 512 нейронов и с него идёт зеркальная реконструкция, где каждое числовое значение имеет свой выход. Категориалки закодированы бинарно и на каждую закодированную колонку - свой выход. Итого получилось 32 входа и 144 выхода.
источник

D

Dmitry in Data Science Chat
Реконструированный датасет получился точным. Мне не нужно деноизить данные, а просто получить их векторное представление для дальнейшего использования.
источник

E

E S M🌷 in Data Science Chat
Hi
Who’s can help me to solve this questions please?
источник

E

E S M🌷 in Data Science Chat
1. Explain in a few sentences how you obtained the data set.
2. Specify statistical information about your data set. (Example: how many features are there, feature
what are their names, data size, information about missing data etc.)
3. How do you plan to resolve the missing or incorrect parts of the data set?
4. Type the access link for the source from which you received the data.
Upload your report to the system in commandrukoglu_selim_okulNo.pdf format.
источник

A

Andrey in Data Science Chat
train/val/test какие метрики?.. сколько размер датасета? он не физические данные часом?

покажите кривые обучения train/val, если есть возможность
источник

A

Andrey in Data Science Chat
вообще если такие метрики хорошие, сделайте представление еще более низкой размерности...)
источник

D

Dmitry in Data Science Chat
Буду онлайн и скину )
источник

S

S in Data Science Chat
Здравствуйте. Есть набор размеченных данных, который собирался с узла телекоммуникационной сети. Есть лейбл который указывает к какому трафику относиться каждая запись (норма / подозрительно). Нужно обучить модель на этих данных, что бы предугадывать тип трафика.
Вообщем,  это хорошо получилось реализовать через kNN используя sklearn.
А есть ли у вас примеры, статьи как это решается через keras, tensorflow?
источник

D

Dmitry in Data Science Chat
источник

D

Dmitry in Data Science Chat
260к тест, 32к треин
источник