Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2021 March 10

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Макарихин
Друзья, всем привет!
Есть датасет: пациент, 4 диагноза по нему, и указано какой из диагнозов основной.
Нужно построить модель которая будет из 4х диагнозов определять основной.
Обычный классификатор у меня не взлетел, потому-что один и тот же диагноз в разных кейсах может быть 1-м, 2-м , 3-м и 4 по счёту.
Если кодировать dummy, то получается больше 1000 признаков и я не знаю, что в таком случае будет таргетом.
Подскажите куда копать.
Буду признателен за ссылки.
А диагноз как кодируется? И что мы знаем кроме диагноза?
источник

АМ

Андрей Макарихин... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ivan
А диагноз как кодируется? И что мы знаем кроме диагноза?
диагноз кодируется в МКБ10
источник

АМ

Андрей Макарихин... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кроме диагнозов есть ещё несколько бесполезных признаков, очевидно, что в каждой комбинации, эксперт оценивал силу диагноза по отношению к прочим, и по сути выполнял ранжирование
источник

DC

Dr Cheb in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Madiar Isabek
хотел спросить как в csv файле заполнить NaNы?
fillna в пандасе
источник

DC

Dr Cheb in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Макарихин
диагноз кодируется в МКБ10
сделать map по диагнозам и в catboost  с указанием категориальной фичи, либо dummy и RF/XGB
источник

DC

Dr Cheb in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
хотя мне кажется инфы маловато предоставлено
источник

АМ

Андрей Макарихин... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Dr Cheb
сделать map по диагнозам и в catboost  с указанием категориальной фичи, либо dummy и RF/XGB
А что значит "сделать map"?
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Андрей Макарихин
диагноз кодируется в МКБ10
То есть у нас на входе просто 4 диагноза по МКБ а на выходе мы должны показать, который из них "более лучший"?
источник

АМ

Андрей Макарихин... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Есть ещё пол, возраст, и ещё несколько. В конечном итоге, да мы должны показать какой из них главный.
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Я к тому, что диагноз ставится по симптомам, и если мы никак не можем оценить диагноз относительно симптомов, то задача не имеет смысла
источник

DC

Dr Cheb in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ivan
Я к тому, что диагноз ставится по симптомам, и если мы никак не можем оценить диагноз относительно симптомов, то задача не имеет смысла
в теории связь есть, определенное заболевание дает определенные осложнения, но мне кажется для этого нужно много данных
источник

DC

Dr Cheb in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
+ можно придумать другие фичи
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Dr Cheb
в теории связь есть, определенное заболевание дает определенные осложнения, но мне кажется для этого нужно много данных
Я о том, что задача "вот 4 диагноза, выбери из них тот, который правильный" не имеет смысла, потому что критерий "правильный" не определен.
источник

АМ

Андрей Макарихин... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ivan
Я к тому, что диагноз ставится по симптомам, и если мы никак не можем оценить диагноз относительно симптомов, то задача не имеет смысла
У меня немножко другая задача, я не пытаюсь понять какой диагноз. Я пытаюсь установить основную причину смерти, грубо говоря у пациента была онкология и болезни сердца, надо понять от чего он умер.
источник

АМ

Андрей Макарихин... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ivan
Я о том, что задача "вот 4 диагноза, выбери из них тот, который правильный" не имеет смысла, потому что критерий "правильный" не определен.
Да, у меня небольшой сет всего 16 тыс.  строк
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Это не так важно. Еще раз. Нужны данные о пациенте. Либо это будет задача не определить, от чего он умер, а определить, что из списка могло бы его убить если бы оно было, но мы не знаем, было ли оно
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Другими словами, мы научимся выбирать более убойный диагноз из предложенных, безотносительно пациента
источник

АМ

Андрей Макарихин... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ivan
Это не так важно. Еще раз. Нужны данные о пациенте. Либо это будет задача не определить, от чего он умер, а определить, что из списка могло бы его убить если бы оно было, но мы не знаем, было ли оно
Да, если мы так формализуем - "понять что из списка его убило" как это решить?
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
То есть выбор самого часто убивающего диагноза из списка и все?
источник

TN

Timofey Naumenko in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Максимум из вероятностей
источник