Как синтетические данные меняют здравоохранение - кейсы израильских и американских стартапов
В последние годы искусственный интеллект — обычно в виде обучения глубоких нейронных сетей — развивается стремительно, захватывает новые области и находит новые применения. Но одним из препятствий на пути развития глубоких нейронных сетей остается нехватка размеченных данных. Они нужны, чтобы обучить любую модель искусственного интеллекта.
Базовая идея использования синтетических - если мы не можем собрать и разметить данные, мы можем их сделать самостоятельно. Обычно синтетические данные применяются в задачах компьютерного зрения.
По мнению Аллана Такера, профессора Лондонского университета Брунеля, автора
исследования, обосновывая использование в здравоохранении синтетических данных, отмечает, что
ключевое преимущество технологии - это минимизация рисков в части конфиденциальности.Технология синтетических данных существует несколько лет и многие компании из разных отраслей, в том числе, финансы и страхование уже используют ее.
Однако, улучшенная технология (более точная в части статистики) открыла новый путь для ее внедрения в здравоохранении.
Хотя технология еще не так широко используется в здравоохранении, пандемия Covid-19 повысила на неё спрос.
Так,
например, Израиль, у которого в арсенале одна из передовых цифровых систем здравоохранения, стала полигоном для тестирования этой технологии.
В прошлом году все 4
Health maintenance organization(HMO) Израиля, а также Медицинский центр Sheba и тд, стали клиентами
MDClone, израильского стартапа, который разработал цифровую платформу для создания синтетических данных на основе медицинских записей.
С самого начала пандемии Sheba использовала платформу MDClone для синтеза данных пациентов с Covid-19. Затем больница пригласила дата-сайнтистов, чтобы те собрали все сведения о Covid -19 из набора данных. После обработки данных Sheba внедрила алгоритм, разработанный израильской компанией Data Science Group, который помогает клиницистам назначать медикаментозное лечение или отправить в отделение интенсивной терапии.
По мнению исследователей, ученые пока не полагаются в своих исследованиях исключительно на синтетические данные. Они сначала проверяют свои гипотезы на синтетических данных, а затем повторно проверяют их на реальных данных пациентов.
В США уже несколько учреждений из системы здравоохранения, а также Департамент по делам ветеранов США и Национальный институт здравоохранения используют синтетические медицинские данные для изучения и разработки новых видов лечения.
Например, в Intermountain Healthcare исследователи использовали синтетические данные, полученные с платформы MDClone, для реализации 80 проектов, направленных на улучшение ухода за пациентами.
В одном примере Intermountain использовала технологию, чтобы помочь создать программу профилактического ухода для пациентов с заболеванием почек, резко сократив госпитализацию пациентов, и сэкономила миллионы долларов.
А вот Департамент здравоохранения США и Фонд Билла и Мелинды Гейтс работают с калифорнийским стартапом Syntegra, который тоже синтезирует набор данных о миллионах пациентов с Covid-19
Майкл Леш, основатель и исполнительный директор Syntegra и профессор Калифорнийского университета, видит роль синтетических данных в клинических испытаниях лекарств. По его словам, в случаях, когда фармацевтические компании изо всех сил пытаются найти субъектов исследования, синтетические пациенты более удобные и быстрые для решения задачи.
Но не все синтетические медицинские данные основаны на историях болезни реальных пациентов.Mitre - американская некоммерческая организация создала проект Synthea - инструмент с открытым исходным кодом, который может создавать группы фейковых пациентов, не основанных на реальных медицинских записях.
Synthea позволяет исследователям создавать реальных пациентов с нуля, используя статистику о здоровье граждан, демографические данные, академические исследования и другие общедоступные источники данных.