Генеративный анализ данных

Обеспечение обмена данными посредством федеративного обучения: политический подход для директоров по цифровым технологиям | Веб-сервисы Amazon

Дата:

Это гостевой пост в блоге, написанный Нитином Кумаром, ведущим специалистом по данным в T and T Consulting Services, Inc.

В этом посте мы обсуждаем ценность и потенциальное влияние федеративного обучения в сфере здравоохранения. Этот подход может помочь пациентам с сердечным приступом, врачам и исследователям в более быстрой диагностике, расширенном принятии решений и более информированной и инклюзивной исследовательской работе по проблемам здоровья, связанным с инсультом, с использованием облачного подхода с сервисами AWS для облегчения подъема и простого внедрения. .

Проблемы диагностики при сердечных инсультах

Статистика из Центры по контролю и профилактике заболеваний (CDC) показывают, что каждый год в США более 795,000 25 человек страдают от первого инсульта, и около XNUMX% из них испытывают повторные приступы. По данным ВОЗ, это пятая причина смерти. Американская ассоциация Инсульт и основная причина инвалидности в США. Поэтому крайне важно своевременно поставить диагноз и начать лечение, чтобы уменьшить повреждение головного мозга и другие осложнения у пациентов с острым инсультом.

КТ и МРТ являются золотым стандартом в технологиях визуализации для классификации различных подтипов инсультов и имеют решающее значение при предварительной оценке пациентов, определении основной причины и лечении. Одной из критических проблем здесь, особенно в случае острого инсульта, является время диагностики с помощью визуализации, которое в среднем колеблется от от 30 минут до часа и может быть намного дольше в зависимости от переполненности отделений неотложной помощи.

Врачам и медицинскому персоналу необходима быстрая и точная визуальная диагностика, чтобы оценить состояние пациента и предложить варианты лечения. По словам доктора Вернера Фогельса, AWS re: Изобретите 2023, «каждая секунда, когда у человека случился инсульт, имеет значение». Жертвы инсульта могут потерять около 1.9 миллиарда нейронов каждую секунду, когда их не лечат.

Ограничения на медицинские данные

Вы можете использовать машинное обучение (МО), чтобы помочь врачам и исследователям в диагностических задачах, тем самым ускоряя процесс. Однако наборы данных, необходимые для построения моделей машинного обучения и получения надежных результатов, разрознены в разных системах и организациях здравоохранения. Эти изолированные устаревшие данные могут иметь огромное влияние в случае их накопления. Так почему же его до сих пор не использовали?

При работе с наборами данных в медицинской сфере и создании решений машинного обучения возникает множество проблем, включая конфиденциальность пациентов, безопасность личных данных, а также определенные бюрократические и политические ограничения. Кроме того, исследовательские институты ужесточают практику обмена данными. Эти препятствия также мешают международным исследовательским группам работать вместе над разнообразными и богатыми наборами данных, которые, помимо других преимуществ, могли бы спасти жизни и предотвратить инвалидность, которая может возникнуть в результате сердечных инсультов.

Политика и правила, такие как Положение о защите данных Общие (ВВП), Медицинское страхование Портативность и Акт об ответственности (HIPPA) и Закон о конфиденциальности потребителей в Калифорнии (CCPA) установила ограничения на обмен данными из медицинской сферы, особенно данными пациентов. Кроме того, наборы данных в отдельных институтах, организациях и больницах часто слишком малы, несбалансированы или имеют смещенное распределение, что приводит к ограничениям обобщения модели.

Федеративное обучение: введение

Федеративное обучение (FL) — это децентрализованная форма ML — динамического инженерного подхода. В этом децентрализованном подходе ML модель ML используется совместно организациями для обучения на собственных подмножествах данных, в отличие от традиционного централизованного обучения ML, где модель обычно обучается на агрегированных наборах данных. Данные остаются защищенными межсетевыми экранами организации или VPC, а модель с ее метаданными является общей.

На этапе обучения глобальная модель FL распространяется и синхронизируется между подразделениями организаций для обучения на отдельных наборах данных, а затем возвращается локальная обученная модель. Окончательная глобальная модель доступна для использования для прогнозирования для всех участников, а также может использоваться в качестве основы для дальнейшего обучения созданию локальных пользовательских моделей для участвующих организаций. В дальнейшем его можно распространить на другие институты. Этот подход может значительно снизить требования к кибербезопасности при передаче данных, вообще устраняя необходимость передачи данных за пределы границ организации.

На следующей диаграмме показан пример архитектуры.

В следующих разделах мы обсудим, как может помочь федеративное обучение.

Федерация учится спасать положение (и спасать жизни)

Для хорошего искусственного интеллекта (ИИ) вам нужны хорошие данные.

Устаревшие системы, которые часто встречаются в федеральной сфере, создают серьезные проблемы с обработкой данных, прежде чем вы сможете получить какую-либо информацию или объединить их с новыми наборами данных. Это является препятствием в предоставлении ценной информации лидерам. Это может привести к неточному принятию решений, поскольку доля устаревших данных иногда гораздо более ценна по сравнению с новым небольшим набором данных. Вы хотите устранить это узкое место эффективно и без ручных усилий по консолидации и интеграции (включая громоздкие процессы картирования) для устаревших и новых наборов данных, находящихся в больницах и институтах, что во многих случаях может занять многие месяцы, а то и годы. Унаследованные данные весьма ценны, поскольку содержат важную контекстную информацию, необходимую для точного принятия решений и хорошо информированного обучения моделей, что приводит к созданию надежного ИИ в реальном мире. Продолжительность данных дает информацию о долгосрочных изменениях и закономерностях в наборе данных, которые в противном случае остались бы незамеченными и привели бы к предвзятым и необоснованным прогнозам.

Разрушение этих разрозненных данных для объединения неиспользованного потенциала разрозненных данных может спасти и изменить многие жизни. Это также может ускорить исследования, связанные с вторичными проблемами со здоровьем, возникающими в результате сердечных инсультов. Это решение может помочь вам обмениваться информацией на основе данных, изолированных между институтами из-за политики и других причин, независимо от того, являетесь ли вы больницей, научно-исследовательским институтом или другой организацией, специализирующейся на медицинских данных. Это может позволить принимать обоснованные решения о направлении исследований и диагностике. Кроме того, это приводит к созданию централизованного хранилища аналитических данных через безопасную, частную и глобальную базу знаний.

Федеративное обучение имеет множество преимуществ в целом и особенно применительно к медицинским данным.

Функции безопасности и конфиденциальности:

  • Хранит конфиденциальные данные вдали от Интернета и по-прежнему использует их для машинного обучения, а также использует свой интеллект для обеспечения дифференцированной конфиденциальности.
  • Позволяет создавать, обучать и развертывать объективные и надежные модели не только на машинах, но и в сетях без каких-либо угроз безопасности данных.
  • Преодолевает препятствия, связанные с управлением данными несколькими поставщиками.
  • Устраняет необходимость в межсайтовом обмене данными и глобальном управлении.
  • Сохраняет конфиденциальность за счет дифференцированной конфиденциальности и предлагает безопасные многосторонние вычисления с локальным обучением.

Улучшения производительности:

  • Решает проблему небольшого размера выборки в области медицинской визуализации и дорогостоящих процессов маркировки.
  • Балансирует распределение данных
  • Позволяет использовать большинство традиционных методов машинного обучения и глубокого обучения (DL).
  • Использует объединенные наборы изображений для повышения статистической мощности, преодолевая ограничения размера выборки отдельных учреждений.

Преимущества устойчивости:

  • Если какая-либо из сторон решит уйти, это не помешает обучению.
  • Новая больница или институт может присоединиться в любое время; он не зависит от какого-либо конкретного набора данных с какой-либо организацией узла
  • Нет необходимости в обширных конвейерах обработки данных для устаревших данных, разбросанных по обширным географическим локациям.

Эти функции могут помочь разрушить стены между учреждениями, размещающими изолированные наборы данных в схожих доменах. Решение может стать мультипликатором силы, используя унифицированные возможности распределенных наборов данных и повышая эффективность за счет радикального преобразования аспекта масштабируемости без необходимости значительного увеличения инфраструктуры. Этот подход помогает ML полностью раскрыть свой потенциал, приобретя опыт на клиническом уровне, а не только в исследованиях.

Эффективность федеративного обучения сравнима с обычным машинным обучением, как показано ниже. эксперимент от NVidia Clara (в медицинском модальном архиве (MMAR) с использованием набора данных BRATS2018). Здесь FL достиг сопоставимой производительности сегментации по сравнению с обучением с централизованными данными: более 80% с примерно 600 эпохами при обучении мультимодальной задаче сегментации опухоли головного мозга с несколькими классами.

Федеративное обучение недавно было протестировано в нескольких областях медицины для таких случаев использования, как изучение сходства пациентов, обучение представлению пациентов, фенотипирование и прогнозирующее моделирование.

Схема приложения: федеративное обучение делает это возможным и простым

Чтобы начать работу с FL, вы можете выбрать один из множества высококачественных наборов данных. Например, наборы данных с изображениями мозга включают ПРЕБЫВАТЬ (Инициатива по обмену данными изображений мозга при аутизме), АДНИ (Инициатива по нейровизуализации болезни Альцгеймера), РСНА (Радиологическое общество Северной Америки) КТ головного мозга, БраТС (Мультимодальный эталон сегментации изображений опухолей головного мозга), регулярно обновляемый в рамках конкурса «Сегментация опухолей головного мозга» в рамках UPenn (Университет Пенсильвании), UK BioBank (включен в следующие НИЗ бумаги), а также расширение IXIA. Аналогичным образом, для изображений сердца вы можете выбрать один из нескольких общедоступных вариантов, включая ACDC (автоматическая задача по диагностике сердца), который представляет собой набор данных для оценки МРТ сердца с полной аннотацией, упомянутой Национальной медицинской библиотекой ниже. бумагии M&M (многоцентровая, мультивендорная и мультиболезнь) проблема сегментации сердца, упомянутая ниже IEEE бумага.

На следующих изображениях показано вероятностная карта перекрытия поражений для первичных поражений из набора данных ATLAS R1.1. (Инсульты являются одной из наиболее частых причин поражения головного мозга по данным Клиники Кливленда.)

Для данных электронных медицинских карт (EHR) доступно несколько наборов данных, которые соответствуют Ресурсы по совместимости Fast Healthcare (FHIR) стандарт. Этот стандарт помогает вам создавать простые пилотные проекты, устраняя определенные проблемы с гетерогенными, ненормализованными наборами данных, обеспечивая беспрепятственный и безопасный обмен, совместное использование и интеграцию наборов данных. FHIR обеспечивает максимальную совместимость. Примеры наборов данных включают в себя МИМИК-IV (Аукцион медицинской информации для интенсивной терапии). Другие наборы данных хорошего качества, которые в настоящее время не являются FHIR, но могут быть легко преобразованы, включают: Центры услуг Medicare и Medicaid (CMS) Файлы общего пользования (PUF) и База данных совместных исследований eICU из Массачусетского технологического института (MIT). Появляются и другие ресурсы, предлагающие наборы данных на основе FHIR.

Жизненный цикл внедрения FL может включать следующее: шага: инициализация задачи, выбор, настройка, обучение модели, связь клиент/сервер, планирование и оптимизация, управление версиями, тестирование, развертывание и завершение. Подготовка данных медицинских изображений для традиционного МО требует множества трудоемких шагов, как описано ниже. бумаги. В некоторых сценариях для предварительной обработки необработанных данных о пациентах могут потребоваться знания предметной области, особенно из-за их конфиденциального и частного характера. Их можно объединить, а иногда и исключить для FL, что сэкономит решающее время для тренировок и обеспечит более быстрые результаты.

Реализация

Инструменты и библиотеки FL получили широкую поддержку, что делает использование FL простым и не требует особых усилий. Для начала работы доступно множество хороших ресурсов и вариантов фреймворков. Вы можете обратиться к следующим обширный список из самых популярных фреймворков и инструментов в области FL, включая ПиСифт, FedML, Цветок, ОпенФЛ, СУДЬБА, Федеративный TensorFlowи НВВспышка. Он предоставляет список проектов для новичков, которые можно быстро начать и развивать.

Вы можете реализовать облачный подход с помощью Создатель мудреца Амазонки который без проблем работает с Пиринг AWS VPC, сохраняя обучение каждого узла в частной подсети в соответствующем VPC и обеспечивая связь через частные адреса IPv4. Кроме того, хостинг моделей на Amazon SageMaker JumpStart может помочь, раскрывая API конечной точки без совместного использования весов модели.

Это также устраняет потенциальные проблемы с высокоуровневыми вычислениями при использовании локального оборудования с Эластичное вычислительное облако Amazon (Amazon EC2). Вы можете реализовать клиент и серверы FL на AWS с помощью Блокноты SageMaker и Простой сервис хранения Amazon (Amazon S3), поддерживать регулируемый доступ к данным и модели с помощью Управление идентификацией и доступом AWS (IAM) роли и использование Сервис токенов безопасности AWS (AWS STS) для безопасности на стороне клиента. Вы также можете создать собственную систему для FL с помощью Amazon EC2.

Подробный обзор реализации FL с помощью Цветок Framework на SageMaker и обсуждение его отличий от распределенного обучения см. Машинное обучение с децентрализованными обучающими данными с использованием федеративного обучения на Amazon SageMaker.

Следующие рисунки иллюстрируют архитектуру трансферного обучения в FL.

Решение проблем с данными FL

Федеративное обучение имеет свои собственные проблемы с данными, включая конфиденциальность и безопасность, но их легко решить. Во-первых, вам необходимо решить проблему неоднородности данных медицинских изображений, возникающую из-за того, что данные хранятся на разных сайтах и ​​в участвующих организациях, известную как сдвиг домена проблема (также называемая смена клиента в системе FL), как подчеркивают Гуань и Лю в следующем бумаги. Это может привести к разнице в сходимости глобальной модели.

Другие компоненты, требующие рассмотрения, включают обеспечение качества и единообразия данных в источнике, включение экспертных знаний в процесс обучения, чтобы вызвать доверие к системе среди медицинских работников, а также достижение точности модели. Для получения дополнительной информации о некоторых потенциальных проблемах, с которыми вы можете столкнуться во время реализации, обратитесь к следующему разделу. бумаги.

AWS помогает вам решить эти проблемы с помощью таких функций, как гибкие вычисления Amazon EC2 и готовые Изображения докера в SageMaker для простого развертывания. Вы можете решить проблемы на стороне клиента, такие как несбалансированные данные и вычислительные ресурсы для каждой организации узла. Вы можете решить проблемы обучения на стороне сервера, такие как отравление атак со стороны злоумышленников, с помощью Виртуальное частное облако Amazon (Амазон ВКК), группы безопасностии другие стандарты безопасности, предотвращающие повреждение клиентов и внедряющие сервисы AWS по обнаружению аномалий.

AWS также помогает решать реальные проблемы внедрения, которые могут включать в себя проблемы интеграции, проблемы совместимости с текущими или устаревшими больничными системами, а также препятствия в освоении пользователями, предлагая гибкие, простые в использовании и простые в использовании решения в области лифтовых технологий.

С помощью сервисов AWS вы можете проводить крупномасштабные исследования на основе FL, а также клиническую реализацию и развертывание, которые могут включать различные площадки по всему миру.

Недавние политики в области совместимости подчеркивают необходимость федеративного обучения.

Многие законы, недавно принятые правительством, уделяют особое внимание совместимости данных, что усиливает необходимость межорганизационной совместимости данных для разведки. Этого можно добиться с помощью FL, включая такие платформы, как ТЕФКА (Рамочная система доверенного обмена и Общее соглашение) и расширенное USCDI (Основные данные США по совместимости).

Предложенная идея также способствует инициативе CDC по сбору и распространению данных. CDC движется вперед. Следующая цитата из статьи GovCIO Обмен данными и искусственный интеллект — главные приоритеты Федерального агентства здравоохранения в 2024 году также перекликается с аналогичной темой: «Эти возможности могут также поддерживать общественность на справедливой основе, встречая пациентов там, где они находятся, и открывая критически важный доступ к этим услугам. Большая часть этой работы сводится к данным».

Это может помочь медицинским институтам и агентствам по всей стране (и по всему миру) с хранилищами данных. Они могут извлечь выгоду из плавной и безопасной интеграции и взаимодействия данных, что делает медицинские данные пригодными для эффективного прогнозирования на основе машинного обучения и распознавания образов. Вы можете начать с изображений, но этот подход применим и ко всем ЭМК. Цель состоит в том, чтобы найти лучший подход для заинтересованных сторон, связанных с данными, с помощью облачного конвейера для нормализации и стандартизации данных или непосредственного использования их для FL.

Давайте рассмотрим пример варианта использования. Данные визуализации и сканирования сердечного инсульта разбросаны по стране и миру, находятся в изолированных хранилищах в институтах, университетах и ​​больницах и разделены бюрократическими, географическими и политическими границами. Не существует единого агрегированного источника, и для медицинских работников (не программистов) нет простого способа извлечь из него информацию. В то же время невозможно обучить модели ML и DL на этих данных, что могло бы помочь медицинским работникам принимать более быстрые и точные решения в критические моменты, когда сканирование сердца может занять несколько часов, а жизнь пациента может висеть в воздухе. баланс.

Другие известные варианты использования включают в себя POTS (Система онлайн-отслеживания покупок) на NIH (Национальные институты здравоохранения) и кибербезопасность для разрозненных и многоуровневых потребностей в аналитических решениях в точках COMCOM/MAJCOM по всему миру.

Заключение

Федеративное обучение открывает большие перспективы для устаревшей аналитики и анализа данных в сфере здравоохранения. Внедрить облачное решение с помощью сервисов AWS несложно, а FL особенно полезен для медицинских организаций с устаревшими данными и техническими проблемами. FL может оказать потенциальное влияние на весь цикл лечения, и теперь даже в большей степени, когда основное внимание уделяется совместимости данных со стороны крупных федеральных организаций и государственных лидеров.

Это решение поможет вам избежать изобретения велосипеда и использовать новейшие технологии, чтобы отойти от устаревших систем и оказаться в авангарде постоянно развивающегося мира искусственного интеллекта. Вы также можете стать лидером в области передового опыта и эффективного подхода к совместимости данных внутри и между агентствами и институтами в сфере здравоохранения и за ее пределами. Если вы представляете институт или агентство, чьи хранилища данных разбросаны по всей стране, вы можете получить выгоду от этой простой и безопасной интеграции.

Содержание и мнения в этом сообщении принадлежат стороннему автору, и AWS не несет ответственности за содержание или точность этого сообщения. Каждый клиент несет ответственность за определение того, подпадает ли он под действие HIPAA, и если да, то как лучше всего соблюдать HIPAA и правила его применения. Прежде чем использовать AWS в связи с защищенной медицинской информацией, клиенты должны ввести Дополнение к AWS Business Associate (BAA) и следовать его требованиям к конфигурации.


Об авторе

Нитин Кумар (МС, КМУ) — ведущий специалист по данным в компании T and T Consulting Services, Inc. Он имеет обширный опыт в области прототипирования НИОКР, медицинской информатики, данных государственного сектора и совместимости данных. Он применяет свои знания о передовых методах исследований в федеральном секторе для создания инновационных технических документов, POC и MVP. Он работал с несколькими федеральными агентствами для продвижения своих данных и целей искусственного интеллекта. Другие области деятельности Нитина включают обработку естественного языка (NLP), конвейеры данных и генеративный искусственный интеллект.

Spot_img

Последняя разведка

Spot_img