Inteligência de dados generativa

Permitir o compartilhamento de dados por meio de aprendizagem federada: uma abordagem política para diretores digitais | Amazon Web Services

Data:

Esta é uma postagem de blog escrita por Nitin Kumar, cientista líder de dados da T and T Consulting Services, Inc.

Nesta postagem, discutimos o valor e o impacto potencial da aprendizagem federada na área de saúde. Essa abordagem pode ajudar pacientes, médicos e pesquisadores de AVC com diagnóstico mais rápido, tomada de decisão enriquecida e trabalho de pesquisa mais informado e inclusivo sobre problemas de saúde relacionados ao AVC, usando uma abordagem nativa da nuvem com serviços da AWS para uma abordagem leve e adoção direta .

Desafios de diagnóstico com derrames cardíacos

Estatísticas do Centros para Controle e Prevenção de Doenças (CDC) mostram que todos os anos nos EUA, mais de 795,000 pessoas sofrem o primeiro AVC e cerca de 25% delas sofrem ataques recorrentes. É a quinta causa de morte de acordo com o Associação Americana de AVC e uma das principais causas de incapacidade nos EUA. Portanto, é crucial ter diagnóstico e tratamento imediatos para reduzir danos cerebrais e outras complicações em pacientes com AVC agudo.

As tomografias computadorizadas e as ressonâncias magnéticas são o padrão ouro em tecnologias de imagem para classificar diferentes subtipos de AVC e são cruciais durante a avaliação preliminar dos pacientes, determinando a causa raiz e o tratamento. Um desafio crítico aqui, especialmente no caso de acidente vascular cerebral agudo, é o tempo de diagnóstico por imagem, que em média varia de 30 minutos até uma hora e pode demorar muito mais dependendo da lotação do departamento de emergência.

Os médicos e a equipe médica precisam de diagnósticos de imagem rápidos e precisos para avaliar a condição do paciente e propor opções de tratamento. Nas próprias palavras do Dr. Werner Vogels em AWS re: Invent 2023, “cada segundo que uma pessoa sofre um derrame conta”. As vítimas de AVC podem perder cerca de 1.9 mil milhões de neurónios por segundo sem tratamento.

Restrições de dados médicos

Você pode usar o aprendizado de máquina (ML) para auxiliar médicos e pesquisadores em tarefas de diagnóstico, agilizando assim o processo. No entanto, os conjuntos de dados necessários para construir os modelos de ML e fornecer resultados confiáveis ​​estão armazenados em silos em diferentes sistemas e organizações de saúde. Esses dados legados isolados têm potencial para um impacto enorme se acumulados. Então, por que ainda não foi usado?

Existem vários desafios ao trabalhar com conjuntos de dados de domínio médico e construir soluções de ML, incluindo privacidade do paciente, segurança de dados pessoais e certas restrições burocráticas e políticas. Além disso, as instituições de investigação têm reforçado as suas práticas de partilha de dados. Estes obstáculos também impedem que equipas de investigação internacionais trabalhem em conjunto em conjuntos de dados diversificados e ricos, o que poderia salvar vidas e prevenir deficiências que podem resultar de acidentes vasculares cerebrais, entre outros benefícios.

Políticas e regulamentos como Regulamento geral de proteção de dados (RGPD), Lei de Portabilidade e Responsabilidade do Seguro de Saúde (HIPPA), e Lei de Privacidade do Consumidor da Califórnia (CCPA) impõe barreiras ao compartilhamento de dados do domínio médico, especialmente dados de pacientes. Além disso, os conjuntos de dados em institutos, organizações e hospitais individuais são muitas vezes demasiado pequenos, são desequilibrados ou têm distribuição tendenciosa, levando a restrições de generalização do modelo.

Aprendizagem federada: uma introdução

A aprendizagem federada (FL) é uma forma descentralizada de ML – uma abordagem de engenharia dinâmica. Nesta abordagem de ML descentralizada, o modelo de ML é compartilhado entre organizações para treinamento em subconjuntos de dados proprietários, ao contrário do treinamento de ML centralizado tradicional, onde o modelo geralmente treina em conjuntos de dados agregados. Os dados permanecem protegidos pelos firewalls ou VPC da organização, enquanto o modelo com seus metadados é compartilhado.

Na fase de treinamento, um modelo global de FL é disseminado e sincronizado entre as organizações das unidades para treinamento em conjuntos de dados individuais, e um modelo local treinado é retornado. O modelo global final está disponível para fazer previsões para todos os participantes e também pode ser usado como base para treinamento adicional para construir modelos personalizados locais para as organizações participantes. Pode ainda ser estendido para beneficiar outros institutos. Essa abordagem pode reduzir significativamente os requisitos de segurança cibernética para dados em trânsito, eliminando a necessidade de trânsito de dados fora dos limites da organização.

O diagrama a seguir ilustra um exemplo de arquitetura.

Nas seções a seguir, discutiremos como o aprendizado federado pode ajudar.

Federação aprendendo a salvar o dia (e salvar vidas)

Para uma boa inteligência artificial (IA), você precisa de bons dados.

Os sistemas legados, que são frequentemente encontrados no domínio federal, apresentam desafios significativos de processamento de dados antes que você possa obter qualquer inteligência ou mesclá-los com conjuntos de dados mais recentes. Este é um obstáculo no fornecimento de informações valiosas aos líderes. Isso pode levar a tomadas de decisão imprecisas porque a proporção de dados legados às vezes é muito mais valiosa em comparação com o pequeno conjunto de dados mais recente. Você deseja resolver esse gargalo de maneira eficaz e sem cargas de trabalho de consolidação manual e esforços de integração (incluindo processos de mapeamento complicados) para conjuntos de dados legados e mais recentes distribuídos por hospitais e institutos, o que pode levar muitos meses – se não anos, em muitos casos. Os dados legados são bastante valiosos porque contêm informações contextuais importantes, necessárias para uma tomada de decisão precisa e um treinamento de modelo bem informado, levando a uma IA confiável no mundo real. A duração dos dados informa sobre variações e padrões de longo prazo no conjunto de dados que, de outra forma, passariam despercebidos e levariam a previsões tendenciosas e mal informadas.

Quebrar estes silos de dados para unir o potencial inexplorado dos dados dispersos pode salvar e transformar muitas vidas. Também pode acelerar a investigação relacionada com problemas de saúde secundários decorrentes de acidentes vasculares cerebrais. Esta solução pode ajudá-lo a compartilhar insights de dados isolados entre institutos devido a políticas e outros motivos, seja você um hospital, um instituto de pesquisa ou outras organizações focadas em dados de saúde. Pode permitir decisões informadas sobre a direção e o diagnóstico da pesquisa. Além disso, resulta num repositório centralizado de inteligência através de uma base de conhecimento segura, privada e global.

A aprendizagem federada traz muitos benefícios em geral e especificamente para configurações de dados médicos.

Recursos de segurança e privacidade:

  • Mantém dados confidenciais longe da Internet e ainda os utiliza para ML, além de aproveitar sua inteligência com privacidade diferencial
  • Permite que você crie, treine e implante modelos imparciais e robustos não apenas em máquinas, mas também em redes, sem riscos de segurança de dados
  • Supera os obstáculos com vários fornecedores gerenciando os dados
  • Elimina a necessidade de compartilhamento de dados entre sites e governança global
  • Preserva a privacidade com privacidade diferencial e oferece computação multipartidária segura com treinamento local

Melhorias de desempenho:

  • Resolve o problema do pequeno tamanho da amostra no espaço de imagens médicas e processos de rotulagem dispendiosos
  • Equilibra a distribuição dos dados
  • Permite incorporar os métodos mais tradicionais de ML e aprendizagem profunda (DL)
  • Usa conjuntos de imagens agrupadas para ajudar a melhorar o poder estatístico, superando a limitação do tamanho da amostra de instituições individuais

Benefícios de resiliência:

  • Se alguma das partes decidir sair, isso não atrapalhará o treinamento
  • Um novo hospital ou instituto pode aderir a qualquer momento; não depende de nenhum conjunto de dados específico com nenhuma organização de nó
  • Não há necessidade de extensos pipelines de engenharia de dados para os dados legados espalhados por localizações geográficas amplas

Esses recursos podem ajudar a derrubar as barreiras entre instituições que hospedam conjuntos de dados isolados em domínios semelhantes. A solução pode tornar-se um multiplicador de forças, aproveitando os poderes unificados dos conjuntos de dados distribuídos e melhorando a eficiência, transformando radicalmente o aspecto da escalabilidade sem a pesada elevação da infra-estrutura. Esta abordagem ajuda o ML a atingir todo o seu potencial, tornando-se proficiente a nível clínico e não apenas de investigação.

A aprendizagem federada tem desempenho comparável ao ML normal, conforme mostrado a seguir experimentar por NVidia Clara (no Medical Modal ARchive (MMAR) usando o conjunto de dados BRATS2018). Aqui, FL alcançou um desempenho de segmentação comparável em comparação ao treinamento com dados centralizados: mais de 80% com aproximadamente 600 épocas durante o treinamento de uma tarefa de segmentação de tumor cerebral multimodal e multiclasse.

A aprendizagem federada foi testada recentemente em alguns subcampos médicos para casos de uso, incluindo aprendizagem por similaridade de pacientes, aprendizagem de representação de pacientes, fenotipagem e modelagem preditiva.

Plano de aplicação: o aprendizado federado torna isso possível e direto

Para começar a usar FL, você pode escolher entre vários conjuntos de dados de alta qualidade. Por exemplo, conjuntos de dados com imagens cerebrais incluem RESIDIR (Iniciativa de troca de dados de imagens cerebrais do autismo), ADNI (Iniciativa de Neuroimagem da Doença de Alzheimer), RSNA (Sociedade Radiológica da América do Norte) TC cerebral, Sutiãs (Multimodal Brain Tumor Image Segmentation Benchmark) atualizado regularmente para o Desafio de Segmentação de Tumor Cerebral em UPenn (Universidade da Pensilvânia), UK BioBank (abordado no seguinte NIH papel), E IXIA. Da mesma forma para imagens cardíacas, você pode escolher entre várias opções disponíveis publicamente, incluindo ACDC (Automatic Cardiac Diagnosis Challenge), que é um conjunto de dados de avaliação de ressonância magnética cardíaca com anotação completa mencionada pela National Library of Medicine a seguir. papel, e M&M (Multicentro, Multifornecedor e Multi-Disease) Desafio de segmentação cardíaca mencionado a seguir IEEE papel.

As imagens a seguir mostram um mapa probabilístico de sobreposição de lesões para as lesões primárias do conjunto de dados ATLAS R1.1. (Os acidentes vasculares cerebrais são uma das causas mais comuns de lesões cerebrais, de acordo com Cleveland Clinic.)

Para dados de Registros Eletrônicos de Saúde (EHR), estão disponíveis alguns conjuntos de dados que seguem o Recursos de interoperabilidade de assistência médica rápida (FHIR) padrão. Este padrão ajuda você a criar pilotos simples, eliminando certos desafios com conjuntos de dados heterogêneos e não normalizados, permitindo troca, compartilhamento e integração contínua e segura de conjuntos de dados. O FHIR permite interoperabilidade máxima. Exemplos de conjuntos de dados incluem MIMIC-IV (Mercado de Informações Médicas para Terapia Intensiva). Outros conjuntos de dados de boa qualidade que atualmente não são FHIR, mas podem ser facilmente convertidos, incluem Centros de serviços Medicare e Medicaid (CMS) Arquivos de Uso Público (PUF) e Banco de dados de pesquisa colaborativa eICU do MIT (Instituto de Tecnologia de Massachusetts). Existem também outros recursos disponíveis que oferecem conjuntos de dados baseados em FHIR.

O ciclo de vida para implementação de FL pode incluir o seguinte passos: inicialização de tarefas, seleção, configuração, treinamento de modelo, comunicação cliente/servidor, agendamento e otimização, controle de versão, teste, implantação e encerramento. Há muitas etapas demoradas necessárias para preparar dados de imagens médicas para ML tradicional, conforme descrito a seguir papel. O conhecimento do domínio pode ser necessário em alguns cenários para pré-processar dados brutos do paciente, especialmente devido à sua natureza sensível e privada. Estes podem ser consolidados e às vezes eliminados para FL, economizando tempo crucial para treinamento e proporcionando resultados mais rápidos.

Implementação

As ferramentas e bibliotecas de FL cresceram com amplo suporte, tornando mais fácil o uso de FL sem grandes sobrecargas. Existem muitos bons recursos e opções de estrutura disponíveis para começar. Você pode consultar o seguinte extensa lista das estruturas e ferramentas mais populares no domínio FL, incluindo PySyftName, FedML, flor, OpenFL, FATE, TensorFlow Federado e NVFlare. Ele fornece uma lista de projetos para iniciantes para começar rapidamente e desenvolver.

Você pode implementar uma abordagem nativa da nuvem com Amazon Sage Maker que funciona perfeitamente com peering de AWS VPC, mantendo o treinamento de cada nó em uma sub-rede privada em suas respectivas VPC e possibilitando a comunicação via endereços IPv4 privados. Além disso, o modelo de hospedagem em JumpStart do Amazon SageMaker pode ajudar expondo a API do endpoint sem compartilhar pesos de modelo.

Ele também elimina possíveis desafios de computação de alto nível com hardware local com Amazon Elastic Compute Nuvem (Amazon EC2) recursos. Você pode implementar o cliente e os servidores FL na AWS com Cadernos SageMaker e Serviço de armazenamento simples da Amazon (Amazon S3), manter acesso regulamentado aos dados e modelo com Gerenciamento de acesso e identidade da AWS (IAM) e uso Serviço de token de segurança AWS (AWS STS) para segurança do lado do cliente. Você também pode criar seu próprio sistema personalizado para FL usando o Amazon EC2.

Para uma visão geral detalhada da implementação da FL com o flor estrutura no SageMaker e uma discussão sobre sua diferença em relação ao treinamento distribuído, consulte Aprendizado de máquina com dados de treinamento descentralizados usando aprendizado federado no Amazon SageMaker.

As figuras a seguir ilustram a arquitetura da aprendizagem por transferência em FL.

Enfrentando os desafios dos dados FL

A aprendizagem federada traz consigo seus próprios desafios de dados, incluindo privacidade e segurança, mas eles são fáceis de resolver. Primeiro, você precisa resolver o problema de heterogeneidade de dados com dados de imagens médicas decorrentes de dados armazenados em diferentes locais e organizações participantes, conhecido como mudança de domínio problema (também conhecido como mudança de cliente em um sistema FL), conforme destacado por Guan e Liu no seguinte papel. Isto pode levar a uma diferença na convergência do modelo global.

Outros componentes a serem considerados incluem garantir a qualidade e uniformidade dos dados na fonte, incorporar conhecimento especializado no processo de aprendizagem para inspirar confiança no sistema entre os profissionais médicos e alcançar a precisão do modelo. Para obter mais informações sobre alguns dos possíveis desafios que você pode enfrentar durante a implementação, consulte o seguinte papel.

A AWS ajuda você a resolver esses desafios com recursos como a computação flexível do Amazon EC2 e soluções pré-construídas Imagens do Docker no SageMaker para implantação direta. Você pode resolver problemas do lado do cliente, como dados desequilibrados e recursos de computação para cada organização de nó. Você pode resolver problemas de aprendizagem do lado do servidor, como ataques de envenenamento de partes mal-intencionadas, com Nuvem virtual privada da Amazon (Amazon VPC), grupos de segurança, e outros padrões de segurança, evitando corrupção de clientes e implementando serviços de detecção de anomalias da AWS.

A AWS também ajuda a enfrentar desafios de implementação do mundo real, que podem incluir desafios de integração, problemas de compatibilidade com sistemas hospitalares atuais ou legados e obstáculos à adoção pelos usuários, oferecendo soluções de tecnologia de elevação flexíveis, fáceis de usar e sem esforço.

Com os serviços da AWS, você pode permitir pesquisas em larga escala baseadas em FL e implementação e implantação clínica, que podem consistir em vários locais em todo o mundo.

Políticas recentes sobre interoperabilidade destacam a necessidade de aprendizagem federada

Muitas leis aprovadas recentemente pelo governo incluem um foco na interoperabilidade de dados, reforçando a necessidade de interoperabilidade entre organizações de dados para inteligência. Isto pode ser alcançado usando FL, incluindo estruturas como o TEFCA (Trusted Exchange Framework e Common Agreement) e o expandido USCDI (Dados Básicos para Interoperabilidade dos Estados Unidos).

A ideia proposta também contribui para a iniciativa de captura e distribuição do CDC CDC avançando. A seguinte citação do artigo GovCIO Compartilhamento de dados e IA Principais prioridades da Agência Federal de Saúde em 2024 também ecoa um tema semelhante: “Essas capacidades também podem apoiar o público de forma equitativa, atendendo os pacientes onde eles estão e desbloqueando o acesso crítico a esses serviços. Muito desse trabalho se resume aos dados.”

Isso pode ajudar institutos e agências médicas em todo o país (e em todo o mundo) com silos de dados. Eles podem se beneficiar da integração perfeita e segura e da interoperabilidade de dados, tornando os dados médicos utilizáveis ​​para previsões impactantes baseadas em ML e reconhecimento de padrões. Você pode começar com imagens, mas a abordagem também se aplica a todos os EHR. O objetivo é encontrar a melhor abordagem para as partes interessadas nos dados, com um pipeline nativo da nuvem para normalizar e padronizar os dados ou usá-los diretamente para FL.

Vamos explorar um exemplo de caso de uso. Os dados e exames de imagem de derrame cardíaco estão espalhados por todo o país e pelo mundo, armazenados em silos isolados em institutos, universidades e hospitais, e separados por fronteiras burocráticas, geográficas e políticas. Não existe uma fonte única agregada e nenhuma maneira fácil para os profissionais médicos (não programadores) extrair insights dela. Ao mesmo tempo, não é viável treinar modelos de ML e DL com base nesses dados, o que poderia ajudar os profissionais médicos a tomar decisões mais rápidas e precisas em momentos críticos, quando os exames cardíacos podem levar horas para chegar enquanto a vida do paciente pode estar em risco. equilíbrio.

Outros casos de uso conhecidos incluem POTS (Sistema de rastreamento on-line de compras) em NIH (Institutos Nacionais de Saúde) e segurança cibernética para necessidades de soluções de inteligência dispersas e em camadas em locais COMCOMs/MAJCOMs em todo o mundo.

Conclusão

A aprendizagem federada é uma grande promessa para análise e inteligência de dados legados de saúde. É simples implementar uma solução nativa da nuvem com serviços da AWS, e o FL é especialmente útil para organizações médicas com dados legados e desafios técnicos. A FL pode ter um impacto potencial em todo o ciclo de tratamento, e agora ainda mais com o foco na interoperabilidade de dados de grandes organizações federais e líderes governamentais.

Esta solução pode ajudá-lo a evitar reinventar a roda e usar a tecnologia mais recente para dar um salto em relação aos sistemas legados e estar na vanguarda neste mundo de IA em constante evolução. Você também pode se tornar um líder em práticas recomendadas e uma abordagem eficiente para a interoperabilidade de dados dentro e entre agências e institutos no domínio da saúde e além. Se você é um instituto ou agência com silos de dados espalhados por todo o país, pode se beneficiar dessa integração perfeita e segura.

O conteúdo e as opiniões desta postagem são de responsabilidade do autor terceirizado e a AWS não é responsável pelo conteúdo ou precisão desta postagem. É responsabilidade de cada cliente determinar se estão sujeitos à HIPAA e, em caso afirmativo, qual a melhor forma de cumprir a HIPAA e seus regulamentos de implementação. Antes de usar a AWS em conexão com informações de saúde protegidas, os clientes devem inserir um Adendo de associado comercial (BAA) da AWS e seguir seus requisitos de configuração.


Sobre o autor

Nitin Kumar (MS, CMU) é cientista líder de dados na T and T Consulting Services, Inc. Ele tem ampla experiência com prototipagem de P&D, informática em saúde, dados do setor público e interoperabilidade de dados. Ele aplica seu conhecimento de métodos de pesquisa de ponta ao setor federal para entregar artigos técnicos, POCs e MVPs inovadores. Ele trabalhou com várias agências federais para promover seus dados e metas de IA. As outras áreas de foco da Nitin incluem processamento de linguagem natural (PNL), pipelines de dados e IA generativa.

local_img

Inteligência mais recente

local_img