Inteligência de dados generativa

Crie uma solução de verificação de vacinação usando o recurso Consultas no Amazon Textract | Amazon Web Services

Data:

amazontext é um serviço de aprendizado de máquina (ML) que permite a extração automática de texto, manuscrito e dados de documentos digitalizados, superando o tradicional reconhecimento óptico de caracteres (OCR). Ele pode identificar, compreender e extrair dados de tabelas e formulários com notável precisão. Atualmente, diversas empresas contam com métodos de extração manual ou software básico de OCR, que são tediosos e demorados e exigem configuração manual que precisa ser atualizada quando o formulário muda. O Amazon Textract ajuda a resolver esses desafios utilizando ML para processar automaticamente diferentes tipos de documentos e extrair informações com precisão com intervenção manual mínima. Isso permite automatizar o processamento de documentos e usar os dados extraídos para diversos fins, como automatizar o processamento de empréstimos ou coletar informações de faturas e recibos.

À medida que as viagens são retomadas após a pandemia, a verificação do estado de vacinação do viajante pode ser necessária em muitos casos. Os hotéis e agências de viagens muitas vezes precisam revisar os cartões de vacinação para coletar detalhes importantes, como se o viajante está totalmente vacinado, as datas da vacina e o nome do viajante. Algumas agências fazem isso por meio da verificação manual dos cartões, o que pode consumir muito tempo dos funcionários e deixar margem para erros humanos. Outros criaram soluções personalizadas, mas estas podem ser dispendiosas e difíceis de escalar, além de levarem um tempo significativo para serem implementadas. No futuro, poderá haver oportunidades para agilizar o processo de verificação do estado de vacinação de uma forma que seja eficiente para as empresas, respeitando ao mesmo tempo a privacidade e a conveniência dos viajantes.

Consultas do Amazon Textract ajuda a enfrentar esses desafios. O Amazon Textract Queries permite especificar e extrair apenas as informações necessárias do documento. Fornece informações precisas e precisas do documento.

Nesta postagem, orientamos você em um guia de implementação passo a passo para criar uma solução de verificação do status de vacinação usando Amazon Textract Queries. A solução mostra como processar cartões de vacinação usando uma consulta Amazon Textract, verificar o status de vacinação e armazenar as informações para uso futuro.

Visão geral da solução

O diagrama a seguir ilustra a arquitetura da solução.

O fluxo de trabalho inclui as seguintes etapas:

  1. O usuário tira foto de um cartão de vacinação.
  2. A imagem é carregada em um Serviço de armazenamento simples da Amazon (Amazon S3).
  3. Quando a imagem é salva no bucket S3, ela invoca um Funções de etapa da AWS fluxo de trabalho:
  4. O Decisor de Consultas AWS Lambda A função examina o documento passado e adiciona informações sobre o tipo MIME, o número de páginas e o número de consultas ao fluxo de trabalho do Step Functions (para nosso exemplo, temos quatro consultas).
  5. NumberQueriesAndPagesChoice é um estado Choice que adiciona lógica condicional a um fluxo de trabalho. Se houver entre 15 e 31 consultas e o número de páginas estiver entre 2 e 3,001, o processamento assíncrono do Amazon Textract será a única opção, porque as APIs síncronas suportam apenas até 15 consultas e documentos de uma página. Para todos os outros casos, roteamos para a seleção aleatória de processamento síncrono ou assíncrono.
  6. A TextractSync A função Lambda envia uma solicitação ao Amazon Textract para analisar o documento com base nas seguintes consultas do Amazon Textract:
    1. O que é o status de vacinação?
    2. O que é nome?
    3. O que é data de nascimento?
    4. O que é o número do documento?
  7. O Amazon Textract analisa a imagem e envia as respostas dessas consultas de volta para a função Lambda.
  8. A função Lambda verifica o estado de vacinação do cliente e armazena o resultado final em formato CSV no mesmo bucket S3 (demoqueries-textractxxx) Na csv-output pasta.

Pré-requisitos

Para concluir esta solução, você deve ter uma conta da AWS e as permissões apropriadas para criar os recursos necessários como parte da solução.

Baixe o código de implantação e o exemplo do cartão de vacinação em GitHub.

Use o recurso Consultas no console do Amazon Textract

Antes de criar a solução de verificação de vacinação, vamos explorar como você pode usar o Amazon Textract Queries para extrair o status de vacinação por meio do console do Amazon Textract. Você pode usar o exemplo de cartão de vacinação baixado do repositório GitHub.

  1. No console do Amazon Textract, escolha Analisar Documento no painel de navegação.
  2. Debaixo Carregar documento, escolha Escolher documento para fazer upload do cartão de vacinação de sua unidade local.
  3. Depois de carregar o documento, selecione Consultas no Configurar documento seção.
  4. Você pode então adicionar consultas na forma de perguntas em linguagem natural. Vamos adicionar o seguinte:
    • O que é o status de vacinação?
    • O que é nome?
    • O que é data de nascimento?
    • O que é o número do documento?
  5. Depois de adicionar todas as suas consultas, escolha Aplicar configuração.
  6. Verifique as consultas guia para ver as respostas às perguntas.

Você pode ver que o Amazon Textract extrai a resposta à sua consulta do documento.

Implantar a solução de verificação de vacinação

Nesta postagem, usamos um Nuvem AWS9 instância e instale as dependências necessárias na instância com o Kit de desenvolvimento em nuvem da AWS (AWSCDK) e Docker. O AWS Cloud9 é um ambiente de desenvolvimento integrado (IDE) baseado em nuvem que permite escrever, executar e depurar seu código com apenas um navegador.

  1. No terminal, escolha Carregar arquivos locais na Envie o menu.
  2. Escolha Selecionar Pasta e escolha o vaccination_verification_solution pasta que você baixou do GitHub.
  3. No terminal, prepare seu aplicativo sem servidor para as etapas subsequentes do fluxo de trabalho de desenvolvimento em Modelo de aplicativo sem servidor da AWS (AWS SAM) usando o seguinte comando:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. Implante o aplicativo usando o cdk deploy comando:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    Aguarde o AWS CDK implantar o modelo e criar os recursos mencionados no modelo.

  5. Quando a implantação for concluída, você poderá verificar os recursos implantados na página Formação da Nuvem AWS console no Recursos guia da página de detalhes da pilha.

Teste a solução

Agora é hora de testar a solução. Para acionar o fluxo de trabalho, use aws s3 cp para fazer o upload do vac_card.jpg arquivo para DemoQueries.DocumentUploadLocation dentro da pasta de documentos:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


O arquivo do certificado de vacinação é carregado automaticamente no bucket S3 demoqueries-textractxxx na pasta de uploads.

O fluxo de trabalho do Step Functions é acionado por meio de uma função Lambda assim que o arquivo do certificado de vacinação é carregado no bucket S3.

A função Queries-Decider Lambda examina o documento e adiciona informações sobre o tipo MIME, o número de páginas e o número de consultas ao fluxo de trabalho do Step Functions (para este exemplo, usamos quatro consultas: número do documento, nome do cliente, data de nascimento e situação vacinal).

A TextractSync A função envia as consultas de entrada ao Amazon Textract e retorna de forma síncrona o resultado completo como parte da resposta. Suporta documentos de 1 página (TIFF, PDF, JPG, PNG) e até 15 consultas. O GenerateCsvTask função pega a saída JSON do Amazon Textract e a converte em um arquivo CSV.

A saída final é armazenada no mesmo bucket S3 na pasta csv-output como um arquivo CSV.

Você pode baixar o arquivo para sua máquina local usando o seguinte comando:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

O formato do resultado é timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

Você pode dimensionar a solução para centenas de documentos de certificados de vacinação para vários clientes, enviando seus certificados de vacinação para DemoQueries.DocumentUploadLocation. Isso aciona automaticamente várias execuções da máquina de estado do Step Functions, e o resultado final é armazenado no mesmo bucket S3 na pasta csv-output.

Para alterar o conjunto inicial de consultas alimentadas no Amazon Textract, você pode acessar sua instância do AWS Cloud9 e abrir o arquivo start_execution.py. Na visualização de arquivo no painel esquerdo, navegue até lambda, start_queries, app, start_execution.py. Esta função do Lambda é invocada quando um arquivo é carregado no DemoQueries.DocumentUploadLocation. As consultas enviadas ao fluxo de trabalho são definidas em start_execution.py; você pode alterá-los atualizando o código conforme mostrado na captura de tela a seguir.

limpar

Para evitar cobranças contínuas, exclua os recursos criados nesta postagem usando o seguinte comando:

cdk destroy DemoQueries

Responda à pergunta Are you sure you want to delete: DemoQueries (y/n)? com você.

Conclusão

Nesta postagem, mostramos como usar o Amazon Textract Queries para construir uma solução de verificação de vacinação para o setor de viagens. Você pode usar o Amazon Textract Queries para criar soluções em outros setores, como finanças e saúde, e recuperar informações de documentos como recibos de pagamento, notas de hipoteca e cartões de seguro com base em perguntas em linguagem natural.

Para mais informações, consulte Analisando Documentosou confira o console do Amazon Textract e experimente esse recurso.


Sobre os autores

Dhiraj Thakur é arquiteto de soluções da Amazon Web Services. Ele trabalha com clientes e parceiros da AWS para fornecer orientação sobre adoção, migração e estratégia da nuvem corporativa. Ele é apaixonado por tecnologia e gosta de construir e experimentar no espaço de análise e IA/ML.

Rishabh Yadav é arquiteto de soluções de parceiros na AWS com ampla experiência em DevOps e ofertas de segurança na AWS. Ele trabalha com parceiros da ASEAN para fornecer orientação sobre a adoção da nuvem corporativa e revisões de arquitetura, juntamente com a construção de práticas da AWS por meio da implementação do Well-Architected Framework. Fora do trabalho, ele gosta de passar o tempo na área esportiva e em jogos FPS.

local_img

Inteligência mais recente

local_img