amazontext é um serviço de aprendizado de máquina (ML) que permite a extração automática de texto, manuscrito e dados de documentos digitalizados, superando o tradicional reconhecimento óptico de caracteres (OCR). Ele pode identificar, compreender e extrair dados de tabelas e formulários com notável precisão. Atualmente, diversas empresas contam com métodos de extração manual ou software básico de OCR, que são tediosos e demorados e exigem configuração manual que precisa ser atualizada quando o formulário muda. O Amazon Textract ajuda a resolver esses desafios utilizando ML para processar automaticamente diferentes tipos de documentos e extrair informações com precisão com intervenção manual mínima. Isso permite automatizar o processamento de documentos e usar os dados extraídos para diversos fins, como automatizar o processamento de empréstimos ou coletar informações de faturas e recibos.
À medida que as viagens são retomadas após a pandemia, a verificação do estado de vacinação do viajante pode ser necessária em muitos casos. Os hotéis e agências de viagens muitas vezes precisam revisar os cartões de vacinação para coletar detalhes importantes, como se o viajante está totalmente vacinado, as datas da vacina e o nome do viajante. Algumas agências fazem isso por meio da verificação manual dos cartões, o que pode consumir muito tempo dos funcionários e deixar margem para erros humanos. Outros criaram soluções personalizadas, mas estas podem ser dispendiosas e difíceis de escalar, além de levarem um tempo significativo para serem implementadas. No futuro, poderá haver oportunidades para agilizar o processo de verificação do estado de vacinação de uma forma que seja eficiente para as empresas, respeitando ao mesmo tempo a privacidade e a conveniência dos viajantes.
Consultas do Amazon Textract ajuda a enfrentar esses desafios. O Amazon Textract Queries permite especificar e extrair apenas as informações necessárias do documento. Fornece informações precisas e precisas do documento.
Nesta postagem, orientamos você em um guia de implementação passo a passo para criar uma solução de verificação do status de vacinação usando Amazon Textract Queries. A solução mostra como processar cartões de vacinação usando uma consulta Amazon Textract, verificar o status de vacinação e armazenar as informações para uso futuro.
Visão geral da solução
O diagrama a seguir ilustra a arquitetura da solução.
O fluxo de trabalho inclui as seguintes etapas:
- O usuário tira foto de um cartão de vacinação.
- A imagem é carregada em um Serviço de armazenamento simples da Amazon (Amazon S3).
- Quando a imagem é salva no bucket S3, ela invoca um Funções de etapa da AWS fluxo de trabalho:
- O Decisor de Consultas AWS Lambda A função examina o documento passado e adiciona informações sobre o tipo MIME, o número de páginas e o número de consultas ao fluxo de trabalho do Step Functions (para nosso exemplo, temos quatro consultas).
NumberQueriesAndPagesChoice
é um estado Choice que adiciona lógica condicional a um fluxo de trabalho. Se houver entre 15 e 31 consultas e o número de páginas estiver entre 2 e 3,001, o processamento assíncrono do Amazon Textract será a única opção, porque as APIs síncronas suportam apenas até 15 consultas e documentos de uma página. Para todos os outros casos, roteamos para a seleção aleatória de processamento síncrono ou assíncrono.- A
TextractSync
A função Lambda envia uma solicitação ao Amazon Textract para analisar o documento com base nas seguintes consultas do Amazon Textract:- O que é o status de vacinação?
- O que é nome?
- O que é data de nascimento?
- O que é o número do documento?
- O Amazon Textract analisa a imagem e envia as respostas dessas consultas de volta para a função Lambda.
- A função Lambda verifica o estado de vacinação do cliente e armazena o resultado final em formato CSV no mesmo bucket S3 (
demoqueries-textractxxx
) Nacsv-output
pasta.
Pré-requisitos
Para concluir esta solução, você deve ter uma conta da AWS e as permissões apropriadas para criar os recursos necessários como parte da solução.
Baixe o código de implantação e o exemplo do cartão de vacinação em GitHub.
Use o recurso Consultas no console do Amazon Textract
Antes de criar a solução de verificação de vacinação, vamos explorar como você pode usar o Amazon Textract Queries para extrair o status de vacinação por meio do console do Amazon Textract. Você pode usar o exemplo de cartão de vacinação baixado do repositório GitHub.
- No console do Amazon Textract, escolha Analisar Documento no painel de navegação.
- Debaixo Carregar documento, escolha Escolher documento para fazer upload do cartão de vacinação de sua unidade local.
- Depois de carregar o documento, selecione Consultas no Configurar documento seção.
- Você pode então adicionar consultas na forma de perguntas em linguagem natural. Vamos adicionar o seguinte:
- O que é o status de vacinação?
- O que é nome?
- O que é data de nascimento?
- O que é o número do documento?
- Depois de adicionar todas as suas consultas, escolha Aplicar configuração.
- Verifique as consultas guia para ver as respostas às perguntas.
Você pode ver que o Amazon Textract extrai a resposta à sua consulta do documento.
Implantar a solução de verificação de vacinação
Nesta postagem, usamos um Nuvem AWS9 instância e instale as dependências necessárias na instância com o Kit de desenvolvimento em nuvem da AWS (AWSCDK) e Docker. O AWS Cloud9 é um ambiente de desenvolvimento integrado (IDE) baseado em nuvem que permite escrever, executar e depurar seu código com apenas um navegador.
- No terminal, escolha Carregar arquivos locais na Envie o menu.
- Escolha Selecionar Pasta e escolha o
vaccination_verification_solution
pasta que você baixou do GitHub. - No terminal, prepare seu aplicativo sem servidor para as etapas subsequentes do fluxo de trabalho de desenvolvimento em Modelo de aplicativo sem servidor da AWS (AWS SAM) usando o seguinte comando:
- Implante o aplicativo usando o
cdk deploy
comando:Aguarde o AWS CDK implantar o modelo e criar os recursos mencionados no modelo.
- Quando a implantação for concluída, você poderá verificar os recursos implantados na página Formação da Nuvem AWS console no Recursos guia da página de detalhes da pilha.
Teste a solução
Agora é hora de testar a solução. Para acionar o fluxo de trabalho, use aws s3 cp
para fazer o upload do vac_card.jpg
arquivo para DemoQueries.DocumentUploadLocation
dentro da pasta de documentos:
O arquivo do certificado de vacinação é carregado automaticamente no bucket S3 demoqueries-textractxxx
na pasta de uploads.
O fluxo de trabalho do Step Functions é acionado por meio de uma função Lambda assim que o arquivo do certificado de vacinação é carregado no bucket S3.
A função Queries-Decider Lambda examina o documento e adiciona informações sobre o tipo MIME, o número de páginas e o número de consultas ao fluxo de trabalho do Step Functions (para este exemplo, usamos quatro consultas: número do documento, nome do cliente, data de nascimento e situação vacinal).
A TextractSync
A função envia as consultas de entrada ao Amazon Textract e retorna de forma síncrona o resultado completo como parte da resposta. Suporta documentos de 1 página (TIFF, PDF, JPG, PNG) e até 15 consultas. O GenerateCsvTask
função pega a saída JSON do Amazon Textract e a converte em um arquivo CSV.
A saída final é armazenada no mesmo bucket S3 na pasta csv-output como um arquivo CSV.
Você pode baixar o arquivo para sua máquina local usando o seguinte comando:
O formato do resultado é timestamp
, classification
, filename
, page number
, key name
, key_confidence
, value
, value_confidence
, key_bb_top
, key_bb_height
, key_bb.width
, key_bb_left
, value_bb_top
, value_bb_height
, value_bb_width
, value_bb_left
.
Você pode dimensionar a solução para centenas de documentos de certificados de vacinação para vários clientes, enviando seus certificados de vacinação para DemoQueries.DocumentUploadLocation
. Isso aciona automaticamente várias execuções da máquina de estado do Step Functions, e o resultado final é armazenado no mesmo bucket S3 na pasta csv-output.
Para alterar o conjunto inicial de consultas alimentadas no Amazon Textract, você pode acessar sua instância do AWS Cloud9 e abrir o arquivo start_execution.py. Na visualização de arquivo no painel esquerdo, navegue até lambda, start_queries
, app
, start_execution.py
. Esta função do Lambda é invocada quando um arquivo é carregado no DemoQueries.DocumentUploadLocation
. As consultas enviadas ao fluxo de trabalho são definidas em start_execution.py
; você pode alterá-los atualizando o código conforme mostrado na captura de tela a seguir.
limpar
Para evitar cobranças contínuas, exclua os recursos criados nesta postagem usando o seguinte comando:
Responda à pergunta Are you sure you want to delete: DemoQueries (y/n)?
com você.
Conclusão
Nesta postagem, mostramos como usar o Amazon Textract Queries para construir uma solução de verificação de vacinação para o setor de viagens. Você pode usar o Amazon Textract Queries para criar soluções em outros setores, como finanças e saúde, e recuperar informações de documentos como recibos de pagamento, notas de hipoteca e cartões de seguro com base em perguntas em linguagem natural.
Para mais informações, consulte Analisando Documentosou confira o console do Amazon Textract e experimente esse recurso.
Sobre os autores
Dhiraj Thakur é arquiteto de soluções da Amazon Web Services. Ele trabalha com clientes e parceiros da AWS para fornecer orientação sobre adoção, migração e estratégia da nuvem corporativa. Ele é apaixonado por tecnologia e gosta de construir e experimentar no espaço de análise e IA/ML.
Rishabh Yadav é arquiteto de soluções de parceiros na AWS com ampla experiência em DevOps e ofertas de segurança na AWS. Ele trabalha com parceiros da ASEAN para fornecer orientação sobre a adoção da nuvem corporativa e revisões de arquitetura, juntamente com a construção de práticas da AWS por meio da implementação do Well-Architected Framework. Fora do trabalho, ele gosta de passar o tempo na área esportiva e em jogos FPS.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/build-a-vaccination-verification-solution-using-the-queries-feature-in-amazon-textract/