هوش داده های تولیدی

با استفاده از قابلیت Queries در Amazon Texttract | راه حل تأیید واکسیناسیون بسازید خدمات وب آمازون

تاریخ:

متن آمازون یک سرویس یادگیری ماشینی (ML) است که استخراج خودکار متن، دست خط و داده ها را از اسناد اسکن شده امکان پذیر می کند و از تشخیص کاراکترهای نوری سنتی (OCR) پیشی می گیرد. می تواند داده ها را از جداول و فرم ها با دقت قابل توجهی شناسایی، درک و استخراج کند. در حال حاضر، چندین شرکت به روش‌های استخراج دستی یا نرم‌افزار اولیه OCR تکیه می‌کنند که خسته‌کننده و زمان‌بر است و نیاز به پیکربندی دستی دارد که در صورت تغییر فرم نیاز به به‌روزرسانی دارد. Amazon Textract با استفاده از ML برای پردازش خودکار انواع مختلف اسناد و استخراج دقیق اطلاعات با حداقل مداخله دستی به حل این چالش ها کمک می کند. این به شما امکان می‌دهد پردازش اسناد را خودکار کنید و از داده‌های استخراج‌شده برای اهداف مختلف مانند خودکارسازی پردازش وام یا جمع‌آوری اطلاعات از صورت‌حساب‌ها و رسیدها استفاده کنید.

با از سرگیری سفر پس از همه گیری، تأیید وضعیت واکسیناسیون مسافر ممکن است در بسیاری از موارد مورد نیاز باشد. هتل‌ها و آژانس‌های مسافرتی اغلب باید کارت‌های واکسیناسیون را بررسی کنند تا جزئیات مهمی مانند اینکه آیا مسافر کاملاً واکسینه شده است، تاریخ واکسن و نام مسافر را جمع‌آوری کنند. برخی از آژانس ها این کار را از طریق تأیید دستی کارت ها انجام می دهند که می تواند برای کارکنان وقت گیر باشد و جایی برای خطاهای انسانی باقی بگذارد. دیگران راه‌حل‌های سفارشی ساخته‌اند، اما مقیاس‌پذیری این راه‌حل‌ها می‌تواند پرهزینه و دشوار باشد، و اجرای آن زمان زیادی را می‌طلبد. در حرکت رو به جلو، ممکن است فرصت‌هایی برای ساده‌سازی فرآیند تأیید وضعیت واکسیناسیون به گونه‌ای باشد که برای مشاغل کارآمد باشد و در عین حال به حریم خصوصی و راحتی مسافران احترام بگذارد.

پرس و جوهای متنی آمازون به رفع این چالش ها کمک می کند. پرس و جوهای متنی آمازون به شما امکان می دهد فقط اطلاعات مورد نیاز خود را از سند مشخص و استخراج کنید. اطلاعات دقیق و دقیقی از سند به شما می دهد.

در این پست، راهنمای پیاده سازی گام به گام برای ایجاد راه حل تأیید وضعیت واکسیناسیون با استفاده از پرس و جوهای متنی آمازون را به شما آموزش می دهیم. این راه حل نحوه پردازش کارت های واکسیناسیون را با استفاده از پرس و جوی Amazon Textract، تأیید وضعیت واکسیناسیون و ذخیره اطلاعات برای استفاده در آینده نشان می دهد.

بررسی اجمالی راه حل

نمودار زیر معماری راه حل را نشان می دهد.

گردش کار شامل مراحل زیر است:

  1. کاربر از کارت واکسیناسیون عکس می گیرد.
  2. تصویر در یک آپلود می شود سرویس ذخیره سازی ساده آمازون سطل (Amazon S3).
  3. هنگامی که تصویر در سطل S3 ذخیره می شود، یک را فرا می خواند توابع مرحله AWS جریان کار:
  4. Queries-Decider AWS لامبدا تابع سند ارسال شده را بررسی می کند و اطلاعاتی در مورد نوع mime، تعداد صفحات و تعداد پرس و جوها به گردش کار توابع Step اضافه می کند (برای مثال، ما چهار پرس و جو داریم).
  5. NumberQueriesAndPagesChoice یک حالت انتخاب است که منطق شرطی را به یک گردش کار اضافه می کند. اگر بین 15 تا 31 پرس و جو وجود داشته باشد و تعداد صفحات بین 2 تا 3,001 باشد، پردازش ناهمزمان متن آمازون تنها گزینه است، زیرا APIهای همگام فقط تا 15 پرس و جو و اسناد یک صفحه را پشتیبانی می کنند. برای همه موارد دیگر، ما به سمت انتخاب تصادفی پردازش همزمان یا ناهمزمان می رویم.
  6. La TextractSync تابع Lambda درخواستی را برای تجزیه و تحلیل سند بر اساس پرس و جوهای Amazon Textract زیر به Amazon Textract ارسال می کند:
    1. وضعیت واکسیناسیون چیست؟
    2. نام چیست؟
    3. تاریخ تولد چیست؟
    4. شماره سند چیست؟
  7. متن آمازون تصویر را تجزیه و تحلیل می کند و پاسخ این پرسش ها را به تابع Lambda می فرستد.
  8. تابع Lambda وضعیت واکسیناسیون مشتری را تأیید می کند و نتیجه نهایی را در قالب CSV در همان سطل S3 ذخیره می کند (demoqueries-textractxxx) در csv-output پوشه.

پیش نیازها

برای تکمیل این راه حل، باید یک حساب AWS و مجوزهای مناسب برای ایجاد منابع مورد نیاز به عنوان بخشی از راه حل داشته باشید.

کد استقرار و نمونه کارت واکسیناسیون را از GitHub.

از ویژگی Queries در کنسول Amazon Textract استفاده کنید

قبل از ایجاد راه حل تأیید واکسیناسیون، بیایید بررسی کنیم که چگونه می توانید از Amazon Textract Queries برای استخراج وضعیت واکسیناسیون از طریق کنسول Amazon Textract استفاده کنید. می توانید از نمونه کارت واکسیناسیونی که از مخزن GitHub دانلود کرده اید استفاده کنید.

  1. در کنسول آمازون Texttract، انتخاب کنید تجزیه و تحلیل سند در صفحه ناوبری
  2. تحت بارگذاری سند، انتخاب کنید سند را انتخاب کنید برای آپلود کارت واکسیناسیون از درایو محلی خود.
  3. پس از آپلود سند، را انتخاب کنید پرس و جو در پیکربندی سند بخش.
  4. سپس می توانید پرس و جوهایی را در قالب سوالات زبان طبیعی اضافه کنید. بیایید موارد زیر را اضافه کنیم:
    • وضعیت واکسیناسیون چیست؟
    • نام چیست؟
    • تاریخ تولد چیست؟
    • شماره سند چیست؟
  5. بعد از اینکه تمام سوالات خود را اضافه کردید، انتخاب کنید تنظیمات را اعمال کنید.
  6. کوئری ها را بررسی کنید برای مشاهده پاسخ سوالات را برگه بزنید.

می‌توانید ببینید Amazon Texttract پاسخ پرسش شما را از سند استخراج می‌کند.

راه حل تأیید واکسیناسیون را به کار ببرید

در این پست از an استفاده می کنیم AWS Cloud9 نمونه و نصب وابستگی های لازم بر روی نمونه با کیت توسعه ابری AWS (AWS CDK) و Docker. AWS Cloud9 یک محیط توسعه یکپارچه مبتنی بر ابر (IDE) است که به شما امکان می دهد کد خود را فقط با یک مرورگر بنویسید، اجرا کنید و اشکال زدایی کنید.

  1. در ترمینال، انتخاب کنید آپلود فایل های محلی در پرونده منو.
  2. را انتخاب کنید پوشه را انتخاب کنید و انتخاب کنید vaccination_verification_solution پوشه ای که از GitHub دانلود کرده اید.
  3. در ترمینال، برنامه بدون سرور خود را برای مراحل بعدی در گردش کار توسعه خود آماده کنید مدل برنامه بدون سرور AWS (AWS SAM) با استفاده از دستور زیر:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. برنامه را با استفاده از cdk deploy فرمان:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    منتظر بمانید تا AWS CDK مدل را مستقر کند و منابع ذکر شده در قالب را ایجاد کند.

  5. هنگامی که استقرار کامل شد، می توانید منابع مستقر شده را بررسی کنید AWS CloudFormation کنسول روی منابع برگه صفحه جزئیات پشته.

محلول را تست کنید

اکنون زمان آزمایش راه حل است. برای فعال کردن گردش کار، استفاده کنید aws s3 cp برای آپلود vac_card.jpg فایل به DemoQueries.DocumentUploadLocation داخل پوشه docs:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


فایل گواهی واکسیناسیون به طور خودکار در سطل S3 آپلود می شود demoqueries-textractxxx در پوشه آپلود

به محض اینکه فایل گواهی واکسیناسیون در سطل S3 آپلود شد، گردش کار توابع مرحله از طریق یک تابع Lambda فعال می شود.

تابع Queries-Decider Lambda سند را بررسی می کند و اطلاعاتی در مورد نوع mime، تعداد صفحات و تعداد پرس و جوها به گردش کار توابع مرحله اضافه می کند (برای این مثال، ما از چهار پرس و جو استفاده می کنیم - شماره سند، نام مشتری، تاریخ وضعیت تولد و واکسیناسیون).

La TextractSync تابع پرس و جوهای ورودی را به متن آمازون می فرستد و به طور همزمان نتیجه کامل را به عنوان بخشی از پاسخ برمی گرداند. از اسناد 1 صفحه ای (TIFF، PDF، JPG، PNG) و حداکثر 15 درخواست پشتیبانی می کند. این GenerateCsvTask تابع خروجی JSON را از Amazon Textract می گیرد و آن را به یک فایل CSV تبدیل می کند.

خروجی نهایی در همان سطل S3 در پوشه csv-output به عنوان یک فایل CSV ذخیره می شود.

با استفاده از دستور زیر می توانید فایل را در دستگاه محلی خود دانلود کنید:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

فرمت نتیجه است timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

می‌توانید با آپلود گواهی‌های واکسیناسیون در چندین مشتری، راه‌حل را برای صدها سند گواهی واکسیناسیون برای چندین مشتری مقیاس کنید. DemoQueries.DocumentUploadLocation. این به طور خودکار چندین اجرا از دستگاه حالت توابع Step را آغاز می کند و نتیجه نهایی در همان سطل S3 در پوشه csv-output ذخیره می شود.

برای تغییر مجموعه اولیه پرس‌و‌جوهایی که به Amazon Textract وارد می‌شوند، می‌توانید به نمونه AWS Cloud9 خود بروید و فایل start_execution.py را باز کنید. در نمای فایل در سمت چپ، به لامبدا بروید، start_queries, app, start_execution.py. این تابع Lambda هنگامی که یک فایل در آن آپلود می شود فراخوانی می شود DemoQueries.DocumentUploadLocation. پرس و جوهای ارسال شده به گردش کار در تعریف شده اند start_execution.py; همانطور که در تصویر زیر نشان داده شده است، می توانید با به روز رسانی کد آن ها را تغییر دهید.

پاک کردن

برای جلوگیری از تحمیل هزینه های مداوم، منابع ایجاد شده در این پست را با استفاده از دستور زیر حذف کنید:

cdk destroy DemoQueries

به سوال پاسخ دهید Are you sure you want to delete: DemoQueries (y/n)? با y.

نتیجه

در این پست، ما به شما نشان دادیم که چگونه از پرس و جوهای متنی آمازون برای ایجاد راه حل تأیید واکسیناسیون برای صنعت سفر استفاده کنید. می‌توانید از پرس و جوهای متنی آمازون برای ساخت راه‌حل‌هایی در صنایع دیگر مانند امور مالی و مراقبت‌های بهداشتی و بازیابی اطلاعات از اسنادی مانند اوراق پرداخت، یادداشت‌های وام مسکن و کارت‌های بیمه بر اساس سؤالات زبان طبیعی استفاده کنید.

برای اطلاعات بیشتر، نگاه کنید به تجزیه و تحلیل اسناد، یا کنسول آمازون Texttract را بررسی کنید و این ویژگی را امتحان کنید.


درباره نویسنده

دراج تاکور یک معمار راه حل با خدمات وب آمازون است. او با مشتریان و شرکای AWS کار می کند تا راهنمایی هایی در مورد پذیرش ابر سازمانی، مهاجرت و استراتژی ارائه دهد. او علاقه زیادی به فناوری دارد و از ساختن و آزمایش در حوزه تحلیل و AI/ML لذت می برد.

ریشابه یداو یک معمار Partner Solutions در AWS با پیشینه گسترده در DevOps و پیشنهادات امنیتی در AWS است. او با شرکای ASEAN برای ارائه راهنمایی در مورد پذیرش ابر سازمانی و بررسی معماری همراه با ایجاد شیوه‌های AWS از طریق اجرای چارچوب Well-Architected کار می‌کند. خارج از محل کار، او دوست دارد وقت خود را در زمین ورزش و بازی های FPS بگذراند.

نقطه_img

جدیدترین اطلاعات

نقطه_img