जनरेटिव डेटा इंटेलिजेंस

Amazon Texttract | में क्वेरीज़ सुविधा का उपयोग करके टीकाकरण सत्यापन समाधान बनाएं अमेज़न वेब सेवाएँ

दिनांक:

अमेज़न टेक्सट्रेक एक मशीन लर्निंग (एमएल) सेवा है जो पारंपरिक ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) को पार करते हुए स्कैन किए गए दस्तावेज़ों से टेक्स्ट, लिखावट और डेटा को स्वचालित रूप से निकालने में सक्षम बनाती है। यह उल्लेखनीय सटीकता के साथ तालिकाओं और प्रपत्रों से डेटा को पहचान, समझ और निकाल सकता है। वर्तमान में, कई कंपनियां मैन्युअल निष्कर्षण विधियों या बुनियादी ओसीआर सॉफ़्टवेयर पर भरोसा करती हैं, जो थकाऊ और समय लेने वाली है, और मैन्युअल कॉन्फ़िगरेशन की आवश्यकता होती है जिसे फॉर्म बदलने पर अपडेट करने की आवश्यकता होती है। अमेज़ॅन टेक्स्टट्रैक्ट विभिन्न दस्तावेज़ प्रकारों को स्वचालित रूप से संसाधित करने और न्यूनतम मैन्युअल हस्तक्षेप के साथ जानकारी को सटीक रूप से निकालने के लिए एमएल का उपयोग करके इन चुनौतियों को हल करने में मदद करता है। यह आपको दस्तावेज़ प्रसंस्करण को स्वचालित करने और विभिन्न उद्देश्यों के लिए निकाले गए डेटा का उपयोग करने में सक्षम बनाता है, जैसे कि ऋण प्रसंस्करण को स्वचालित करना या चालान और रसीदों से जानकारी एकत्र करना।

जैसे ही महामारी के बाद यात्रा फिर से शुरू होती है, कई मामलों में यात्री के टीकाकरण की स्थिति की पुष्टि करना आवश्यक हो सकता है। होटल और ट्रैवल एजेंसियों को अक्सर महत्वपूर्ण विवरण इकट्ठा करने के लिए टीकाकरण कार्ड की समीक्षा करने की आवश्यकता होती है जैसे कि यात्री को पूरी तरह से टीका लगाया गया है, टीके की तारीखें और यात्री का नाम। कुछ एजेंसियां ​​कार्डों के मैन्युअल सत्यापन के माध्यम से ऐसा करती हैं, जिसमें कर्मचारियों के लिए समय लग सकता है और मानवीय त्रुटि की गुंजाइश रहती है। दूसरों ने कस्टम समाधान बनाए हैं, लेकिन ये महंगे और बड़े पैमाने पर कठिन हो सकते हैं, और इन्हें लागू करने में काफी समय लग सकता है। आगे बढ़ते हुए, टीकाकरण स्थिति सत्यापन प्रक्रिया को इस तरह से सुव्यवस्थित करने के अवसर हो सकते हैं जो यात्रियों की गोपनीयता और सुविधा का सम्मान करते हुए व्यवसायों के लिए कुशल हो।

अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ इन चुनौतियों से निपटने में मदद करता है। अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ आपको दस्तावेज़ से केवल उस जानकारी को निर्दिष्ट करने और निकालने की अनुमति देती है जिसकी आपको आवश्यकता है। यह आपको दस्तावेज़ से सटीक और सटीक जानकारी देता है।

इस पोस्ट में, हम आपको अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ का उपयोग करके टीकाकरण स्थिति सत्यापन समाधान बनाने के लिए चरण-दर-चरण कार्यान्वयन मार्गदर्शिका के बारे में बताते हैं। समाधान दिखाता है कि अमेज़ॅन टेक्स्टट्रैक्ट क्वेरी का उपयोग करके टीकाकरण कार्ड को कैसे संसाधित किया जाए, टीकाकरण की स्थिति को सत्यापित किया जाए और भविष्य में उपयोग के लिए जानकारी संग्रहीत की जाए।

समाधान अवलोकन

निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।

वर्कफ़्लो में निम्न चरण शामिल हैं:

  1. उपयोगकर्ता टीकाकरण कार्ड की तस्वीर लेता है।
  2. छवि को एक पर अपलोड किया गया है अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
  3. जब छवि S3 बकेट में सहेजी जाती है, तो यह एक को आमंत्रित करती है AWS स्टेप फ़ंक्शंस वर्कफ़्लो:
  4. प्रश्न-निर्णायक AWS लाम्बा फ़ंक्शन पास किए गए दस्तावेज़ की जांच करता है और स्टेप फ़ंक्शंस वर्कफ़्लो में माइम प्रकार, पृष्ठों की संख्या और प्रश्नों की संख्या के बारे में जानकारी जोड़ता है (हमारे उदाहरण के लिए, हमारे पास चार प्रश्न हैं)।
  5. NumberQueriesAndPagesChoice एक चॉइस स्थिति है जो वर्कफ़्लो में सशर्त तर्क जोड़ती है। यदि 15-31 क्वेरीज़ हैं और पृष्ठों की संख्या 2-3,001 के बीच है, तो अमेज़ॅन टेक्सट्रैक्ट एसिंक्रोनस प्रोसेसिंग एकमात्र विकल्प है, क्योंकि सिंक्रोनस एपीआई केवल 15 क्वेरीज़ और एक-पेज दस्तावेज़ों का समर्थन करते हैं। अन्य सभी मामलों के लिए, हम सिंक्रोनस या एसिंक्रोनस प्रोसेसिंग के यादृच्छिक चयन का मार्ग चुनते हैं।
  6. RSI TextractSync लैम्ब्डा फ़ंक्शन निम्नलिखित अमेज़ॅन टेक्स्टट्रैक्ट प्रश्नों के आधार पर दस्तावेज़ का विश्लेषण करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट को एक अनुरोध भेजता है:
    1. टीकाकरण की स्थिति क्या है?
    2. नाम क्या है?
    3. जन्मतिथि क्या है?
    4. दस्तावेज़ संख्या क्या है?
  7. अमेज़ॅन टेक्स्टट्रैक्ट छवि का विश्लेषण करता है और इन प्रश्नों के उत्तर लैम्ब्डा फ़ंक्शन पर वापस भेजता है।
  8. लैम्ब्डा फ़ंक्शन ग्राहक के टीकाकरण की स्थिति की पुष्टि करता है और अंतिम परिणाम को उसी S3 बकेट में CSV प्रारूप में संग्रहीत करता है (demoqueries-textractxxxमें) csv-output फ़ोल्डर.

.. पूर्वापेक्षाएँ

इस समाधान को पूरा करने के लिए, आपके पास समाधान के भाग के रूप में आवश्यक संसाधन बनाने के लिए एक AWS खाता और उपयुक्त अनुमतियाँ होनी चाहिए।

यहां से परिनियोजन कोड और नमूना टीकाकरण कार्ड डाउनलोड करें GitHub.

Amazon Texttract कंसोल पर क्वेरीज़ सुविधा का उपयोग करें

इससे पहले कि आप टीकाकरण सत्यापन समाधान बनाएं, आइए जानें कि आप अमेज़ॅन टेक्स्टट्रैक्ट कंसोल के माध्यम से टीकाकरण स्थिति निकालने के लिए अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ का उपयोग कैसे कर सकते हैं। आप GitHub रेपो से डाउनलोड किए गए टीकाकरण कार्ड के नमूने का उपयोग कर सकते हैं।

  1. अमेज़ॅन टेक्स्टट्रैक्ट कंसोल पर, चुनें दस्तावेज़ का विश्लेषण करें नेविगेशन फलक में
  2. के अंतर्गत दस्तावेज़ अपलोड करें, चुनें दस्तावेज़ चुनें अपने स्थानीय ड्राइव से टीकाकरण कार्ड अपलोड करने के लिए।
  3. दस्तावेज़ अपलोड करने के बाद, चुनें प्रश्न में दस्तावेज़ कॉन्फ़िगर करें अनुभाग।
  4. फिर आप प्राकृतिक भाषा प्रश्नों के रूप में प्रश्न जोड़ सकते हैं। आइए निम्नलिखित जोड़ें:
    • टीकाकरण की स्थिति क्या है?
    • नाम क्या है?
    • जन्मतिथि क्या है?
    • दस्तावेज़ संख्या क्या है?
  5. अपने सभी प्रश्न जोड़ने के बाद, चुनें कॉन्फ़िगरेशन लागू करें.
  6. क्वेरीज़ की जाँच करें प्रश्नों के उत्तर देखने के लिए टैब.

आप देख सकते हैं कि Amazon Texttract दस्तावेज़ से आपकी क्वेरी का उत्तर निकालता है।

टीकाकरण सत्यापन समाधान तैनात करें

इस पोस्ट में, हम एक का उपयोग करते हैं AWS क्लाउड 9 इंस्टेंस और इंस्टेंस के साथ इंस्टेंस पर आवश्यक निर्भरताएँ स्थापित करें AWS क्लाउड डेवलपमेंट किट (एडब्ल्यूएस सीडीके) और डॉकर। AWS Cloud9 एक क्लाउड-आधारित एकीकृत विकास वातावरण (IDE) है जो आपको केवल एक ब्राउज़र से अपना कोड लिखने, चलाने और डीबग करने देता है।

  1. टर्मिनल में, चुनें स्थानीय फ़ाइलें अपलोड करें पर पट्टिका मेनू.
  2. चुनें फ़ोल्डर का चयन करें और चुनिए vaccination_verification_solution फ़ोल्डर जिसे आपने GitHub से डाउनलोड किया है।
  3. टर्मिनल में, अपने विकास वर्कफ़्लो में अगले चरणों के लिए अपना सर्वर रहित एप्लिकेशन तैयार करें AWS सर्वर रहित अनुप्रयोग मॉडल (एडब्ल्यूएस एसएएम) निम्नलिखित आदेश का उपयोग कर:
    $ cd vaccination_verification_solution/
    $ pip install -r requirements.txt
    

  4. का उपयोग करके एप्लिकेशन को परिनियोजित करें cdk deploy आदेश:
    cdk deploy DemoQueries --outputs-file demo_queries.json --require-approval never

    मॉडल को तैनात करने और टेम्पलेट में उल्लिखित संसाधनों को बनाने के लिए AWS CDK की प्रतीक्षा करें।

  5. जब तैनाती पूरी हो जाती है, तो आप तैनात संसाधनों की जांच कर सकते हैं एडब्ल्यूएस CloudFormation पर सांत्वना उपयुक्त संसाधन चुनें स्टैक विवरण पृष्ठ का टैब।

समाधान का परीक्षण करें

अब समाधान का परीक्षण करने का समय आ गया है। वर्कफ़्लो को ट्रिगर करने के लिए, उपयोग करें aws s3 cp अपलोड करने के लिए vac_card.jpg फ़ाइल DemoQueries.DocumentUploadLocation दस्तावेज़ फ़ोल्डर के अंदर:

aws s3 cp docs/vac_card.JPG $(aws cloudformation list-exports --query 'Exports[?Name==`DemoQueries-DocumentUploadLocation`].Value' --output text)


टीकाकरण प्रमाणपत्र फ़ाइल स्वचालित रूप से S3 बकेट पर अपलोड हो जाती है demoqueries-textractxxx अपलोड फ़ोल्डर में.

जैसे ही टीकाकरण प्रमाणपत्र फ़ाइल S3 बकेट पर अपलोड की जाती है, स्टेप फ़ंक्शंस वर्कफ़्लो को लैम्ब्डा फ़ंक्शन के माध्यम से ट्रिगर किया जाता है।

क्वेरीज़-डिसीडर लैम्ब्डा फ़ंक्शन दस्तावेज़ की जांच करता है और स्टेप फ़ंक्शंस वर्कफ़्लो में माइम प्रकार, पृष्ठों की संख्या और प्रश्नों की संख्या के बारे में जानकारी जोड़ता है (इस उदाहरण के लिए, हम चार प्रश्नों का उपयोग करते हैं- दस्तावेज़ संख्या, ग्राहक का नाम, दिनांक) जन्म, और टीकाकरण की स्थिति)।

RSI TextractSync फ़ंक्शन अमेज़ॅन टेक्स्टट्रैक्ट को इनपुट क्वेरी भेजता है और प्रतिक्रिया के हिस्से के रूप में सिंक्रोनाइज़ करके पूर्ण परिणाम लौटाता है। यह 1-पेज दस्तावेज़ (टीआईएफएफ, पीडीएफ, जेपीजी, पीएनजी) और 15 प्रश्नों तक का समर्थन करता है। GenerateCsvTask फ़ंक्शन अमेज़ॅन टेक्स्टट्रैक्ट से JSON आउटपुट लेता है और इसे CSV फ़ाइल में परिवर्तित करता है।

अंतिम आउटपुट सीएसवी फ़ाइल के रूप में सीएसवी-आउटपुट फ़ोल्डर में उसी एस 3 बाल्टी में संग्रहीत किया जाता है।

आप निम्न आदेश का उपयोग करके फ़ाइल को अपनी स्थानीय मशीन पर डाउनलोड कर सकते हैं:

aws s3 cp <paste the S3 URL from TextractOutputCSVPath>

परिणाम का प्रारूप है timestamp, classification, filename, page number, key name, key_confidence, value, value_confidence, key_bb_top, key_bb_height, key_bb.width, key_bb_left, value_bb_top, value_bb_height, value_bb_width, value_bb_left.

आप कई ग्राहकों के टीकाकरण प्रमाणपत्रों को अपलोड करके उनके समाधान को सैकड़ों टीकाकरण प्रमाणपत्र दस्तावेज़ों तक बढ़ा सकते हैं DemoQueries.DocumentUploadLocation. यह स्वचालित रूप से स्टेप फ़ंक्शंस राज्य मशीन के एकाधिक रन को ट्रिगर करता है, और अंतिम परिणाम सीएसवी-आउटपुट फ़ोल्डर में उसी एस 3 बाल्टी में संग्रहीत होता है।

Amazon Texttract में फीड किए गए प्रश्नों के प्रारंभिक सेट को बदलने के लिए, आप अपने AWS Cloud9 इंस्टेंस पर जा सकते हैं औरstart_execution.py फ़ाइल खोल सकते हैं। बाएँ फलक में फ़ाइल दृश्य में, लैम्ब्डा पर जाएँ, start_queries, app, start_execution.py. जब कोई फ़ाइल अपलोड की जाती है तो यह लैम्ब्डा फ़ंक्शन लागू हो जाता है DemoQueries.DocumentUploadLocation. वर्कफ़्लो में भेजे गए प्रश्नों को इसमें परिभाषित किया गया है start_execution.py; आप निम्न स्क्रीनशॉट में दिखाए अनुसार कोड को अपडेट करके उन्हें बदल सकते हैं।

क्लीन अप

चल रहे शुल्कों से बचने के लिए, निम्नलिखित आदेश का उपयोग करके इस पोस्ट में बनाए गए संसाधनों को हटा दें:

cdk destroy DemoQueries

प्रश्न का उत्तर दो Are you sure you want to delete: DemoQueries (y/n)? वाई के साथ

निष्कर्ष

इस पोस्ट में, हमने आपको दिखाया कि यात्रा उद्योग के लिए टीकाकरण सत्यापन समाधान बनाने के लिए अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ का उपयोग कैसे करें। आप वित्त और स्वास्थ्य देखभाल जैसे अन्य उद्योगों में समाधान बनाने के लिए अमेज़ॅन टेक्सट्रैक्ट क्वेरीज़ का उपयोग कर सकते हैं, और प्राकृतिक भाषा के प्रश्नों के आधार पर भुगतान, बंधक नोट और बीमा कार्ड जैसे दस्तावेज़ों से जानकारी प्राप्त कर सकते हैं।

अधिक जानकारी के लिए देखें दस्तावेज़ों का विश्लेषण, या अमेज़ॅन टेक्स्टट्रैक्ट कंसोल देखें और इस सुविधा को आज़माएं।


लेखक के बारे में

धीरज ठाकुर अमेज़ॅन वेब सेवाओं के साथ एक समाधान वास्तुकार है। वह एंटरप्राइज़ क्लाउड अपनाने, माइग्रेशन और रणनीति पर मार्गदर्शन प्रदान करने के लिए AWS ग्राहकों और भागीदारों के साथ काम करता है। उन्हें तकनीक का शौक है और उन्हें एनालिटिक्स और एआई/एमएल स्पेस में निर्माण और प्रयोग करना पसंद है।

ऋषभ यादव AWS में DevOps और सुरक्षा पेशकशों में व्यापक पृष्ठभूमि के साथ AWS में पार्टनर सॉल्यूशंस आर्किटेक्ट हैं। वह वेल-आर्किटेक्टेड फ्रेमवर्क के कार्यान्वयन के माध्यम से एडब्ल्यूएस प्रथाओं के निर्माण के साथ-साथ एंटरप्राइज़ क्लाउड अपनाने और आर्किटेक्चर समीक्षाओं पर मार्गदर्शन प्रदान करने के लिए आसियान भागीदारों के साथ काम करता है। काम के अलावा, वह अपना समय खेल के मैदान और एफपीएस गेमिंग में बिताना पसंद करते हैं।

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी