अमेज़न टेक्सट्रेक एक मशीन लर्निंग (एमएल) सेवा है जो पारंपरिक ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) को पार करते हुए स्कैन किए गए दस्तावेज़ों से टेक्स्ट, लिखावट और डेटा को स्वचालित रूप से निकालने में सक्षम बनाती है। यह उल्लेखनीय सटीकता के साथ तालिकाओं और प्रपत्रों से डेटा को पहचान, समझ और निकाल सकता है। वर्तमान में, कई कंपनियां मैन्युअल निष्कर्षण विधियों या बुनियादी ओसीआर सॉफ़्टवेयर पर भरोसा करती हैं, जो थकाऊ और समय लेने वाली है, और मैन्युअल कॉन्फ़िगरेशन की आवश्यकता होती है जिसे फॉर्म बदलने पर अपडेट करने की आवश्यकता होती है। अमेज़ॅन टेक्स्टट्रैक्ट विभिन्न दस्तावेज़ प्रकारों को स्वचालित रूप से संसाधित करने और न्यूनतम मैन्युअल हस्तक्षेप के साथ जानकारी को सटीक रूप से निकालने के लिए एमएल का उपयोग करके इन चुनौतियों को हल करने में मदद करता है। यह आपको दस्तावेज़ प्रसंस्करण को स्वचालित करने और विभिन्न उद्देश्यों के लिए निकाले गए डेटा का उपयोग करने में सक्षम बनाता है, जैसे कि ऋण प्रसंस्करण को स्वचालित करना या चालान और रसीदों से जानकारी एकत्र करना।
जैसे ही महामारी के बाद यात्रा फिर से शुरू होती है, कई मामलों में यात्री के टीकाकरण की स्थिति की पुष्टि करना आवश्यक हो सकता है। होटल और ट्रैवल एजेंसियों को अक्सर महत्वपूर्ण विवरण इकट्ठा करने के लिए टीकाकरण कार्ड की समीक्षा करने की आवश्यकता होती है जैसे कि यात्री को पूरी तरह से टीका लगाया गया है, टीके की तारीखें और यात्री का नाम। कुछ एजेंसियां कार्डों के मैन्युअल सत्यापन के माध्यम से ऐसा करती हैं, जिसमें कर्मचारियों के लिए समय लग सकता है और मानवीय त्रुटि की गुंजाइश रहती है। दूसरों ने कस्टम समाधान बनाए हैं, लेकिन ये महंगे और बड़े पैमाने पर कठिन हो सकते हैं, और इन्हें लागू करने में काफी समय लग सकता है। आगे बढ़ते हुए, टीकाकरण स्थिति सत्यापन प्रक्रिया को इस तरह से सुव्यवस्थित करने के अवसर हो सकते हैं जो यात्रियों की गोपनीयता और सुविधा का सम्मान करते हुए व्यवसायों के लिए कुशल हो।
अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ इन चुनौतियों से निपटने में मदद करता है। अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ आपको दस्तावेज़ से केवल उस जानकारी को निर्दिष्ट करने और निकालने की अनुमति देती है जिसकी आपको आवश्यकता है। यह आपको दस्तावेज़ से सटीक और सटीक जानकारी देता है।
इस पोस्ट में, हम आपको अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ का उपयोग करके टीकाकरण स्थिति सत्यापन समाधान बनाने के लिए चरण-दर-चरण कार्यान्वयन मार्गदर्शिका के बारे में बताते हैं। समाधान दिखाता है कि अमेज़ॅन टेक्स्टट्रैक्ट क्वेरी का उपयोग करके टीकाकरण कार्ड को कैसे संसाधित किया जाए, टीकाकरण की स्थिति को सत्यापित किया जाए और भविष्य में उपयोग के लिए जानकारी संग्रहीत की जाए।
समाधान अवलोकन
निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।
वर्कफ़्लो में निम्न चरण शामिल हैं:
- उपयोगकर्ता टीकाकरण कार्ड की तस्वीर लेता है।
- छवि को एक पर अपलोड किया गया है अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
- जब छवि S3 बकेट में सहेजी जाती है, तो यह एक को आमंत्रित करती है AWS स्टेप फ़ंक्शंस वर्कफ़्लो:
- प्रश्न-निर्णायक AWS लाम्बा फ़ंक्शन पास किए गए दस्तावेज़ की जांच करता है और स्टेप फ़ंक्शंस वर्कफ़्लो में माइम प्रकार, पृष्ठों की संख्या और प्रश्नों की संख्या के बारे में जानकारी जोड़ता है (हमारे उदाहरण के लिए, हमारे पास चार प्रश्न हैं)।
NumberQueriesAndPagesChoice
एक चॉइस स्थिति है जो वर्कफ़्लो में सशर्त तर्क जोड़ती है। यदि 15-31 क्वेरीज़ हैं और पृष्ठों की संख्या 2-3,001 के बीच है, तो अमेज़ॅन टेक्सट्रैक्ट एसिंक्रोनस प्रोसेसिंग एकमात्र विकल्प है, क्योंकि सिंक्रोनस एपीआई केवल 15 क्वेरीज़ और एक-पेज दस्तावेज़ों का समर्थन करते हैं। अन्य सभी मामलों के लिए, हम सिंक्रोनस या एसिंक्रोनस प्रोसेसिंग के यादृच्छिक चयन का मार्ग चुनते हैं।- RSI
TextractSync
लैम्ब्डा फ़ंक्शन निम्नलिखित अमेज़ॅन टेक्स्टट्रैक्ट प्रश्नों के आधार पर दस्तावेज़ का विश्लेषण करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट को एक अनुरोध भेजता है:- टीकाकरण की स्थिति क्या है?
- नाम क्या है?
- जन्मतिथि क्या है?
- दस्तावेज़ संख्या क्या है?
- अमेज़ॅन टेक्स्टट्रैक्ट छवि का विश्लेषण करता है और इन प्रश्नों के उत्तर लैम्ब्डा फ़ंक्शन पर वापस भेजता है।
- लैम्ब्डा फ़ंक्शन ग्राहक के टीकाकरण की स्थिति की पुष्टि करता है और अंतिम परिणाम को उसी S3 बकेट में CSV प्रारूप में संग्रहीत करता है (
demoqueries-textractxxx
में)csv-output
फ़ोल्डर.
.. पूर्वापेक्षाएँ
इस समाधान को पूरा करने के लिए, आपके पास समाधान के भाग के रूप में आवश्यक संसाधन बनाने के लिए एक AWS खाता और उपयुक्त अनुमतियाँ होनी चाहिए।
यहां से परिनियोजन कोड और नमूना टीकाकरण कार्ड डाउनलोड करें GitHub.
Amazon Texttract कंसोल पर क्वेरीज़ सुविधा का उपयोग करें
इससे पहले कि आप टीकाकरण सत्यापन समाधान बनाएं, आइए जानें कि आप अमेज़ॅन टेक्स्टट्रैक्ट कंसोल के माध्यम से टीकाकरण स्थिति निकालने के लिए अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ का उपयोग कैसे कर सकते हैं। आप GitHub रेपो से डाउनलोड किए गए टीकाकरण कार्ड के नमूने का उपयोग कर सकते हैं।
- अमेज़ॅन टेक्स्टट्रैक्ट कंसोल पर, चुनें दस्तावेज़ का विश्लेषण करें नेविगेशन फलक में
- के अंतर्गत दस्तावेज़ अपलोड करें, चुनें दस्तावेज़ चुनें अपने स्थानीय ड्राइव से टीकाकरण कार्ड अपलोड करने के लिए।
- दस्तावेज़ अपलोड करने के बाद, चुनें प्रश्न में दस्तावेज़ कॉन्फ़िगर करें अनुभाग।
- फिर आप प्राकृतिक भाषा प्रश्नों के रूप में प्रश्न जोड़ सकते हैं। आइए निम्नलिखित जोड़ें:
- टीकाकरण की स्थिति क्या है?
- नाम क्या है?
- जन्मतिथि क्या है?
- दस्तावेज़ संख्या क्या है?
- अपने सभी प्रश्न जोड़ने के बाद, चुनें कॉन्फ़िगरेशन लागू करें.
- क्वेरीज़ की जाँच करें प्रश्नों के उत्तर देखने के लिए टैब.
आप देख सकते हैं कि Amazon Texttract दस्तावेज़ से आपकी क्वेरी का उत्तर निकालता है।
टीकाकरण सत्यापन समाधान तैनात करें
इस पोस्ट में, हम एक का उपयोग करते हैं AWS क्लाउड 9 इंस्टेंस और इंस्टेंस के साथ इंस्टेंस पर आवश्यक निर्भरताएँ स्थापित करें AWS क्लाउड डेवलपमेंट किट (एडब्ल्यूएस सीडीके) और डॉकर। AWS Cloud9 एक क्लाउड-आधारित एकीकृत विकास वातावरण (IDE) है जो आपको केवल एक ब्राउज़र से अपना कोड लिखने, चलाने और डीबग करने देता है।
- टर्मिनल में, चुनें स्थानीय फ़ाइलें अपलोड करें पर पट्टिका मेनू.
- चुनें फ़ोल्डर का चयन करें और चुनिए
vaccination_verification_solution
फ़ोल्डर जिसे आपने GitHub से डाउनलोड किया है। - टर्मिनल में, अपने विकास वर्कफ़्लो में अगले चरणों के लिए अपना सर्वर रहित एप्लिकेशन तैयार करें AWS सर्वर रहित अनुप्रयोग मॉडल (एडब्ल्यूएस एसएएम) निम्नलिखित आदेश का उपयोग कर:
- का उपयोग करके एप्लिकेशन को परिनियोजित करें
cdk deploy
आदेश:मॉडल को तैनात करने और टेम्पलेट में उल्लिखित संसाधनों को बनाने के लिए AWS CDK की प्रतीक्षा करें।
- जब तैनाती पूरी हो जाती है, तो आप तैनात संसाधनों की जांच कर सकते हैं एडब्ल्यूएस CloudFormation पर सांत्वना उपयुक्त संसाधन चुनें स्टैक विवरण पृष्ठ का टैब।
समाधान का परीक्षण करें
अब समाधान का परीक्षण करने का समय आ गया है। वर्कफ़्लो को ट्रिगर करने के लिए, उपयोग करें aws s3 cp
अपलोड करने के लिए vac_card.jpg
फ़ाइल DemoQueries.DocumentUploadLocation
दस्तावेज़ फ़ोल्डर के अंदर:
टीकाकरण प्रमाणपत्र फ़ाइल स्वचालित रूप से S3 बकेट पर अपलोड हो जाती है demoqueries-textractxxx
अपलोड फ़ोल्डर में.
जैसे ही टीकाकरण प्रमाणपत्र फ़ाइल S3 बकेट पर अपलोड की जाती है, स्टेप फ़ंक्शंस वर्कफ़्लो को लैम्ब्डा फ़ंक्शन के माध्यम से ट्रिगर किया जाता है।
क्वेरीज़-डिसीडर लैम्ब्डा फ़ंक्शन दस्तावेज़ की जांच करता है और स्टेप फ़ंक्शंस वर्कफ़्लो में माइम प्रकार, पृष्ठों की संख्या और प्रश्नों की संख्या के बारे में जानकारी जोड़ता है (इस उदाहरण के लिए, हम चार प्रश्नों का उपयोग करते हैं- दस्तावेज़ संख्या, ग्राहक का नाम, दिनांक) जन्म, और टीकाकरण की स्थिति)।
RSI TextractSync
फ़ंक्शन अमेज़ॅन टेक्स्टट्रैक्ट को इनपुट क्वेरी भेजता है और प्रतिक्रिया के हिस्से के रूप में सिंक्रोनाइज़ करके पूर्ण परिणाम लौटाता है। यह 1-पेज दस्तावेज़ (टीआईएफएफ, पीडीएफ, जेपीजी, पीएनजी) और 15 प्रश्नों तक का समर्थन करता है। GenerateCsvTask
फ़ंक्शन अमेज़ॅन टेक्स्टट्रैक्ट से JSON आउटपुट लेता है और इसे CSV फ़ाइल में परिवर्तित करता है।
अंतिम आउटपुट सीएसवी फ़ाइल के रूप में सीएसवी-आउटपुट फ़ोल्डर में उसी एस 3 बाल्टी में संग्रहीत किया जाता है।
आप निम्न आदेश का उपयोग करके फ़ाइल को अपनी स्थानीय मशीन पर डाउनलोड कर सकते हैं:
परिणाम का प्रारूप है timestamp
, classification
, filename
, page number
, key name
, key_confidence
, value
, value_confidence
, key_bb_top
, key_bb_height
, key_bb.width
, key_bb_left
, value_bb_top
, value_bb_height
, value_bb_width
, value_bb_left
.
आप कई ग्राहकों के टीकाकरण प्रमाणपत्रों को अपलोड करके उनके समाधान को सैकड़ों टीकाकरण प्रमाणपत्र दस्तावेज़ों तक बढ़ा सकते हैं DemoQueries.DocumentUploadLocation
. यह स्वचालित रूप से स्टेप फ़ंक्शंस राज्य मशीन के एकाधिक रन को ट्रिगर करता है, और अंतिम परिणाम सीएसवी-आउटपुट फ़ोल्डर में उसी एस 3 बाल्टी में संग्रहीत होता है।
Amazon Texttract में फीड किए गए प्रश्नों के प्रारंभिक सेट को बदलने के लिए, आप अपने AWS Cloud9 इंस्टेंस पर जा सकते हैं औरstart_execution.py फ़ाइल खोल सकते हैं। बाएँ फलक में फ़ाइल दृश्य में, लैम्ब्डा पर जाएँ, start_queries
, app
, start_execution.py
. जब कोई फ़ाइल अपलोड की जाती है तो यह लैम्ब्डा फ़ंक्शन लागू हो जाता है DemoQueries.DocumentUploadLocation
. वर्कफ़्लो में भेजे गए प्रश्नों को इसमें परिभाषित किया गया है start_execution.py
; आप निम्न स्क्रीनशॉट में दिखाए अनुसार कोड को अपडेट करके उन्हें बदल सकते हैं।
क्लीन अप
चल रहे शुल्कों से बचने के लिए, निम्नलिखित आदेश का उपयोग करके इस पोस्ट में बनाए गए संसाधनों को हटा दें:
प्रश्न का उत्तर दो Are you sure you want to delete: DemoQueries (y/n)?
वाई के साथ
निष्कर्ष
इस पोस्ट में, हमने आपको दिखाया कि यात्रा उद्योग के लिए टीकाकरण सत्यापन समाधान बनाने के लिए अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ का उपयोग कैसे करें। आप वित्त और स्वास्थ्य देखभाल जैसे अन्य उद्योगों में समाधान बनाने के लिए अमेज़ॅन टेक्सट्रैक्ट क्वेरीज़ का उपयोग कर सकते हैं, और प्राकृतिक भाषा के प्रश्नों के आधार पर भुगतान, बंधक नोट और बीमा कार्ड जैसे दस्तावेज़ों से जानकारी प्राप्त कर सकते हैं।
अधिक जानकारी के लिए देखें दस्तावेज़ों का विश्लेषण, या अमेज़ॅन टेक्स्टट्रैक्ट कंसोल देखें और इस सुविधा को आज़माएं।
लेखक के बारे में
धीरज ठाकुर अमेज़ॅन वेब सेवाओं के साथ एक समाधान वास्तुकार है। वह एंटरप्राइज़ क्लाउड अपनाने, माइग्रेशन और रणनीति पर मार्गदर्शन प्रदान करने के लिए AWS ग्राहकों और भागीदारों के साथ काम करता है। उन्हें तकनीक का शौक है और उन्हें एनालिटिक्स और एआई/एमएल स्पेस में निर्माण और प्रयोग करना पसंद है।
ऋषभ यादव AWS में DevOps और सुरक्षा पेशकशों में व्यापक पृष्ठभूमि के साथ AWS में पार्टनर सॉल्यूशंस आर्किटेक्ट हैं। वह वेल-आर्किटेक्टेड फ्रेमवर्क के कार्यान्वयन के माध्यम से एडब्ल्यूएस प्रथाओं के निर्माण के साथ-साथ एंटरप्राइज़ क्लाउड अपनाने और आर्किटेक्चर समीक्षाओं पर मार्गदर्शन प्रदान करने के लिए आसियान भागीदारों के साथ काम करता है। काम के अलावा, वह अपना समय खेल के मैदान और एफपीएस गेमिंग में बिताना पसंद करते हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/build-a-vaccination-verification-solution-using-the-queries-feature-in-amazon-textract/