یک پروژه پردازش هوشمند سند (IDP) معمولاً تشخیص کاراکتر نوری (OCR) و پردازش زبان طبیعی (NLP) را برای خواندن و درک خودکار اسناد ترکیب میکند. مشتریان در تمام صنایع، بارهای کاری IDP را روی AWS اجرا میکنند تا با خودکارسازی موارد استفاده مانند فرمهای KYC، اسناد مالیاتی، صورتحسابها، ادعاهای بیمه، گزارشهای تحویل، گزارشهای موجودی و غیره، ارزش تجاری را ارائه دهند. گردشهای کاری IDP در AWS میتواند به شما کمک کند بینشهای تجاری را از اسناد خود استخراج کنید، تلاش دستی را کاهش دهید و اسناد را سریعتر و با دقت بالاتر پردازش کنید.
ایجاد یک راه حل IDP آماده برای تولید در فضای ابری مستلزم یک سری معاوضه بین هزینه، در دسترس بودن، سرعت پردازش و پایداری است. این پست راهنمایی و بهترین روش ها را در مورد چگونگی بهبود پایداری گردش کار IDP خود با استفاده از آن ارائه می دهد متن آمازون, درک آمازون، و لنز سفارشی با معماری خوب IDP.
La چارچوب AWS Well-Architected به شما کمک می کند مزایا و خطرات تصمیمات اتخاذ شده در حین ایجاد بار کاری در AWS را درک کنید. را لنزهای سفارشی با معماری خوب AWS چارچوب Well-Architected را با محتوای بیشتر صنعت، دامنه یا گردش کار تکمیل کنید. با استفاده از چارچوب Well-Architected و IDP Well-Architected Custom Lens، با بهترین شیوه های عملیاتی و معماری برای طراحی و کارکرد حجم کاری قابل اعتماد، ایمن، کارآمد، مقرون به صرفه و پایدار در فضای ابری آشنا خواهید شد.
IDP Well-Architected Custom Lens به شما راهنمایی میکند که چگونه به چالشهای رایج در گردشهای کاری IDP که در این زمینه میبینیم رسیدگی کنید. با پاسخ به یک سری سوالات در ابزار خوش معماری، شما قادر خواهید بود با رعایت موارد زیر خطرات احتمالی را شناسایی کرده و آنها را برطرف کنید طرح بهبود.
این پست بر روی ستون پایداری لنز سفارشی IDP تمرکز دارد. ستون پایداری بر طراحی و اجرای راه حلی برای به حداقل رساندن اثرات زیست محیطی حجم کاری شما و به حداقل رساندن ضایعات با رعایت اصول طراحی زیر تمرکز دارد: درک تأثیر خود، به حداکثر رساندن استفاده از منابع و استفاده از خدمات مدیریت شده، و پیش بینی تغییر و آمادگی برای بهبود. این اصول به شما کمک میکند در حین غوطهور شدن در حوزههای تمرکز متمرکز بمانید: دستیابی به نتایج کسبوکار با در نظر گرفتن پایداری، مدیریت مؤثر دادهها و چرخه عمر آن، و آمادگی برای بهبود مستمر و هدایت آن.
اصول طراحی
ستون پایداری بر طراحی و اجرای راه حل از طریق اصول طراحی زیر تمرکز دارد:
- تاثیر خود را درک کنید – تأثیر پایداری حجم کاری IDP خود را اندازه گیری کنید و تأثیر حجم کاری خود را در آینده مدل کنید. همه منابع تأثیر، از جمله تأثیر استفاده مشتری از محصولات خود را در بر بگیرید. این همچنین شامل تأثیر IDP می شود که دیجیتالی شدن را ممکن می کند و به شرکت یا مشتریان شما امکان می دهد فرآیندهای بدون کاغذ را تکمیل کنند. شاخصهای کلیدی عملکرد (KPI) را برای بار کاری IDP خود ایجاد کنید تا راههای بهبود بهرهوری و کارایی و در عین حال کاهش اثرات زیستمحیطی را ارزیابی کنید.
- استفاده از منابع را به حداکثر برسانید و از خدمات مدیریت شده استفاده کنید - منابع بیکار، پردازش و ذخیره سازی را به حداقل برسانید تا کل انرژی مورد نیاز برای اجرای بار کاری IDP شما کاهش یابد. AWS در مقیاس عمل میکند، بنابراین اشتراکگذاری خدمات در یک پایگاه مشتری گسترده به حداکثر استفاده از منابع کمک میکند، که کارایی انرژی را به حداکثر میرساند و میزان زیرساخت مورد نیاز برای پشتیبانی از بار کاری IDP را کاهش میدهد. با سرویس های مدیریت شده AWS، می توانید تاثیر بار کاری IDP خود را بر محاسبات، شبکه و ذخیره سازی به حداقل برسانید.
- تغییرات را پیش بینی کنید و برای بهبودها آماده شوید - تغییرات را پیش بینی کنید و از بهبودهای بالادستی که شرکا و تامین کنندگان شما انجام می دهند حمایت کنید تا به شما در کاهش تاثیر بار کاری IDP شما کمک کنند. پیشنهادات سخت افزاری و نرم افزاری جدید و کارآمدتر را به طور مستمر نظارت و ارزیابی کنید. طراحی برای انعطاف پذیری برای کاهش موانع برای ایجاد تغییرات و امکان پذیرش سریع فناوری های کارآمد جدید.
تمرکز مناطق
اصول طراحی و بهترین شیوههای ستون پایداری مبتنی بر بینشهای جمعآوریشده از مشتریان و جوامع متخصص فنی IDP ما است. می توانید از آنها به عنوان راهنمایی برای حمایت از تصمیمات طراحی خود استفاده کنید و راه حل IDP خود را با الزامات تجاری و پایداری خود هماهنگ کنید.
موارد زیر حوزه های تمرکز برای پایداری راه حل های IDP در فضای ابری است: با در نظر گرفتن پایداری، به نتایج تجاری دست یابید، داده های خود و چرخه عمر آن را به طور موثر مدیریت کنید، و برای بهبود مستمر آماده باشید و آن را هدایت کنید.
با در نظر گرفتن پایداری به نتایج تجاری دست یابید
برای تعیین بهترین مناطق برای نیازهای تجاری و اهداف پایداری، ما مراحل زیر را توصیه می کنیم:
- ارزیابی و فهرست کوتاه مناطق بالقوه - با فهرست کوتاه مناطق بالقوه برای حجم کاری خود بر اساس الزامات کسب و کارتان، از جمله مطابقت، شروع کنید. هزینه، و تاخیر. خدمات و ویژگی های جدیدتر به تدریج در مناطق مستقر می شوند. رجوع شود به لیست خدمات AWS موجود بر اساس منطقه برای بررسی اینکه کدام مناطق دارای خدمات و ویژگیهایی هستند که برای اجرای بار کاری IDP خود نیاز دارید.
- منطقه ای را انتخاب کنید که 100٪ از انرژی های تجدید پذیر استفاده می کند – از فهرست کوتاه خود، مناطق نزدیک به پروژه های انرژی تجدیدپذیر آمازون را شناسایی کنید و مناطقی که در سال 2022، برق مصرفی 100 درصد به انرژی های تجدیدپذیر نسبت داده شده است.. بر اساس پروتکل گازهای گلخانه ای (GHG)دو روش برای ردیابی انتشار گازهای گلخانه ای از تولید برق وجود دارد: بازار محور و مکان محور. شرکت ها می توانند یکی از این روش ها را بر اساس سیاست های پایداری خود برای ردیابی و مقایسه انتشار سال به سال انتخاب کنند. آمازون از مدل مبتنی بر بازار برای گزارش انتشار گازهای گلخانه ای ما. برای کاهش ردپای کربن خود، منطقه ای را انتخاب کنید که در آن، در سال 2022، برق مصرفی 100٪ به انرژی تجدیدپذیر نسبت داده شود.
داده های خود و چرخه عمر آن را به طور موثر مدیریت کنید
داده ها نقش کلیدی در راه حل IDP شما ایفا می کنند. با شروع مصرف داده های اولیه، داده ها در مراحل مختلف پردازش قرار می گیرند و در نهایت به عنوان خروجی به کاربران نهایی بازگردانده می شوند. درک اینکه چگونه انتخاب های مدیریت داده بر راه حل کلی IDP و پایداری آن تأثیر می گذارد، مهم است. ذخیره سازی و دسترسی کارآمد به داده ها، علاوه بر کاهش منابع ذخیره سازی بیکار، منجر به معماری کارآمدتر و پایدارتر می شود. هنگام در نظر گرفتن مکانیسم های مختلف ذخیره سازی، به یاد داشته باشید که بین کارایی منابع، تأخیر دسترسی و قابلیت اطمینان معاوضه هایی ایجاد می کنید. این بدان معناست که شما باید الگوی مدیریتی خود را بر این اساس انتخاب کنید. در این بخش، برخی از بهترین روشها برای مدیریت دادهها را مورد بحث قرار میدهیم.
فقط داده های مرتبط ایجاد و مصرف کنید
برای بهینهسازی ردپای ذخیرهسازی خود برای پایداری، ارزیابی کنید که چه دادههایی برای دستیابی به اهداف کسبوکارتان مورد نیاز است و تنها دادههای مرتبط را در طول گردش کار IDP خود ایجاد و دریافت کنید.
فقط داده های مرتبط را ذخیره کنید
هنگام طراحی گردش کار IDP خود، برای هر مرحله از گردش کار خود در نظر بگیرید که کدام خروجی داده میانی باید ذخیره شود. در اکثر گردشهای کاری IDP، نیازی به ذخیره دادههای استفاده شده یا ایجاد شده در هر مرحله میانی نیست، زیرا میتوان آنها را به راحتی بازتولید کرد. برای بهبود پایداری، فقط داده هایی را ذخیره کنید که به راحتی قابل تکرار نیستند. اگر نیاز به ذخیره نتایج متوسط دارید، در نظر بگیرید که آیا آنها واجد شرایط یک قانون چرخه حیات هستند که آنها را سریعتر از داده هایی با الزامات نگهداری سخت گیرانه بایگانی و حذف می کند.
داده ها را در محیط های محاسباتی مانند توسعه و مرحله بندی حفظ کنید. پیاده سازی مکانیسم هایی برای اجرای فرآیند مدیریت چرخه عمر داده ها از جمله بایگانی و حذف و شناسایی مداوم داده های استفاده نشده و حذف آنها.
برای بهینهسازی دریافت و ذخیره دادههای خود، وضوح داده بهینه را در نظر بگیرید که مورد استفاده را برآورده میکند. متن آمازون به حداقل 150 DPI نیاز دارد. اگر سند شما در قالب آمازون متن پشتیبانی شده (PDF، TIFF، JPEG و PNG) نیست و باید آن را تبدیل کنید، به جای انتخاب حداکثر وضوح، برای یافتن وضوح بهینه برای بهترین نتایج آزمایش کنید.
از فناوری مناسب برای ذخیره داده ها استفاده کنید
برای گردش کار IDP، بیشتر داده ها احتمالا اسناد هستند. سرویس ذخیره سازی ساده آمازون (Amazon S3) یک ذخیرهسازی شی است که برای ذخیره و بازیابی هر مقدار داده از هر نقطه ساخته شده است، که آن را برای گردشهای کاری IDP مناسب میکند. استفاده از سطوح مختلف ذخیره سازی آمازون S3 یک جزء کلیدی است بهینه سازی ذخیره سازی برای پایداری.
هنگام در نظر گرفتن مکانیسم های مختلف ذخیره سازی، به یاد داشته باشید که بین کارایی منابع، تأخیر دسترسی و قابلیت اطمینان، معاوضه هایی ایجاد می کنید. این بدان معناست که شما باید الگوی مدیریتی خود را بر این اساس انتخاب کنید. با ذخیره دادههای فرار کمتر در فناوریهایی که برای ذخیرهسازی طولانیمدت کارآمد طراحی شدهاند، میتوانید فضای ذخیرهسازی خود را بهینه کنید. برای بایگانی داده ها یا ذخیره داده هایی که به کندی تغییر می کنند، یخچال طبیعی آمازون S3 و Amazon S3 Glacier Deep Archive در دسترس هستند. بسته به طبقهبندی دادهها و گردش کار، میتوانید Amazon S3 One Zone-IA را انتخاب کنید که با ذخیره دادهها در یک منطقه در دسترس، توان و ظرفیت سرور را کاهش میدهد.
چرخه عمر داده های خود را با توجه به اهداف پایداری خود به طور فعال مدیریت کنید
مدیریت چرخه عمر داده به معنای بهینه سازی فضای ذخیره سازی شماست. برای گردش کار IDP، ابتدا الزامات نگهداری داده های خود را مشخص کنید. بر اساس نیازهای نگهداری خود، ایجاد کنید تنظیمات چرخه حیات آمازون S3 که به طور خودکار اشیاء را بر اساس قوانین از پیش تعریف شده شما به یک کلاس ذخیره سازی متفاوت منتقل می کند. برای دادههای بدون نیاز به نگهداری و الگوهای دسترسی ناشناخته یا در حال تغییر، از آن استفاده کنید آمازون S3 Intelligent-Tiering برای نظارت بر الگوهای دسترسی و جابجایی خودکار اشیا بین طبقات.
با استفاده از ابزارهای مناسب، به طور مداوم فضای ذخیره سازی خود را بهینه کنید
با گذشت زمان، استفاده از داده و الگوی دسترسی در گردش کار IDP شما ممکن است تغییر کند. ابزارهایی مانند لنز ذخیره سازی آمازون S3 امکان مشاهده روند استفاده و فعالیت فضای ذخیره سازی را فراهم می کند و حتی توصیه هایی برای بهبود ارائه می دهد. شما می توانید از این اطلاعات برای کاهش بیشتر اثرات زیست محیطی ذخیره سازی داده ها استفاده کنید.
داده ها را فعال کنید و مجاورت را محاسبه کنید
همانطور که گردش کار IDP خود را در دسترس مشتریان بیشتری قرار می دهید، میزان داده هایی که از طریق شبکه منتقل می شوند افزایش می یابد. به طور مشابه، هرچه اندازه داده بزرگتر باشد و فاصله یک بسته بیشتر باشد، منابع بیشتری برای انتقال آن مورد نیاز است.
کاهش حجم داده های ارسال شده از طریق شبکه و بهینه سازی مسیری که یک بسته طی می کند منجر به انتقال کارآمدتر داده می شود. راه اندازی ذخیره سازی داده نزدیک به پردازش داده ها به بهینه سازی پایداری در لایه شبکه کمک می کند. اطمینان حاصل کنید که منطقه مورد استفاده برای ذخیره داده ها همان منطقه ای است که گردش کار IDP خود را در آن مستقر کرده اید. این رویکرد کمک می کند تا زمان و هزینه انتقال داده ها به محیط محاسباتی به حداقل برسد.
برای بهبود مستمر آماده باشید و آن را هدایت کنید
بهبود پایداری برای گردش کار IDP شما یک فرآیند مستمر است که برای پشتیبانی از پیشرفتهای کوچکتر و مکرر به معماریهای انعطافپذیر و اتوماسیون نیاز دارد. هنگامی که معماری شما به طور ضعیفی جفت شده است و از سرویس های بدون سرور و مدیریت شده استفاده می کند، می توانید ویژگی های جدید را بدون مشکل فعال کنید و برای بهبود پایداری و به دست آوردن کارایی عملکرد، اجزای سازنده را جایگزین کنید. در این بخش، برخی از بهترین شیوه ها را به اشتراک می گذاریم.
بهبود ایمن و مداوم از طریق اتوماسیون
استفاده از اتوماسیون برای به کارگیری همه تغییرات، احتمال خطای انسانی را کاهش میدهد و به شما امکان میدهد قبل از انجام تغییرات تولید، آزمایش کنید تا از کامل بودن برنامههای خود اطمینان حاصل کنید. فرآیند تحویل نرم افزار خود را با استفاده از خطوط لوله یکپارچه سازی و تحویل پیوسته (CI/CD) برای آزمایش و استقرار بهبودهای بالقوه برای کاهش تلاش و محدود کردن خطاهای ناشی از فرآیندهای دستی، خودکار کنید. تعریف تغییرات با استفاده از زیرساخت به عنوان کد (IaC): تمام تنظیمات باید به صورت اعلامی تعریف شده و در یک سیستم کنترل منبع ذخیره شوند. AWS CodeCommit، درست مانند کد برنامه. تأمین زیرساخت، هماهنگسازی و استقرار نیز باید از IaC پشتیبانی کند.
از خدمات بدون سرور برای هماهنگی گردش کار استفاده کنید
گردشهای کاری IDP معمولاً با اوجهای بالا و دورههای عدم فعالیت (مانند خارج از ساعات کاری) مشخص میشوند و عمدتاً توسط رویدادها هدایت میشوند (مثلاً زمانی که یک سند جدید بارگذاری میشود). این باعث می شود آنها برای راه حل های بدون سرور مناسب باشند. سرویسهای بدون سرور AWS میتوانند به شما در ایجاد یک راهحل مقیاسپذیر برای گردشهای کاری IDP به سرعت و پایدار کمک کنند. خدماتی مانند AWS لامبدا, توابع مرحله AWSو پل رویداد آمازون به سازماندهی گردش کار خود بر اساس رویدادها کمک کنید و منابع بیکار را برای بهبود پایداری به حداقل برسانید.
از معماری رویداد محور استفاده کنید
استفاده از سرویسهای بدون سرور AWS برای پیادهسازی رویکرد رویداد محور به شما امکان ساختن میدهد گردش کار IDP مقیاس پذیر و مقاوم در برابر خطا و منابع بیکار را به حداقل برسانید.
به عنوان مثال، می توانید آمازون S3 را برای شروع یک گردش کار جدید هنگام آپلود یک سند جدید پیکربندی کنید. آمازون S3 میتواند EventBridge را راهاندازی کند یا با یک تابع Lambda تماس بگیرد تا کار تشخیص متن Amazon را شروع کند. شما می توانید استفاده کنید سرویس اطلاع رسانی ساده آمازون موضوعات (Amazon SNS) برای نمایش رویداد یا ارسال پیام های تکمیل کار. شما می توانید استفاده کنید سرویس صف ساده آمازون (Amazon SQS) برای ارتباط مطمئن و بادوام بین میکروسرویسها، مانند فراخوانی یک تابع Lambda برای خواندن خروجی Amazon Texttract و سپس فراخوانی یک طبقهبندی کننده سفارشی Amazon Comprehend برای طبقهبندی یک سند.
از سرویس های مدیریت شده مانند Amazon Texttract و Amazon Comprehend استفاده کنید
شما می توانید IDP را با استفاده از یک مدل سفارشی خود میزبان یا خدمات مدیریت شده مانند Amazon Texttract و Amazon Comprehend انجام دهید. با استفاده از خدمات مدیریت شده به جای مدل سفارشی خود، می توانید تلاش لازم برای توسعه، آموزش و بازآموزی مدل سفارشی خود را کاهش دهید. خدمات مدیریت شده از منابع مشترک استفاده می کنند، انرژی مورد نیاز برای ایجاد و حفظ راه حل IDP را کاهش می دهند و پایداری را بهبود می بخشند.
پست های وبلاگ AWS را مرور کنید تا از به روز رسانی ویژگی ها مطلع شوید
چندین پست وبلاگ و منابع در دسترس وجود دارد که به شما کمک میکند تا از اطلاعیههای AWS مطلع شوید و در مورد ویژگیهای جدیدی که ممکن است حجم کاری IDP شما را بهبود بخشد، بیاموزید.
AWS re: Post یک سرویس پرسش و پاسخ جامعه محور است که برای کمک به مشتریان AWS برای رفع موانع فنی، تسریع نوآوری و بهبود عملیات طراحی شده است. AWS re:Post بیش از 40 موضوع دارد، از جمله انجمنی که به AWS Well-Architected اختصاص داده شده است. AWS همچنین دارای وبلاگ های خدماتی خاص برای کمک به شما است برای متن آمازون به روز باشید و درک آمازون.
نتیجه
در این پست، ما اصول طراحی، مناطق تمرکز، و بهترین روش ها برای بهینه سازی پایداری در گردش کار IDP شما را به اشتراک گذاشتیم. برای کسب اطلاعات بیشتر در مورد پایداری در فضای ابری، به سری زیر مراجعه کنید بهینه سازی زیرساخت AWS برای پایداری، بخش اول: محاسبه, بخش دوم: ذخیره سازیو بخش سوم: شبکه سازی.
AWS متعهد به IDP Well-Architected Lens به عنوان یک ابزار زنده است. همانطور که راهحلهای IDP و خدمات مرتبط با هوش مصنوعی AWS تکامل مییابند، و با در دسترس قرار گرفتن سرویسهای جدید AWS، لنز با معماری خوب IDP را بهروزرسانی میکنیم.
برای شروع کار با IDP در AWS، مراجعه کنید راهنمای پردازش اسناد هوشمند در AWS برای طراحی و ساخت اپلیکیشن IDP خود. برای بررسی عمیقتر راهحلهای انتها به انتها که شامل مصرف داده، طبقهبندی، استخراج، غنیسازی، تأیید و اعتبارسنجی و مصرف میشود، به پردازش هوشمند اسناد با خدمات AWS AI: قسمت 1 و قسمت 2. علاوه بر این، پردازش هوشمند اسناد با Amazon Textract، Amazon Bedrock و LangChain نحوه گسترش معماری جدید یا موجود IDP با مدل های زبان بزرگ (LLM) را پوشش می دهد. شما یاد خواهید گرفت که چگونه می توانید متن آمازون را با آن یکپارچه کنید LangChain به عنوان بارکننده سند، استفاده کنید بستر آمازون برای استخراج داده ها از اسناد و استفاده از قابلیت های هوش مصنوعی در مراحل مختلف IDP.
اگر به راهنمایی متخصص بیشتری نیاز دارید، با تیم حساب AWS خود تماس بگیرید تا معمار راه حل های متخصص IDP را درگیر کند.
درباره نویسنده
کریستین دنیچ مدیر راه حل های جهانی مشتری در AWS است. او علاقه زیادی به خودرو، هوش مصنوعی/ML و بهره وری توسعه دهندگان دارد. او از برخی از بزرگترین برندهای خودروی جهان در سفر ابری خود پشتیبانی می کند که شامل استراتژی های ابری و تجاری و همچنین فناوری می شود. کریستین قبل از پیوستن به AWS در گروه BMW در توسعه سخت افزار و نرم افزار در پروژه های مختلف از جمله ناوبری متصل کار می کرد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/build-well-architected-idp-solutions-with-a-custom-lens-part-6-sustainability/