Trí thông minh dữ liệu tạo

Cách dễ dàng trích xuất dữ liệu từ phiếu lương bằng cách học sâu

Ngày:

Làm thế nào để OCR phiếu thanh toán? Blog này là tổng quan toàn diện về các phương pháp trích xuất văn bản có cấu trúc khác nhau bằng cách sử dụng OCR từ phiếu lương để tự động hóa việc nhập dữ liệu thủ công.

Phiếu lương hoặc cuống phiếu lương như chúng được biết đến phổ biến hơn là một hình thức xác minh thu nhập phổ biến được người cho vay sử dụng để kiểm tra mức độ xứng đáng về tín dụng của bạn. Nếu bạn là một nhân viên đang làm việc hoặc đã từng làm việc trong quá khứ, chắc chắn bạn đã bắt gặp một nhân viên như vậy. Thông thường, các phiếu lương này chứa các chi tiết như thu nhập của nhân viên trong một thời gian cụ thể bao gồm các lĩnh vực khác như khấu trừ thuế, số tiền bảo hiểm, số an sinh xã hội, v.v. Chúng có thể ở định dạng giấy hoặc kỹ thuật số và đôi khi được gửi qua email hoặc đăng.

Hiện tại, những người cho vay nhận các bản PDF được quét hoặc kỹ thuật số của các phiếu lương này và nhập thủ công các chi tiết từ đó vào hệ thống của họ để phát hành khoản vay. Quá trình này tốn nhiều thời gian, đặc biệt là trong các mùa cao điểm, dẫn đến thời gian từ khi đăng ký khoản vay đến khi giải ngân vốn mất nhiều thời gian. Điều gì sẽ xảy ra nếu bạn có thể cạo PDF phiên bản của các phiếu lương này và giảm thời gian này xuống còn vài giây để xử lý khoản vay nhanh hơn nhằm làm hài lòng khách hàng của bạn?

Trong blog này, chúng tôi sẽ xem xét các cách khác nhau về cách một người có thể tự động trích xuất thông tin phiếu lương (Phiếu lương OCR hoặc Phiếu lương trích xuất PDF) và lưu chúng dưới dạng dữ liệu có cấu trúc bằng Nhận dạng ký tự quang học (OCR). Hơn nữa, chúng ta sẽ thảo luận về những thách thức thường xuyên gặp phải khi xây dựng một OCR chính xác được tích hợp với các mô hình học máy và học sâu. Dưới đây là mục lục.

Trong phần này, chúng ta sẽ thảo luận về cách chúng ta có thể sử dụng thuật toán dựa trên OCR để trích xuất thông tin từ phiếu lương. Nếu bạn không biết về OCR, hãy coi nó như một thuật toán máy tính có thể đọc hình ảnh của văn bản được đánh máy hoặc viết tay thành định dạng văn bản. Ngoài kia, có các công cụ mã nguồn mở và miễn phí khác nhau trên GitHub như Tesseract, Ocropus, Kraken, nhưng có một số hạn chế nhất định. Ví dụ, Tesseract rất chính xác trong việc trích xuất văn bản có tổ chức, nhưng nó không hoạt động tốt trên dữ liệu phi cấu trúc. Tương tự như vậy, các công cụ OCR khác có một số hạn chế dựa trên phông chữ, ngôn ngữ, căn chỉnh, mẫu, v.v. Bây giờ, quay lại vấn đề trích xuất thông tin từ Phiếu lương, một OCR lý tưởng sẽ có thể lấy tất cả các trường thiết yếu, bất kể nhược điểm đã thảo luận ở trên. Bây giờ, trước khi thiết lập OCR, hãy xem các trường tiêu chuẩn mà chúng ta cần trích xuất từ ​​tài liệu Phiếu lương.

  • Lương ròng
  • Tổng lương
  • tài khoản ngân hàng
  • Tên nhà tuyển dụng
  • Địa chỉ nhân viên
  • Tên nhân viên
  • Số nhân viên
  • địa chỉ nhân viên
  • kỳ lương
  • Ngày tháng năm sinh
  • Ngày làm việc
  • Số giờ làm việc
  • Ngày dịch vụ vào/ra
  • Tỷ lệ theo giờ
  • Thuế suất
  • Ngày phát hành

Trước khi chúng tôi thiết lập OCR và xem xét kết quả đầu ra, chúng tôi phải nhận ra rằng OCR không biết loại tài liệu nào chúng tôi cung cấp cho họ để trích xuất, họ xác định văn bản một cách mù quáng và trả lại chúng bất kể trường hoặc số nhận dạng được đề cập ở trên. Bây giờ, chúng ta sẽ sử dụng Tesseract, một công cụ OCR mã nguồn mở và miễn phí của Google. Để tìm hiểu thêm về cách định cấu hình điều này trên hệ thống của bạn và phát triển tập lệnh python cho hình ảnh được quét, hãy xem hướng dẫn của chúng tôi về Tesseract tại đây.

Hình ảnh bên trái: Phiếu lương, Hình ảnh bên phải: Văn bản được trích xuất từ ​​phiếu lương bằng Tesseract

Như chúng ta có thể thấy rõ ràng, Tesseract đã xác định tất cả văn bản trong hình ảnh nhất định, bất kể bảng, vị trí và căn chỉnh của văn bản và in nó ra một cách chính xác. Nhưng phải mất rất nhiều công đoạn hậu xử lý để chọn ra tất cả các trường quan trọng và sắp xếp chúng theo một cách có cấu trúc. Ví dụ, giả sử bạn chỉ cần trích tiền thuế đã khấu trừ cho một nhân viên, thì một mình Tesseract không thể làm được. Đây là lúc các mô hình học máy và học sâu xuất hiện để xác định vị trí của các trường một cách thông minh và trích xuất các giá trị cần thiết. Chúng tôi gọi đây là trích xuất cặp khóa-giá trị, hãy thảo luận về cách chúng tôi có thể đạt được điều này trong các phần tiếp theo.

Hạn chế và thách thức

Trong khi quét phiếu thanh toán, chúng tôi gặp phải các vấn đề khác nhau như chụp sai góc hoặc điều kiện ánh sáng mờ. Ngoài ra, sau khi chúng được chụp, điều quan trọng không kém là kiểm tra xem chúng là bản gốc hay giả mạo. Trong phần này, chúng ta sẽ thảo luận về những thách thức quan trọng này và cách giải quyết chúng.

Quét không đúng cách

Đó là vấn đề phổ biến nhất khi thực hiện OCR. Đối với hình ảnh được quét và căn chỉnh chất lượng cao, OCR có độ chính xác cao trong việc tạo ra văn bản có thể chỉnh sửa hoàn toàn có thể tìm kiếm được. Tuy nhiên, khi bản quét bị biến dạng hoặc khi văn bản bị mờ, các công cụ OCR có thể gặp khó khăn khi đọc bản quét đó, đôi khi tạo ra kết quả không chính xác. Để khắc phục điều này, chúng ta phải làm quen với các kỹ thuật như biến đổi hình ảnh và khử nghiêng, giúp chúng ta căn chỉnh hình ảnh ở vị trí thích hợp.

Kiểm tra gian lận & hình ảnh mờ

Điều quan trọng đối với các công ty và nhân viên là kiểm tra xem phiếu lương có xác thực hay không. Đây là một số đặc điểm có thể giúp chúng ta kiểm tra xem hình ảnh có phải là giả hay không.

  • Xác định nền cho các bộ phận bị cong hoặc méo.
  • Cẩn thận với hình ảnh chất lượng thấp.
  • Kiểm tra văn bản bị mờ hoặc đã chỉnh sửa.

Một thuật toán quen thuộc để vượt qua nhiệm vụ này là "Phương sai của Laplacian." Nó giúp chúng tôi tìm và kiểm tra sự phân bố của tần số thấp và cao trong hình ảnh đã cho.

Như đã thảo luận ở trên, quá trình trích xuất khóa-giá trị sẽ tìm kiếm các khóa do người dùng xác định là văn bản tĩnh trên biểu mẫu, sau đó xác định các giá trị được liên kết với chúng. Để đạt được kỹ thuật này trước tiên người ta phải làm quen với Deep Learning. Chúng tôi cũng sẽ phải đảm bảo rằng các thuật toán học sâu này có thể áp dụng cho các mẫu khác nhau, vì trong cùng một thuật toán sẽ phù hợp với các tài liệu có định dạng khác. Sau khi thuật toán tìm thấy vị trí của các khóa và giá trị được yêu cầu, chúng tôi sẽ sử dụng OCR để trích xuất văn bản từ đó.

Đây là một ví dụ về cách tesseract trích xuất văn bản,

Phiếu lương mẫu

Sample Company LLC EARNINGS STATEMENT
2305 Gruene Lake Drive, Suite C New Braunfels, Texas
Hidalgo P. Swift XXX-XX-1234 12345 76612 01/08/19-01/14/19 0115/19
GROSS WAGES 24.25 40.00 970.00 FICA MED TAX 14.06 28.12
FICA SS TAX 60.14 120.28
FED TAX 117.68 235.36
1,940.00 383.76 1,556.24 970.00 191.88 778.12

Trong khi để trích xuất cặp giá trị khóa, chúng tôi sẽ có đầu ra JSON của các khóa và giá trị bắt buộc của phiếu lương đã cho. Dữ liệu JSON đầu ra có thể được lưu dưới dạng dữ liệu có cấu trúc vào trang tính excel, cơ sở dữ liệu và hệ thống CRM bằng cách sử dụng các tập lệnh tự động hóa đơn giản. Trong phần tiếp theo, chúng ta sẽ thảo luận về một số kỹ thuật học sâu để trích xuất cặp khóa-giá trị trên các tài liệu như Phiếu thanh toán.

Các mô hình Deep Learning cho phiếu lương IE

Có hai cách để khai thác thông tin bằng cách sử dụng học sâu, một cách xây dựng các thuật toán có thể học từ hình ảnh và cách kia từ văn bản.

Được rồi, bây giờ, hãy đi sâu vào tìm hiểu sâu và hiểu cách các thuật toán này xác định các cặp khóa-giá trị từ hình ảnh hoặc văn bản. Ngoài ra, đặc biệt đối với phiếu lương, điều cần thiết là phải trích xuất dữ liệu trong các bảng vì hầu hết các khoản thu nhập và khoản khấu trừ trong phiếu lương đều được đề cập ở định dạng bảng. Bây giờ, hãy xem xét một số kiến ​​trúc deep learning phổ biến dành cho tài liệu được quét.

Trong nghiên cứu, CUTIE (Học cách hiểu tài liệu với công cụ trích xuất thông tin văn bản phổ thông hợp lệ), Tiểu Huy Triệu đề xuất trích xuất thông tin quan trọng từ các tài liệu, chẳng hạn như biên nhận hoặc hóa đơn, và lưu giữ các văn bản thú vị thành dữ liệu có cấu trúc. Trọng tâm của nghiên cứu này là các mạng nơ-ron tích tụ, được áp dụng cho các văn bản. Ở đây, các văn bản được nhúng dưới dạng các tính năng với hàm ý ngữ nghĩa. Mô hình này được đào tạo trên 4, 484 biên lai được dán nhãn và đạt được độ chính xác trung bình lần lượt là 90.8%, 77.7% trên biên lai taxi và biên lai giải trí.

lưới BERT là một mô hình ngôn ngữ dựa trên học sâu phổ biến để hiểu các tài liệu chung và thực hiện các tác vụ trích xuất cặp khóa-giá trị. Mô hình này cũng sử dụng mạng nơ-ron tích tụ dựa trên phân đoạn phiên bản ngữ nghĩa để chạy suy luận. Nhìn chung, độ chính xác trung bình trên tiêu đề tài liệu và mục hàng đã chọn là 65.48%.

In DeepDeSRT, Schreiber và cộng sự. trình bày hệ thống end to end để hiểu bảng trong hình ảnh tài liệu. Hệ thống chứa hai mô hình tiếp theo để phát hiện bảng và trích xuất dữ liệu có cấu trúc trong các bảng được công nhận. Nó hoạt động tốt hơn các phương pháp hiện đại để phát hiện bảng và nhận dạng cấu trúc bằng cách đạt được các phép đo F1 lần lượt là 96.77% và 91.44% cho phát hiện bảng và nhận dạng cấu trúc. Các mô hình như thế này có thể được sử dụng để trích xuất các giá trị từ các bảng phiếu lương.

Đọc thêm


tại chỗ_img

Tin tức mới nhất

tại chỗ_img