Kecerdasan Data Generatif

Cara OCR PDF

Tanggal:

OCR (Optical Character Recognition) adalah terobosan baru bagi siapa saja yang bekerja dengan dokumen PDF. PDF terkenal sulit untuk diedit dan dicari. Saat Anda meng-OCR PDF, ini memastikan teks dipindai dan diekstraksi, sehingga dapat dicari, diedit, dan diakses sepenuhnya. 

Dalam panduan ini, kami akan membandingkan berbagai metode OCR-ing PDF untuk membantu Anda memilih metode terbaik yang sesuai dengan kebutuhan Anda. Kami akan membahas Adobe Acrobat, alat sumber terbuka, dan solusi yang didukung AI. Selain itu, kami akan menjawab pertanyaan umum seperti cara melakukan OCR PDF di Mac, membuat PDF OCR dapat dicari, dan berbagi tips untuk meningkatkan akurasi OCR.

Ikuti terus untuk mengubah alur kerja PDF Anda.

1. Menggunakan Adobe Acrobat Pro

Adobe Acrobat Pro dianggap sebagai standar emas untuk PDF OCR. Sebagai pemimpin industri dalam perangkat lunak PDF, Adobe mengemas Acrobat Pro dengan kemampuan OCR canggih yang dengan mudah menangani dokumen kompleks.

Anda dapat meng-OCR dokumen menggunakan Acrobat Pro dengan dua cara:

Metode 1

  1. Buka file PDF di Adobe Acrobat Pro.
  2. Klik "Semua Alat" di bilah alat.
  3. Sebuah menu akan muncul, mencantumkan semua alat yang tersedia. Klik pada "Edit PDF".
  4. Acrobat akan secara otomatis menerapkan OCR dan mengonversi teks.
  5. Dokumen tersebut sekarang dapat diedit dan dicari sepenuhnya. Ubah font atau tambahkan anotasi sesuai kebutuhan. Anda juga dapat mencari dokumen menggunakan alat Temukan.

Metode 2

  1. Buka Adobe Acrobat Pro. 
  2. Klik "Semua Alat" di bilah alat.
  3. Sebuah menu akan muncul, mencantumkan semua alat yang tersedia. Klik pada "Pindai dan OCR".
  4. Di alat Pindai dan OCR, pilih file PDF yang ingin Anda OCR atau pindai dokumen fisik secara langsung menggunakan pemindai yang terhubung.
  5. Klik "Tingkatkan" jika gambar perlu dibersihkan. Ini akan meningkatkan akurasi OCR. 
  6. Klik "Kenali Teks" untuk memulai proses OCR. Setelah selesai, PDF akan dapat dicari dan diedit. Anda sekarang dapat mengedit teks.

Keuntungan penting menggunakan Acrobat Pro adalah mesin OCR canggihnya, yang dapat menangani tata letak kompleks, dokumen multi-kolom, pemindaian resolusi rendah, dan teks tulisan tangan dengan akurasi tinggi. Ini tersedia di perangkat Windows, Mac, dan Android, dan Anda juga dapat mengakses fitur ini secara online. Selain itu, ini terhubung ke aplikasi Adobe Mobile Scan Anda, memungkinkan Anda memindai dokumen saat bepergian dan menyinkronkannya ke perpustakaan Acrobat Anda.

Namun, Anda harus menjadi pelanggan Acrobat Pro untuk mengakses kemampuan OCR. Langganan dihargai US$19.99/bln. Selain itu, meskipun memungkinkan Anda mengunggah banyak file, Anda harus melakukan OCR setiap file satu per satu secara manual. Jadi, jika Anda memiliki banyak file untuk diproses, itu bisa jadi membosankan.

Alat OCR sumber terbuka seperti Tesseract menawarkan alternatif gratis untuk mengonversi PDF menjadi file yang dapat dicari dan diedit. Meskipun fitur-fiturnya tidak selengkap solusi komersial seperti Adobe Acrobat, mereka memberikan tingkat akurasi yang layak untuk sebagian besar kasus penggunaan. 

Tesseract tersedia untuk Windows, Mac, dan Linux. Anda harus menginstalnya terlebih dahulu di komputer Anda untuk menggunakannya. Setelah terinstal, Anda dapat mengikuti langkah-langkah berikut untuk OCR PDF:

  1. Buka file PDF di alat penampil atau editor seperti PDFelement. 
  2. Pilih area atau halaman yang ingin Anda OCR dan ambil tangkapan layar. Pangkas gambar jika perlu.
  3. Buka Terminal untuk mengakses Tesseract. Jika Tesseract tidak ditemukan di Terminal, edit jalur variabel lingkungan untuk mengarahkan ke direktori instalasi Tesseract.
  4. Salin jalur file gambar yang ingin Anda OCR. Misalnya: โ€œC:UsersJohnDoePicturesScreenshotsScreenshot 230844.pngโ€
  5. Masukkan perintah berikut di Terminal: โ€œC:UsersJohnDoePicturesScreenshots>tesseract Screenshot 230844.pngโ€. Ini akan menjalankan OCR pada gambar dan mengubah teks apa pun yang ditemukan menjadi format yang dapat diedit. 
  6. Setelah OCR selesai, Tesseract akan menghasilkan file yang berisi semua teks yang diekstraksi.
  7. Buka file ini di editor teks apa pun untuk melihat dan mengedit konten OCR. Anda juga dapat memasukkan perintah `โ€“help` untuk mendapatkan daftar lengkap opsi Tesseract jika diperlukan.

Keuntungan penting dari Tesseract adalah sepenuhnya gratis dan open source, sehingga Anda tidak perlu membayar biaya lisensi apa pun. Ini berfungsi dengan baik pada pemindaian bersih dan dokumen yang diketik. 

Namun, ia kesulitan dengan teks tulisan tangan, tata letak yang rumit, latar belakang berwarna, dan pemindaian resolusi rendah. Jika dokumen Anda bersih dan diketik, Tesseract menawarkan solusi gratis untuk kebutuhan dasar OCR. 

Anda dapat meningkatkan akurasi Tesseract dengan melakukan pra-pemrosesan pemindaian sebelum menjalankan OCR โ€” menyesuaikan kecerahan atau kontras, menerapkan filter, meningkatkan gambar, dan banyak lagi.

3. Menggunakan OCR PDF Nanonet

Nanonets adalah solusi pemrosesan dokumen bertenaga AI yang menawarkan kemampuan OCR tingkat lanjut. Tidak seperti Acrobat Pro atau Tesseract, Nanonets sepenuhnya online dan tidak memerlukan instalasi. Anda cukup mengunggah PDF Anda ke platform cloud mereka, dan platform tersebut segera mulai memprosesnya menggunakan algoritma OCR yang canggih. Ia bahkan dapat memproses seluruh folder dan ratusan PDF sekaligus.

Nanonet dapat menangani semuanya mulai dari dokumen yang diketik sederhana hingga tata letak kompleks dengan anotasi tulisan tangan, latar belakang berwarna, grafik, dan tabel, menggunakan model pembelajaran mendalam untuk mencapai akurasi tinggi pada semua jenis dokumen.

Berikut adalah cara kerjanya:

  1. Mengunjungi Nanonets.com dan buat akun gratis.
  2. Pilih model OCR dari berbagai model terlatih Nanonets untuk faktur, tanda terima, atau pesanan pembelian. Anda juga dapat membuat model kustom yang disesuaikan dengan tipe dokumen spesifik Anda.
  3. Unggah dokumen yang mewakili berbagai tata letak dan bidang data yang perlu Anda ekstrak. Nanonets akan menganalisis sampel ini untuk memahami struktur dokumen Anda.
  4. Tentukan bidang utama yang ingin Anda ambil, seperti tanggal, jumlah total, dan data tabel. Anda dapat mengambil data dalam hampir semua format, termasuk tabel, teks, JSON, atau XML. Nanonets akan secara otomatis mengekstrak data dari PDF Anda dan menampilkannya dalam format yang diperlukan.
  5. Setelah dikonfigurasi, unggah dokumen PDF Anda yang perlu di OCR. Nanonets akan memproses file menggunakan OCR canggih dan algoritma ekstraksi data cerdas untuk mengubahnya menjadi format yang dapat dicari dan diedit dengan keluaran data terstruktur. 
  6. Data yang diekstraksi diatur dengan rapi dan terstruktur agar Anda dapat menyerapnya langsung ke sistem bisnis lain tanpa upaya manual. Anda dapat mengekspornya sebagai JSON, XML, atau format khusus.

Nanonets menawarkan versi gratis dengan hingga 500 halaman pemrosesan sehingga Anda dapat mengujinya tanpa biaya. Setelah itu, biayanya $0.3 per halaman untuk OCR.

Tidak seperti solusi lain, Nanonets sangat skalabel. Ini dapat memproses ribuan halaman per jam, memastikan bahwa berapa pun volumenya, file Anda diproses hampir seketika.

Anda dapat menyiapkan webhook untuk mengalirkan data yang diproses ke aplikasi lain atau menggunakan API pengembang Nanonets untuk membangun integrasi khusus.

Cara meningkatkan proses PDF OCR

Teknologi OCR, bila diterapkan secara efektif, dapat menghemat waktu dan sumber daya Anda. Bayangkan bisa mengurangi waktu entri data per bidang sebesar 95%. Tim Anda dapat fokus pada tugas yang lebih bermakna dibandingkan entri data biasa.

Mari jelajahi tips untuk meningkatkan keakuratan dan efektivitas proses PDF OCR Anda:

1. Praproses pemindaian sebelum OCR

Jika Anda berurusan dengan dokumen yang dipindai, Anda dapat menyesuaikan kecerahan, kontras, dan ketajaman serta menerapkan filter atau teknik penyempurnaan gambar untuk mengurangi noise dan meningkatkan kejelasan. 

Ini akan meningkatkan akurasi OCR secara signifikan. Aplikasi Pemindai Adobe hadir dengan fitur peningkatan gambar bawaan. Anda juga dapat menggunakan alat seperti PaperScan dan NAPS2 untuk membersihkan pindaian. Setelah pengeditan ini, Anda dapat menyimpan gambar yang diedit sebagai PDF sebelum menjalankan OCR.

2. Siapkan alur kerja validasi dan hierarki persetujuan

Tingkatkan kualitas data dengan menyiapkan aturan validasi untuk data yang diekstraksi. Misalnya, jika nomor pesanan dalam dokumen tidak terdiri dari lima digit, maka secara otomatis ditolak atau ditandai untuk ditinjau secara manual. Dengan cara ini, Anda dapat mengetahui kesalahan ekstraksi dan hanya menyetujui data yang valid. Anda juga dapat mengintegrasikan sistem OCR Anda dengan database untuk memvalidasi data yang diekstraksi.

Anda dapat mengatur hierarki persetujuan di mana karyawan junior meninjau data terlebih dahulu, diikuti oleh karyawan senior untuk persetujuan akhir. Dengan notifikasi otomatis dan pembaruan status langsung, Anda dapat menjaga transparansi dan menghindari pengejaran persetujuan, sehingga pemrosesan dokumen menjadi lebih cepat.

3. Bangun alur kerja otomatis

Bayangkan menjalankan persewaan mobil dan dapat secara otomatis mengekspor data SIM pelanggan ke Salesforce atau mengirim data faktur ke QuickBooks tanpa pekerjaan manual apa pun. Tidak hanya akan mengoptimalkan PDF OCR Anda tetapi juga aktivitas hilir.

Mengintegrasikan solusi OCR Anda dengan aplikasi bisnis melalui API memungkinkan otomatisasi ini. Misalnya, dengan Nanonets, Anda cukup menyiapkan pemicu berdasarkan peristiwa seperti penyelesaian pemrosesan dokumen, ekstraksi data, atau pengunggahan file baru. Integrasi ini akan secara otomatis mengekspor data terstruktur dari Nanonets ke sistem bisnis yang diinginkanโ€”termasuk QuickBooks, Xero, Microsoft Dynamics, Zendesk, dan banyak lainnyaโ€”menghilangkan upaya manual dan memastikan aliran data yang lancar antar sistem.

4. Berinvestasi dalam OCR tingkat lanjut dengan kemampuan AI/ML

Berbeda dengan OCR berbasis aturan, model AI bersifat adaptif โ€” terus belajar dari koreksi yang dilakukan manusia dan terus meningkat seiring berjalannya waktu. Misalnya, Nanonets menawarkan model AI eksklusif yang dilatih pada jutaan dokumen, memungkinkannya menangani tata letak yang rumit dan menantang secara efisien.

OCR yang didukung AI memastikan Anda dapat mengekstrak informasi dari dokumen tanpa kehilangan konteks. Ini dapat menangani berbagai bahasa, moneter, hukum, atau unit pengukuran. Tingkat kecerdasan ini tidak mungkin dilakukan dengan ekstraksi berbasis templat atau berdasarkan aturan yang bergantung pada lokasi lapangan yang tepat.

5. Melatih model AI-OCR

Meskipun solusi OCR yang didukung AI hadir dengan model yang telah dilatih sebelumnya, melatih model tersebut lebih lanjut mengenai jenis dan tata letak dokumen spesifik Anda dapat lebih meningkatkan akurasi. Misalnya, Nanonets memungkinkan Anda mengunggah kumpulan sampel dokumen yang mewakili berbagai templat, format, dan bidang yang ingin Anda ambil.

Sampel ini membantu model memahami struktur dokumen Anda dan menyempurnakan proses PDF OCR. Anda juga dapat memberikan umpan balik dengan memperbaiki kesalahan ekstraksi yang diidentifikasi selama validasi. Pelatihan human-in-the-loop ini terus meningkatkan performa model AI.

6. Buat model OCR khusus bila diperlukan

Terkadang, model terlatih mungkin tidak mencakup semua kerumitan dalam dokumen Anda. Misalnya, Anda mungkin memiliki dokumen khusus industri dengan bidang dan format unik. Dalam kasus seperti itu, Anda dapat bekerja sama dengan vendor OCR untuk membuat model AI khusus yang dilatih secara khusus pada dokumen Anda. 

Dengan Nanonets, pengguna dapat membuat model kustom khusus untuk jenis dokumen dan bidang yang akan diekstraksi. Mereka dapat mengunggah dokumen sampel dan membubuhi keterangan dengan label yang ingin mereka ekstrak. AI kemudian belajar dari contoh-contoh ini dan dilatih untuk mengenali dan mengekstrak informasi tertentu. Sistem memerlukan setidaknya sepuluh contoh untuk setiap label untuk mencapai akurasi optimal, dan pengguna dapat memantau jumlah contoh untuk setiap label dan menambahkan lebih banyak sesuai kebutuhan.

Bagaimana memulai dengan Nanonets PDF OCR

Nanonets memudahkan untuk memulai dengan PDF OCR. Cukup daftar untuk mendapatkan akun gratis di situs web Nanonets. Anda tidak perlu memberikan kartu kredit. 

Berikut panduan untuk membantu Anda memulai:

  1. Daftar untuk mendapatkan akun gratis: Kunjungi Nanonets.com dan daftar untuk mendapatkan akun gratisโ€”tidak perlu kartu kredit.
  2. Buat atau pilih model: Anda dapat membuat model OCR khusus untuk jenis dokumen spesifik Anda atau memilih dari model terlatih Nanonets untuk faktur, kwitansi, dan lainnya.
  3. Siapkan impor otomatis: Meneruskan email atau menghubungkan penyimpanan cloud untuk mengimpor PDF baru ke Nanonets untuk pemrosesan OCR berkelanjutan secara otomatis.
  4. Unggah contoh dokumen: Unggah setidaknya 10 contoh dokumen yang mewakili berbagai templat, format, dan bidang data yang ingin Anda ekstrak. Ini akan membantu melatih model AI.
  5. Tentukan bidang yang akan diekstraksi: Cukup tentukan nama untuk bidang data penting yang ingin Anda ekstrak dari dokumen Anda, seperti Tanggal, Jumlah, Data Tabel, dll.
  6. Siapkan validasi: Konfigurasikan aturan untuk memvalidasi data yang diekstraksi dan menandai kesalahan apa pun untuk diperbaiki guna memastikan keakuratan.
  7. Proses file Anda: Unggah dokumen PDF Anda. Nanonet akan langsung memprosesnya dengan OCR dan ekstraksi data cerdas.
  8. Tinjau dan setujui data: Periksa data yang diekstraksi dan setujui entri yang valid. Pertahankan transparansi dengan pembaruan status.
  9. Ekspor data ke sistem bisnis: Setelah disetujui, ekspor data terstruktur dengan lancar ke ERP, akuntansi, CRM, atau sistem lainnya.
  10. Otomatisasi alur kerja: Menyiapkan pemicu untuk mengalirkan data ke aplikasi saat dokumen diproses atau data diekstraksi. Hapus upaya manual.

Secara keseluruhan, Nanonets membuat penambahan kemampuan OCR cerdas ke alur kerja dokumen Anda menjadi cepat dan mudah. Mesin AI yang belajar mandiri memberikan akurasi tinggi sejak awal sekaligus memungkinkan penyesuaian untuk menangani dokumen yang kompleks. Integrasi yang lancar dengan sistem bisnis memungkinkan otomatisasi menyeluruh yang sesungguhnya.

Membungkus

OCR cerdas dan ekstraksi data dapat membantu membuka nilai luar biasa dari alur kerja dokumen. Kuncinya adalah memilih solusi seperti Nanonets yang menawarkan OCR bertenaga AI sejak awal dan memungkinkan penyesuaian untuk kebutuhan spesifik. 

Dengan kemampuan layanan mandiri untuk membuat model kustom, akurasi dan otomatisasi terus meningkat seiring dengan perkembangan dokumen Anda. Pada akhirnya, hal ini memastikan Anda dapat menangani data tidak terstruktur dalam skala besar untuk mendorong produktivitas dan pertumbuhan.

tempat_img

Intelijen Terbaru

tempat_img