Penulis: Yagus Cahyadi, S.T., M. Eng.,Ph. D
"Berkenalan dengan teknologi Optical Character Recognition"
Pemilihan langsung presiden wakil presiden maupun wakil rakyat telah usai. Namun kehebohan berita terkait pengitungan suara hasil pemilu sampai hari ini masih memenuhi headline surat kabar nasional.
Yang tidak kalah menarik terkait berita pemilu, aplikasi SIREKAP.
Disadur dari website KPU, SIREKAP sejatinya aplikasi berbasis teknologi informasi yang di manfaatkan untuk membantu proses perhitungan maupun publikasi surat suara pemilu.
Ditulisan ini, penulis tidak akan membahas aplikasi SIREKAP. Tetapi bahasan penulis tentang salah satu teknologi yang ada di balik aplikasi SIREKAP. Salah satunya adalah teknologi Optical Character Recognition disingkat OCR.
Teknologi ini ide dasarnya sejak era tahun 1920-an. Di tahun 1950-an David Shepherd dan IBM mengembangakan mesin ORC untuk pertama kalinya yang dapat membaca huruf cetak pada dokumen. Kemudian teknologi ini popular digunakan di bidang perbankan untuk mengolah data cek dan dokumen keuangan.
OCR adalah teknologi di mana mesin atau komputer dapat mengidentifikasi karakter hasil printer maupun karakter tulisan tangan. Sederhananya mesin OCR mengubah gambar atau dokumen fisik menjadi karakter.
Prinsip kerja OCR
Secara umum mesin OCR dibagi menjadi beberapa bagian antara lain:
1) Proses pemindaian gambar atau dokumen.
Bagian ini berfungsi untuk mendapatkan gambar atau dokumen berisi teks. Dokumen dapat berupa formulir, surat atau gambar yang mengandung huruf/teks.
2) Pra-pemrosesan gambar.
Gambar hasil pemindaian kemudian ditingkatkan kualitasnya untuk mempermudah proses pembacaan karakter. Di bagian ini terjadi proses peningkatan kontras gambar, penghapusan noise dan normalisasi ukuran dari huruf/karakter.
3) Segmentasi.
Gambar di bagi menjadi beberapa bagian terutama yang ada bagian karakternya. Setiap blok kemudian diidentifikasi sebagai unit atau karakter.
4) Pengenalan karakter.
Proses utama dari mesin OCR adalah pembacaan karakter. Algoritma OCR menggunakan model pengenalan karakter yang telah di training untuk mengidentifikasi bentuk dan pola karakter dalam setiap blok. Terdapat beberapa cara untuk proses pengenalan karakter seperti metode berbasis pola, metode berbasis jaringan saraf tiruan dan metode berbasis statistik.
5) Koreksi hasil.
Setelah proses pengenalan karakter perlu adanya proses koreksi di mana hasil dari pembacaan OCR dibandingkan dengan kamus atau model bahasa untuk mengidentifikasi dan memperbaiki jika terjadi kesalahan dalam proses pembacaan karakter.
Hambatan dan kelemahan Teknologi OCR
Meskipun mengalami kemajuan pesat, teknologi OCR tidak luput dari beberapa tantangan. Penting untuk di catat bahwa unjuk kerja OCR dapat di pengaruhi oleh beberapa faktor antara lain: gambar asli (sumber), jenis karakter hasil cetak printer maupun karakter hasil tulisan tangan. Selain itu mesin OCR juga akan mengalami penurunan kinerja jika proses pindai menggunakan pencahayaan yang kurang maksimal.
Secara keseluruhan, teknologi OCR telah mengalami kemajuan yang sangat signifikan sejak pertama kali digulirkan. Dengan peningkatan teknologi kecerdasan buatan dan pengoptimalan teknologi machine learning, diharapkan kelemahan dari mesin OCR bisa diatasi sehingga teknologi OCR menjadi lebih akurat dan efisien kedepannya.