Pre-Ocr Image Optimization by Reinforcement Learning

Tektunalı, Cihan

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11779/1195

Title:	Pre-Ocr Image Optimization by Reinforcement Learning
Other Titles:	Takviyeli öğrenme ile optik karakter tanıma öncesi görüntü ptimizasyonu
Authors:	Tektunalı, Cihan
Advisors:	Gökmen, Muhittin
Keywords:	OCR Accuracy Optimization Reinforcement Learning Q-table Learning Increasing Bulk Image OCR Accuracy Optik Karakter Tanıma Başarım Optimizasyonu Takviyeli Öğrenme Q-tablosu ile Öğrenme Çoklu Görüntülerin Optik Karakter Tanıma Başarımının Arttırılması
Publisher:	MEF Üniversitesi, Fen Bilimleri Enstitüsü
Source:	Tektunalı, C. (2018). Pre-ocr ımage optimization by reinforcement learning, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye
Abstract:	Optical Character Recognition technology usage in digital transformation of documents is steadily growing by the help of new hardware and software technologies. However digital image optimization for more accurate OCR results continues to be a problem. In this study, we propose a reinforcement learning based model that learns optimal set of actions to increase OCR accuracy in computer screenshot images. Model input images are identified by their grayscale histogram distributions. An unprocessed base image having 100% OCR accuracy is taken initially. The correlation between the grayscale histograms of base image and input image is used for comparison. We implemented reinforcement learning’s random (or optimal) action and reward approach for creating a Q-table. For measuring image to text conversion success, Tesseract OCR software is used. The introduced approach can improve OCR accuracy especially in bulk image to document conversion jobs. By using optimal actions for single image or bulk images, it can also decrease computational load and time-consumption in image processing. Metinsel dokümanların sayısal ortama aktarılmasında optik karakter tanıma teknolojisinin kullanımı donanım ve yazılım alanındaki gelişmelerin yardımıyla giderek artmaktadır. Bununla birlikte karakter tanımanın daha yüksek başarıyla yapılabilmesi için sayısal görüntü optimizasyonu bir problem olmaya devam etmektedir. Bu çalışmada bilgisayar ekran görüntülerinden karakter tanıma başarısının arttırılması için sayısal görüntü optimizasyonu yapan ve takviyeli öğrenme yöntemini kullanan bir model öne sürülmüştür. Modele girdi olarak verilen sayısal görüntülerin gri ton dağılımları görüntü durumlarını tanımlamak için kullanıldı. Ham haliyle tam başarılı karakter tanıma yapılabilen bir görüntü baz alındı. Verilen yeni görüntüler ile baz alınan görüntünün gri ton dağılımı arasındaki korelasyon değeri görüntüleri karşılaştırmak için kullanıldı. Takviyeli öğrenme ile uygulanan rastgele veya optimal aksiyon dizileri ve sonuç olarak elde edilen ödül değerleri kullanılarak Q-tablosu oluşturuldu. Görüntünün metne çevrilme başarısının ölçümü için Tesseract OCR yazılımı kullanıldı. Oluşturulan bu model ile özellikle sayısal ortama toplu aktarım işlemlerinde karakter tanıma verimi arttırılabilir. Ayrıca görüntü bazında veya tüm görüntü kümesinde optik karakter tanıma iyileştirmesi sağlayacak optimal aksiyonlar kullanılarak toplamdaki hesaplama yükünün ve görüntü işlemede kaybedilen zamanın azaltılması sağlanabilir.
URI:	https://hdl.handle.net/20.500.11779/1195
Appears in Collections:	FBE, Yüksek Lisans, Proje Koleksiyonu