Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.11779/1195
Title: | Pre-Ocr Image Optimization by Reinforcement Learning | Other Titles: | Takviyeli öğrenme ile optik karakter tanıma öncesi görüntü ptimizasyonu | Authors: | Tektunalı, Cihan | Advisors: | Gökmen, Muhittin | Keywords: | OCR Accuracy Optimization Reinforcement Learning Q-table Learning Increasing Bulk Image OCR Accuracy Optik Karakter Tanıma Başarım Optimizasyonu Takviyeli Öğrenme Q-tablosu ile Öğrenme Çoklu Görüntülerin Optik Karakter Tanıma Başarımının Arttırılması |
Publisher: | MEF Üniversitesi, Fen Bilimleri Enstitüsü | Source: | Tektunalı, C. (2018). Pre-ocr ımage optimization by reinforcement learning, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye | Abstract: | Optical Character Recognition technology usage in digital transformation of documents is steadily growing by the help of new hardware and software technologies. However digital image optimization for more accurate OCR results continues to be a problem. In this study, we propose a reinforcement learning based model that learns optimal set of actions to increase OCR accuracy in computer screenshot images. Model input images are identified by their grayscale histogram distributions. An unprocessed base image having 100% OCR accuracy is taken initially. The correlation between the grayscale histograms of base image and input image is used for comparison. We implemented reinforcement learning’s random (or optimal) action and reward approach for creating a Q-table. For measuring image to text conversion success, Tesseract OCR software is used. The introduced approach can improve OCR accuracy especially in bulk image to document conversion jobs. By using optimal actions for single image or bulk images, it can also decrease computational load and time-consumption in image processing. Metinsel dokümanların sayısal ortama aktarılmasında optik karakter tanıma teknolojisinin kullanımı donanım ve yazılım alanındaki gelişmelerin yardımıyla giderek artmaktadır. Bununla birlikte karakter tanımanın daha yüksek başarıyla yapılabilmesi için sayısal görüntü optimizasyonu bir problem olmaya devam etmektedir. Bu çalışmada bilgisayar ekran görüntülerinden karakter tanıma başarısının arttırılması için sayısal görüntü optimizasyonu yapan ve takviyeli öğrenme yöntemini kullanan bir model öne sürülmüştür. Modele girdi olarak verilen sayısal görüntülerin gri ton dağılımları görüntü durumlarını tanımlamak için kullanıldı. Ham haliyle tam başarılı karakter tanıma yapılabilen bir görüntü baz alındı. Verilen yeni görüntüler ile baz alınan görüntünün gri ton dağılımı arasındaki korelasyon değeri görüntüleri karşılaştırmak için kullanıldı. Takviyeli öğrenme ile uygulanan rastgele veya optimal aksiyon dizileri ve sonuç olarak elde edilen ödül değerleri kullanılarak Q-tablosu oluşturuldu. Görüntünün metne çevrilme başarısının ölçümü için Tesseract OCR yazılımı kullanıldı. Oluşturulan bu model ile özellikle sayısal ortama toplu aktarım işlemlerinde karakter tanıma verimi arttırılabilir. Ayrıca görüntü bazında veya tüm görüntü kümesinde optik karakter tanıma iyileştirmesi sağlayacak optimal aksiyonlar kullanılarak toplamdaki hesaplama yükünün ve görüntü işlemede kaybedilen zamanın azaltılması sağlanabilir. |
URI: | https://hdl.handle.net/20.500.11779/1195 |
Appears in Collections: | FBE, Yüksek Lisans, Proje Koleksiyonu |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
CihanTektunalı.pdf | YL-Proje Dosyası | 676.83 kB | Adobe PDF | View/Open |
CORE Recommender
Page view(s)
50
checked on Nov 18, 2024
Download(s)
14
checked on Nov 18, 2024
Google ScholarTM
Check
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.