Fulltext

Characters Recognition based on Geometrical Features

Anwar Hassan Mahdy

Iraqi Journal of Information Technology المجلة العراقية لتكنولوجيا المعلومات
ISSN: 19948638/26640600 Year: 2014 Volume: 6 Issue: 2 اللغة الانكليزية Pages: 1-12
Publisher: iraqi association of information الجمعية العراقية لتكنولوجيا المعلومات

Abstract

Character recognition is one of the important subjects in the field of Document Analysis and Recognition (DAR). The general objective of DAR research is to fully automate the process of entering and understanding printed or handwritten data into the computer. The proposed pattern recognition system consists of two-stage process. The first stage is feature extraction and the second stage is classification. Feature extraction is the measurement on a population of entities that will be used in recognition process. This assists the recognition stage by looking for features that allows fairly easy to distinguish between the different classes. Several different features have been used for recognition process. The set of proposed features that are used makes up a feature vector. These set of features are: the first feature is represented the number of character pixels (the summation of pixels), the second features is represented the width of each character in pixels, and the third feature represented the height of each character in pixels. Finally, Pattern recognition system classifies each member of the population on the basis of information contained in the feature vector. The results show that the suggested features gives higher accuracy in text and character recognition.

التعرف على الحروف هو احد الموضوعات المهمة جدا في مجال تحليل وتمييز الوثائق. الهدف العام من تحليل الوثائق بعملية السيطرة الحاسوبية هو إدخال وفهم البيانات المطبوعة أو المكتوبة بخط اليد في الحاسوب.تمييز الحروف يمكن أن يتم على النص المطبوع أو النص المكتوب بخط اليد. القدرة على التعرف على الحروف المطبوعة أليا أو بطريقة شبه آلية هو تطبيق واضح في العديد من المجالات. وإن بناء خوارزمية التمييز بدقة 100 ٪ عادة ماتكون مستحيلة في عالمنا المليء بالضوضاء وأنماط الخطوط المختلفة، فمن المهم لتصميم خوارزميات التعرف على الحروف اخذ هذه الإخفاقات بنظر الاعتبار بحيث عندما تتم الأخطاء( لا محالة) ، فإنه على الأقل تكون مفهومة ومتوقعة للعاملين بهذا المجال. نظام تمييز الأنماط المقترح يتكون من مرحلتين . المرحلة الأولى هي استخلاص الخصائص والمرحلة الثانية هي عملية التصنيف والتمييز. استخلاص الخصائص أو السمات كقيم عددية تميز كل حرف عن غيره ولقد تم اعتماد ثلاث سمات أساسية هي : عدد نقاط الحرف, طول الحرف, وعرض الحرف بالبكسل. أما عملية التمييز فتمت بمقارنة سمات الحروف غير المعروفة مع السمات الرئيسية لكل حرف في قاعدة البيانات . ولقد تم الحصول على نتائج بدقة 100% في حالة الصور الخالية من الضوضاء والتشوهات.

Keywords

Text recognition --- Optical character recognition --- Feature extraction --- Pattern recognition --- Classification