@Article{, title={Fast Text Analysis Using Symbol Enumeration and Hashing Methodology التحليل السريع للبيانات باستخدام طرق التجزئة و ترقيم الرموز}, author={Safa S. Abdul-Jabbar صفا سامي عبد الجبار and Loay E. George لؤي ادور جورج}, journal={Iraqi Journal of Science المجلة العراقية للعلوم}, volume={58}, number={1B}, pages={345-354}, year={2017}, abstract={This paper is focusing on reducing the time for text processing operations by taking the advantage of enumerating each string using the multi hashing methodology. Text analysis is an important subject for any system that deals with strings (sequences of characters from an alphabet) and text processing (e.g., word-processor, text editor and other text manipulation systems). Many problems have been arisen when dealing with string operations which consist of an unfixed number of characters (e.g., the execution time); this due to the overhead embedded-operations (like, symbols matching and conversion operations). The execution time largely depends on the string characteristics; especially its length (i.e., the number of characters consisting the strings plus the number of words in the sentence). In other words, the variable length of strings is an obstacle to achieve processing uniformity when manipulating strings. Many of string matching algorithms were introduced in the literature to deal with fixed length of characters of each string. In this paper, some test results are provided for a number of string operations (such as, simple string matching, hashing indexing systems, stop-words collection and text extractions). To understand the advantage of the proposed method, these operations were applied on different sizes of text files. A comparison is made with the results of using traditional methods that deal with strings only. The overall results demonstrate the positive effectiveness of the proposed approach.

يركز هذا البحث على تقليل الوقت المستغرق في عمليات معالجة النصوص عن طريق الاستفادة من عمليات ترقيم سلاسل الحروف “Strings” باستخدام نظام التجزئة المتعدد. حيث يعتبر تحليل النصوص من المواضيع المهمة لاي نظام يتعامل مع سلاسل الحروف (وهي سلسلة من الحروف المعتمدة من اي لغة) وبرامج معالجة النصوص (مثل برنامج معالجة الكلمات, برنامج تحرير النصوص وغيرها من الانظمة الخاصة بسلاسل الحروف). عند التعامل مع العمليات الخاصة بسلاسل الحروف ذات الطول الغير ثابت تظهر العديد من المشاكل (مثل وقت التنفيذ) بسبب العمليات الضمنية التي تحدث داخل المعالج (مثل مطابقة الرموز ,وعمليات التحويل). ويعتمد وقت التنفيذ بشكل كبير على خصائص سلاسل الحروف وبالاخص طول السلسلة (عدد الاحرف المكونة للسلسلة بالاضافة الى عدد الكلمات في الجملة). وبعبارة اخرى فان الطول المتغير للسلاسل يشكل عائقاً لتحقيق التوحيد لطرق معالجة النصوص. في الدراسات السابقة تم تقديم عدد من الخوارزميات الخاصة بمطابقة السلاسل التي تتعامل مع عدد ثابت من الحروف لكل سلسلة. في هذا البحث تم توفير بعض من نتائج الاختبارت لعدد من العمليات الخاصة بسلاسل الحروف (مثل عمليات المطابقة البسيطة, انظمة الفهرسة باستخدام التجزئة ,جمع واستخراج كلمات التوقف”Stop-words” ). ولتوضيح فائدة الطريقة المقترحة تم تطبيق هذه العمليات على احجام مختلفة من الملفات النصية, واجراء مقارنة للنتائج التي تم الحصول عليها مع نتائج الطرق التقليدية التي تتعامل مع السلاسل النصية فقط . حيث اظهرت النتائج بشكل عام فعالية ايجابية لهذه الطرق المقترحة.} }