research centers


Search results: Found 1

Listing 1 - 1 of 1
Sort by

Article
PDF Web Documents Categorization Using Association Rules Mining

Author: Fadhil Hannoon Abbood
Journal: Iraqi Journal of Information Technology المجلة العراقية لتكنولوجيا المعلومات ISSN: 19948638/26640600 Year: 2014 Volume: 6 Issue: 4 اللغة الانكليزية Pages: 125-139
Publisher: iraqi association of information الجمعية العراقية لتكنولوجيا المعلومات

Loading...
Loading...
Abstract

Documents categorization aims to mapping text documents into one or more predefined class based on its contents. This problem has recently attracted many scholars in the web mining and machine learning communities since the numbers of online documents that hold useful information for decision makers, are numerous. This paper investigates the method of classifying PDF Web documents using association rule mining. The number of PDF documents is collected and analyzed, to detect vital and essential features. Ranks values are suggested for these features. A Mutual Meaning Unify (MMU) technique is proposed for increasing the accuracy of documents representations. To reduce the document vector space, stop words are removed. To reduce the documents terms, a stemming algorithm is using. Because the large number of generated rules, a pruning process is proposed to keep on only the highly distinguishing rules. The resulting rules which construct the classifier are used for categorization process. As a result, the classifier is accurate and operates well, it has accuracy about (97%) and the error rate (3%).

إن تقنية إستكشاف قواعد الإرتباط أُستخدمت لإستخلاص الخصائص وقواعد التصنيف بإستخدام مجموعة من الوثائق المعدة مسبقاً والمعروف أصنافها. لتحقيق أهداف هذا البحث في عملية تصنيف وثائق الويب، تم اعتبار المشكلة من أربعة مهام أساسية وهي، إستخلاص النصوص، إعادة معالجة و تمثيل الوثائق، تكوين المصنف وأخيراً تقييم هذا المصنف. تم جمع عدد من ملفات الوثائق المحمولة وتحليلها لإكتشاف عدد من الخصائص الأساسية والمهمة. نتيجة التحليل أدت إلى أن بعض الخصائص الظاهرية يمكن أن تؤثر بشكل كبير جداً على عملية التصنيف وتحسينه. لذلك، تم تكرارها بعدد معين ضمن النصوص. ولغرض زيادة الدقة في البيانات تم تقديم طريقة الكلمات التبادلية التي لها معنى واحد. قائمة من الكلمات غير الضرورية تم جمعها لغرض حذفها. ومن المعروف أن الكثير من كلمات اللغة الانكليزية تحوي ذيل فوضعت خوارزمية لمعالجة ذلك. تم تشذيب القواعد التي لا تحقق بعض الشروط والمتبقي منها أُستخدم في عملية التصنيف. تم استخدام مقاييس لقياس دقة المصنف، فتبين أن للمصنف دقة عالية جداً وصلت 97% ونسبة خطأ بلغت3%.

Listing 1 - 1 of 1
Sort by
Narrow your search

Resource type

article (1)


Language

English (1)


Year
From To Submit

2014 (1)