research centers


Search results: Found 3

Listing 1 - 3 of 3
Sort by

Article
PDF Web Documents Categorization Using Association Rules Mining

Author: Fadhil Hannoon Abbood
Journal: Iraqi Journal of Information Technology المجلة العراقية لتكنولوجيا المعلومات ISSN: 19948638/26640600 Year: 2014 Volume: 6 Issue: 4 اللغة الانكليزية Pages: 125-139
Publisher: iraqi association of information الجمعية العراقية لتكنولوجيا المعلومات

Loading...
Loading...
Abstract

Documents categorization aims to mapping text documents into one or more predefined class based on its contents. This problem has recently attracted many scholars in the web mining and machine learning communities since the numbers of online documents that hold useful information for decision makers, are numerous. This paper investigates the method of classifying PDF Web documents using association rule mining. The number of PDF documents is collected and analyzed, to detect vital and essential features. Ranks values are suggested for these features. A Mutual Meaning Unify (MMU) technique is proposed for increasing the accuracy of documents representations. To reduce the document vector space, stop words are removed. To reduce the documents terms, a stemming algorithm is using. Because the large number of generated rules, a pruning process is proposed to keep on only the highly distinguishing rules. The resulting rules which construct the classifier are used for categorization process. As a result, the classifier is accurate and operates well, it has accuracy about (97%) and the error rate (3%).

إن تقنية إستكشاف قواعد الإرتباط أُستخدمت لإستخلاص الخصائص وقواعد التصنيف بإستخدام مجموعة من الوثائق المعدة مسبقاً والمعروف أصنافها. لتحقيق أهداف هذا البحث في عملية تصنيف وثائق الويب، تم اعتبار المشكلة من أربعة مهام أساسية وهي، إستخلاص النصوص، إعادة معالجة و تمثيل الوثائق، تكوين المصنف وأخيراً تقييم هذا المصنف. تم جمع عدد من ملفات الوثائق المحمولة وتحليلها لإكتشاف عدد من الخصائص الأساسية والمهمة. نتيجة التحليل أدت إلى أن بعض الخصائص الظاهرية يمكن أن تؤثر بشكل كبير جداً على عملية التصنيف وتحسينه. لذلك، تم تكرارها بعدد معين ضمن النصوص. ولغرض زيادة الدقة في البيانات تم تقديم طريقة الكلمات التبادلية التي لها معنى واحد. قائمة من الكلمات غير الضرورية تم جمعها لغرض حذفها. ومن المعروف أن الكثير من كلمات اللغة الانكليزية تحوي ذيل فوضعت خوارزمية لمعالجة ذلك. تم تشذيب القواعد التي لا تحقق بعض الشروط والمتبقي منها أُستخدم في عملية التصنيف. تم استخدام مقاييس لقياس دقة المصنف، فتبين أن للمصنف دقة عالية جداً وصلت 97% ونسبة خطأ بلغت3%.


Article
Proposed Parallel Association Rules Algorithm
خوارزمية قواعد الارتباط المتوازية المقترحه

Authors: Emad kadhiem Jabbar --- Waheed Abd Al-Kadhiem Salman
Journal: Engineering and Technology Journal مجلة الهندسة والتكنولوجيا ISSN: 16816900 24120758 Year: 2014 Volume: 32 Issue: 1 Part (B) Scientific Pages: 157-168
Publisher: University of Technology الجامعة التكنولوجية

Loading...
Loading...
Abstract

Data mining is an advanced technique for extracting knowledge from a large amount of data for classification, prediction, estimation, clustering or association rules or any activities, which need decision. Mining for associations rules between items in large transactional distributed databases is a central problem in the field of knowledge discovery. When distributed databases are merged at single machine to mining knowledge it will require a large capacity of storage, long execution time in addition to transferring a huge volume of data over network might take extremely long time and also require an unbearable financial cost. In this paper an algorithm is presented toward saving communication cost over the network, central storage cost requirements, and accelerating required execution time. In this paper a new algorithm is proposed, called Proposed Parallel Association Rules Algorithm (PPARA) which aims to extract association rules from one record only for each site from distributed association rules in parallel instead of extracting association rules from huge quantity of distributed data at several sites in parallel, and that is through collecting the one record of local association rules from each site and storing it, these Local Association Rules turn in to produce global association rules over distributed systems in parallel.

تنقيب البيانات هو تقنيه متقدمه لانتزاع المعرفه من كميه ضخمه من البيانات, للتصنيف والتوقع والتخمين والتجميع او لقواعد الارتباط او أي نشاطات, التي تحتاج الى قرار. ان تنقيب قواعد الارتباط بين العناصر في قواعد البيانات الصفقه الكبيره هي مشكله مركزيه في حقل اكتشاف المعرفه. عندما قواعد البيانات الموزعه تدمج في ماكنه واحده لتنقيب المعرفه الذي سيتطلب سعه كبيره من الخزن, وقت تنفيذ طويل بالاضافه الى ذلك تحويل حجم ضخم من البيانات عبر الشبكه قد يستغرق وقت طويل جدا ويتطلب ايظا كلفه ماليه لا تطاق. في هذه الورقةِ خوارزميةَ مُقَدَّمةُ باتجاه توفير كلفه الاتصال عبر الشبكه, ومتطلبات كلف الخزن المركزي , وتعجيل وقت التنفيذ المطلوب. في هذه الورقه خوارزميه جديده تدعى خوارزمية قواعد الارتباط المتوازيه المقترحه, الخوارزميه التي تهدف لانتزاع قواعد الارتباط من سجل واحد فقط لكل موقع من قواعد الارتباط الموزعه بالتوازي بدلا من انتزاع قواعد الارتباط من الكميه الكبيره من البيانات الموزعه في عده مواقع بالتوازي وذلك خلال جمع سجل واحد من قواعد الارتباط المحليه من كل موقع وخزنهم, هذه قواعد الارتباط المحليه تحول لانتاج قواعد الارتباط العامه على الانظمه الموزعه بالتوازي. خوارزمية قواعد الارتباط المتوازيه المقترحه


Article
Proposal for Enhancing Medical Diagnosis of Disease Related With Patients Environment

Author: Zahraa A. Saed
Journal: Iraqi Journal of Information Technology المجلة العراقية لتكنولوجيا المعلومات ISSN: 19948638/26640600 Year: 2014 Volume: 6 Issue: 1 اللغة الانكليزية Pages: 14-27
Publisher: iraqi association of information الجمعية العراقية لتكنولوجيا المعلومات

Loading...
Loading...
Abstract

Data mining is a process that uses a variety of data analysis tools to discover patterns and relationships that can be hidden among vast amount of data. This research introduces a proposal to improve and enhance a medical diagnosis using association rules of data mining technique, especially for medical diagnosis of diseases related with patient’s environment. That proposal found new relationships and predications to support early medical diagnosis, that by build a two proposed databases: the first data base contained a basic attributes of blood and tissues for the patients. The second database contained a basic attributes of patients profile and environment. After finding all associations rules from these two proposed databases, these rules will be mixed by a proposed method to gain a new rules give new patterns will predict relations among the physiology and environment of patients and disease.

استخراج البيانات هي العملية التي تستخدم مجموعة متنوعة من أدوات تحليل البيانات لاكتشاف الأنماط والعلاقات التي يمكن أن تكون مخفية بين كمية هائلة من البيانات. هذا البحث يقدم اقتراحا لتحسين وتعزيز التشخيص الطبي باستخدام قواعد رابطة تقنية التنقيب عن البيانات، وخاصة في مجال التشخيص الطبي من الأمراض المرتبطة مع بيئة المريض. وجدت أن الاقتراح علاقات جديدة والتنبؤات لدعم التشخيص الطبي المبكر، وذلك عن طريق بناء قاعدتي بيانات مقترحة: قاعدة البيانات الأولى تحتوي على سمات أساسية من الدم والأنسجة للمرضى. قاعدة البيانات الثانية تحتوي سمات الشخصية الأساسية للمرضى والبيئة. وبعد العثور على جميع القواعد المترابطة من هاتين القاعدتين المقترحتين، سيتم مزج هذه القواعد من خلال طريقة مقترحة للحصول على قواعد جديدة تعطي أنماط جديدة للتنبؤ بالعلاقات بين بيئة المرضى وفسلجة اجسامهم والمرض.

Listing 1 - 3 of 3
Sort by
Narrow your search

Resource type

article (3)


Language

English (3)


Year
From To Submit

2014 (3)