research centers


Search results: Found 2

Listing 1 - 2 of 2
Sort by

Article
Hiding Sensitive Frequent Itemsets over Privacy Preserving Distributed Data Mining

Authors: Sufyan T. F. Al-Janabi --- Alaa Kh. Juma'a --- Nazar A. Ali
Journal: AL-Rafidain Journal of Computer Sciences and Mathematics مجلة الرافدين لعلوم الحاسوب والرياضيات ISSN: 18154816 Year: 2013 Volume: 10 Issue: 1 Pages: 91-105
Publisher: Mosul University جامعة الموصل

Loading...
Loading...
Abstract

Data mining is the process of extracting hidden patterns from data. One of the most important activities in data mining is the association rule mining and the new head for data mining research area is privacy of mining. Privacy preserving data mining is a new research trend in privacy data for data mining and statistical database. Data mining can be applied on centered or distributed databases. Most efficient approaches for mining distributed databases suppose that all of the data at each site can be shared. Privacy concerns may prevent the sites from directly sharing the data, and some types of information about the data. Privacy Preserving Data Mining (PPDM) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. In this paper, the problem of privacy preserving association rule mining in horizontally distributed database is addressed by proposing a system to compute a global frequent itemsets or association rules from different sites without disclosing individual transactions. Indeed, a new algorithm is proposed to hide sensitive frequent itemsets or sensitive association rules from the global frequent itemsets by hiding them from each site individually. This can be done by modifying the original database for each site in order to decrease the support for each sensitive itemset or association rule. Experimental results show that the proposed algorithm hides rules in a distributed system with the good execution time, and with limited side effects. Also, the proposed system has the capability to calculate the global frequent itemsets from different sites and preserves the privacy for each site.

إن عملية تنقيب البيانات هي عبارة عن استخلاص الأنماط المخفية من البيانات. وإن التنقيب عن العلاقات الرابطة يعد واحدا من أهم فعاليات تنقيب البيانات والتي أصبح التوجه الحديث للباحثين فيها هو الحفاظ على سرية تلك البيانات المنقب عنها. فالتنقيب المحافظ على خصوصية البيانات هو من أهم توجهات البحوث العلمية الجديدة في خصوصية البيانات وقواعد البيانات الإحصائية. ويمكن تطبيق فعاليات التنقيب هذه على قواعد البيانات المركزية والموزعة. ورغم أن أكثر الأساليب فعالية لقواعد البيانات الموزعة تفترض التنقيب في البيانات التي يمكن تشاركها بين المواقع المختلفة، غير أن تلك الأساليب لم يعد بالإمكان تطبيقها في كثير من الأحيان بسبب المخاوف المتعلقة بخصوصية منع المواقع من تبادل البيانات بشكل مباشر، أو تبادل بعض أنواع المعلومات حول البيانات. لذلك أصبح للتنقيب المحافظ على خصوصية البيانات (PPDM) شعبية متزايدة لأنه يسمح بتبادل البيانات الحساسة الخصوصية لأغراض التحليل.في هذا البحث، تم التصدي لمشكلة الحفاظ على خصوصية التنقيب للعلاقات الرابطة في قاعدة بيانات موزعة أفقيا من خلال اقتراح نظام لحساب العناصر ((itemsets العامة المتكررة أو العلاقات الرابطة من مواقع مختلفة دون الكشف عن المعاملات الفردية. كما نقدم هنا أيضا خوارزمية جديدة لإخفاء هذه العناصر المتكررة الحساسة أو قواعد الرابطة الحساسة من خلال إخفائها في كل موقع على حدة. ويمكن أن يتم ذلك عن طريق تعديل قاعدة البيانات الأصلية لكل موقع من أجل خفض الدعم لكل من العناصر الحساسة أو العلاقات الرابطة. النتائج التي تم الحصول عليها من تطبيق الخوارزمية المفترضة تشير إلى قدرتها على إخفاء العناصر المتكررة الحساسة بوقت تنفيذ جيد وبأقل تأثيرات جانبية. كما أن النظام المفترض استطاع الحصول على العناصر المتكررة العامة للبيانات (Global Frequent Itemset) الموزعة على عدة مواقع مع الحفاظ على خصوصية كل موقع.


Article
Evaluation of Different Data Mining Algorithms with KDD CUP 99 Data Set

Authors: Safaa O. Al-mamory --- Firas S. Jassim
Journal: Journal of University of Babylon مجلة جامعة بابل ISSN: 19920652 23128135 Year: 2013 Volume: 21 Issue: 8 Pages: 2663-2681
Publisher: Babylon University جامعة بابل

Loading...
Loading...
Abstract

Data mining is the modern technique for analysis of huge of data such as KDD CUP 99 data set that is applied in network intrusion detection. Large amount of data can be handled with the data mining technology. It is still in developing state, it can become more effective as it is growing rapidly.Our work in this paper survey is for the most algorithms Data Mining using KDD CUP 99 data set in the classification of attacks and compared their results which have been reached, and being used of the performance measurement such as, True Positive Rate (TP), False Alarm Rate(FP), Percentage of Successful Prediction (PSP) and training time (TT) to show the results, the reason for this survey is to compare the results and select the best system for detecting intrusion(classification). The results showed that the Data Mining algorithms differ in the proportion of determining the rate of the attack, according to its type. The algorithm Random Forest Classifier detection is the highest rate of attack of the DOS, While Fuzzy Logic algorithm was the highest in detection Probe attack. The two categories R2U and R2L attacks have been identified well by using an MARS, Fuzzy logic and Random Forest classifiers respectively.MARS getting higher accuracy in classification, while PART classification algorithm got less accuracy. OneR got the least training time, otherwise Fuzzy Logic algorithm and MLP algorithm got higher training time.

تعدين البيانات هي واحده من التقنيات الحديثه لتحليل البيانات الضخمه مثل بيانات KDD CUP 99 والمتخصصه في مجال اكتشاف الاختراقات. الهدف من البحث هو استعراض وتقييم لخوارزميات تعدين البيانات والتي تم تطبيقها على بيانات KDD CUP 99 لتصنيف الهجومات و قياس النتائج من ناحية الدقه والسرعه هذا من جانب، ومن جانب اخر اختيار افضل خوارزميه تصنيف مع هذه البيانات.اظهرت النتائج ان خوارزميات تعدين البيانات تتفاوت في اكتشاف الهجومات وتحديد صنفها. خوارزمية الغابات العشوائيه كانت صاحبة اعلى نسبة اكتشاف بالنسبه لهجومات الـ DOS بينما خوارزمية المنطق المضبب صنفت هجومات الــ Probe بنسبه عاليه. هجومات R2U و R2L تم تصنيفها بشكل جيد من قبل خوارزمية MARS، المنطق المضبب، و مصنف الاشجار العشوائيه على التوالي. خوارزمية MARS كانت صاحبة اعلى دقه في التصنيف بينما كانت خوارزمية PART رديئه جدا". خوارزمية ONER تم تدريبها باقل وقت بينما خوارزمية المنطق المضبب و خوارزمية MLP تدربت ببطئ.

Listing 1 - 2 of 2
Sort by
Narrow your search

Resource type

article (2)


Language

English (2)


Year
From To Submit

2013 (2)