TY - JOUR ID - TI - Hiding Sensitive Frequent Itemsets over Privacy Preserving Distributed Data Mining AU - Sufyan T. F. Al-Janabi AU - Alaa Kh. Juma'a AU - Nazar A. Ali PY - 2013 VL - 10 IS - 1 SP - 91 EP - 105 JO - AL-Rafidain Journal of Computer Sciences and Mathematics مجلة الرافدين لعلوم الحاسوب والرياضيات SN - 48161815 23117990 AB - Data mining is the process of extracting hidden patterns from data. One of the most important activities in data mining is the association rule mining and the new head for data mining research area is privacy of mining. Privacy preserving data mining is a new research trend in privacy data for data mining and statistical database. Data mining can be applied on centered or distributed databases. Most efficient approaches for mining distributed databases suppose that all of the data at each site can be shared. Privacy concerns may prevent the sites from directly sharing the data, and some types of information about the data. Privacy Preserving Data Mining (PPDM) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. In this paper, the problem of privacy preserving association rule mining in horizontally distributed database is addressed by proposing a system to compute a global frequent itemsets or association rules from different sites without disclosing individual transactions. Indeed, a new algorithm is proposed to hide sensitive frequent itemsets or sensitive association rules from the global frequent itemsets by hiding them from each site individually. This can be done by modifying the original database for each site in order to decrease the support for each sensitive itemset or association rule. Experimental results show that the proposed algorithm hides rules in a distributed system with the good execution time, and with limited side effects. Also, the proposed system has the capability to calculate the global frequent itemsets from different sites and preserves the privacy for each site.

إن عملية تنقيب البيانات هي عبارة عن استخلاص الأنماط المخفية من البيانات. وإن التنقيب عن العلاقات الرابطة يعد واحدا من أهم فعاليات تنقيب البيانات والتي أصبح التوجه الحديث للباحثين فيها هو الحفاظ على سرية تلك البيانات المنقب عنها. فالتنقيب المحافظ على خصوصية البيانات هو من أهم توجهات البحوث العلمية الجديدة في خصوصية البيانات وقواعد البيانات الإحصائية. ويمكن تطبيق فعاليات التنقيب هذه على قواعد البيانات المركزية والموزعة. ورغم أن أكثر الأساليب فعالية لقواعد البيانات الموزعة تفترض التنقيب في البيانات التي يمكن تشاركها بين المواقع المختلفة، غير أن تلك الأساليب لم يعد بالإمكان تطبيقها في كثير من الأحيان بسبب المخاوف المتعلقة بخصوصية منع المواقع من تبادل البيانات بشكل مباشر، أو تبادل بعض أنواع المعلومات حول البيانات. لذلك أصبح للتنقيب المحافظ على خصوصية البيانات (PPDM) شعبية متزايدة لأنه يسمح بتبادل البيانات الحساسة الخصوصية لأغراض التحليل.في هذا البحث، تم التصدي لمشكلة الحفاظ على خصوصية التنقيب للعلاقات الرابطة في قاعدة بيانات موزعة أفقيا من خلال اقتراح نظام لحساب العناصر ((itemsets العامة المتكررة أو العلاقات الرابطة من مواقع مختلفة دون الكشف عن المعاملات الفردية. كما نقدم هنا أيضا خوارزمية جديدة لإخفاء هذه العناصر المتكررة الحساسة أو قواعد الرابطة الحساسة من خلال إخفائها في كل موقع على حدة. ويمكن أن يتم ذلك عن طريق تعديل قاعدة البيانات الأصلية لكل موقع من أجل خفض الدعم لكل من العناصر الحساسة أو العلاقات الرابطة. النتائج التي تم الحصول عليها من تطبيق الخوارزمية المفترضة تشير إلى قدرتها على إخفاء العناصر المتكررة الحساسة بوقت تنفيذ جيد وبأقل تأثيرات جانبية. كما أن النظام المفترض استطاع الحصول على العناصر المتكررة العامة للبيانات (Global Frequent Itemset) الموزعة على عدة مواقع مع الحفاظ على خصوصية كل موقع. ER -