TY - JOUR ID - TI - Data Pre-processing for knowledge discovery مرحلة قبل المعالجة لاكتشاف المعرفة AU - Mortadha M. Hamad مرتضى محمد حمد AU - Banaz A. Qader بناز انور قادر PY - 2014 VL - 19 IS - 5 SP - 143 EP - 148 JO - Tikrit Journal of Pure Science مجلة تكريت للعلوم الصرفة SN - 18131662 24151726 AB - AbstractData pre-processing stage is also known as (data preparation) stage and it is a fundamental stage for data analysisand knowledge discovery. If there is much irrelevant and redundant information or noisy and unreliable data,then knowledge discovery during analysis and mining phase will be more difficult. Therefore we consider thepre-processing stage as an important step for knowledge discovery process and has a significant impact onpredictive accuracy. Essentially, while each customer attribute may require special treatment for each algorithm,so the choices of data pre-processing (DPP) depend on the individual dataset or database used. In this paper wehave chosen and explained two different pre-processing techniques which are (consistency, reduction) dependingon our data warehouse of marketing which contains inconsistent attributes and also contains duplicated records.We have also proposed two new algorithms for reduction named (Removing Duplication Algorithm) and forconsistency named (Resolving Inconsistency Algorithm) so that achieving the best performance for their dataset. In this paper we applied and implemented our two new algorithms on our data warehouse using (C#programming language) and (Microsoft Access file), and gained cleaning data warehouse with consistentattributes and empty of duplicated records that is ready for preparing quality data as input to the algorithms ofdata mining process or any other analysis method which also influences of knowledge quality that is discoveredduring data mining process

الملخص: مرحلة قبل المعالجة للبیانات تعرف أیضاً بمرحلة (تهیئة البیانات) وهي مرحلة أساسیة لتحلیل البیانات واكتشاف المعرفة. عند وجود معلومات غیرمتعلقة بالموضوع وفائضة أو بیانات مشوشة وغیر موثوقة ، فان عملیة اكتشاف المعرفة خلال مراحل التحلیل والتنقیب سوف تكون صعبة ومعقدة.لذلك نعتبر مرحلة قبل المعالجة للبیانات خطوة مهمة لعملیة اكتشاف المعرفة وذو تأثیر مهم على دقة التنبؤ. بصورة أساسیة، بینما كل حقل خاصفي الجدول یحتاج نوع خاص من المعالجة لكل خوارزمیة، لذا فان اختیار خوارزمیة قبل المعالجة یعتمد على نوع قاعدة البیانات المستخدمة. فيهذا البحث قمنا باختیار وتوضیح تقنیتین مختلفتین من تقنیات قبل المعالجة للبیانات والتي هي (التناسق و التقلیل أو التخفیض) معتمداً علىمستودع البیانات الخاص بالتسویق والذي یحتوي على حقول غیر متناسقة وقیود متكررة. في هذا البحث قمنا أیضاً باقتراح وبناء خو ارزمیتین جدیدةإحداها للتقلیل تسمى (خوارزمیة إزالة التكرار) و الأخرى للتناسق تسمى (خوارزمیة تحلیل عدم التناسق) محققا بذلك أحسن الانجازات لمجامیعالبیانات. في هذا البحث قمنا بتطبیق وتنفیذ الخوارزمیتین المقترحتین على مستودع البیانات مستخدماً (لغة البرمجة #C) و(ملف MicrosoftAccess) وقد حصلنا على مستودع بیانات نظیفة ذو حقول منسقة وخالیة من القیود المكررة وجاهزة لتهیئة بیانات ذو جودة عالیة كإدخاللخوارزمیات عملیة تنقیب البیانات أو أي طریقة تحلیلیة والتي تؤثر على نوعیة المعرفة المكتشفة خلال عملیة تنقیب البیانات ER -