Fulltext

Processing of missing values in survey data using Principal Component Analysis and probabilistic Principal Component Analysis methods

معالجة القيم المفقودة باستعمال طريقة تحليل المركبات الرئيسة (PCA) و خرائط التنظيم الذاتي((SOM

قتيبة نبيل نايف --- بشرى رحيم جاسم

journal of Economics And Administrative Sciences مجلة العلوم الاقتصادية والإدارية
ISSN: 2227 703X / 2518 5764 Year: 2018 Volume: 24 Issue: 104 Pages: 354-373
Publisher: Baghdad University جامعة بغداد

Abstract

The idea of carrying out research on incomplete data came from the circumstances of our dear country and the horrors of war, which resulted in the missing of many important data and in all aspects of economic, natural, health, scientific life, etc.,. The reasons for the missing are different, including what is outside the will of the concerned or be the will of the concerned, which is planned for that because of the cost or risk or because of the lack of possibilities for inspection. The missing data in this study were processed using Principal Component Analysis and self-organizing map methods using simulation. The variables of child health and variables affecting children's health were taken into account: breastfeeding and maternal health. The maternal health variable contained missing value and was processed in Matlab2015a using Methods Principal Component Analysis and probabilistic Principal Component Analysis of where the missing values were processed and then the methods were compared using the root of the mean error squares. The best method to processed the missing values Was the PCA method

المستخلص : ان فكرة انجاز بحث حول البيانات غير التامة جاءت من ظروف بلدنا العزيـز ومـا تعرض له من ويلات الحروب حيث أدى ذلك الى فقدان الكثير من البيانات المهمة وفي جميع نواحي الحياة الاقتصادية والطبيعية والصحية والعلمية الصرفة ... الخ. كما ان أسباب الفقدان مختلفة ، منها ما يكون خـارجاً عـن ارادة المعنيين او تكون بإرادة المعنيين أي يكون مخططاً لذلك بسبب الكلفة او المخـاطرة او بـسبب عدم توافر الإمكانيات للمعاينة. وان معالجة البيانات المفقودة في هذا البحث تمت باستخدام طريقتي تحليل المركبات الرئيسة وتحليل المركبات الرئيسة الاحتمالية وذلك باستخدام المحاكاة, حيث تم اخذ متغيرات صحة الاطفال والمتغيرات التي تتاثر بها صحة الاطفال وهي الرضاعة وصحة الامهات ويحتوي متغير صحة الامهات على قيم مفقودة وتم معالجتها في برنامج ( Matlab2015a) باستخدام طريقة تحليل المركبات الرئيسة وخرائط التنظيم الذاتيSOM حيث تم معالجة القيم المفقودة ومن ثم مقارنة الطرائق باستعمال جذر متوسط مربعات الخطأ وكانت افضل طريقة لمعالجة القيم المفقودة هي طريقة تحليل المركبات الرئيسة (PCA).

Keywords

Missing Data Problem --- Methods of estimating missing values --- Principal Component Analysis --- self-organizing Map. --- مشكلة البيانات المفقودة --- طرائق تقدير القيم المفقودة --- تحليل المركبات الرئيسة PCA --- خرائط التنظيم الذاتيSOM.