TY - JOUR ID - TI - How to deal with Acontamenated & less than Full rank data in amultivariate data set كيفية التعامل مع البيانات الملوثة غير تامة الرتبة ضمن بيانات متعدد المتغيرات AU - Lekaa Ali Muhamed PY - 2008 VL - IS - 23 SP - 68 EP - 90 JO - Al-Rafidain University College For Sciences مجلة كلية الرافدين الجامعة للعلوم SN - 16816870 AB - When faced with high-dimensional data, one often uses principal component analysis (PCA) for dimension reduction. Classical PCA constructs aset of uncorrelated variables, which correspond to eigenvectors for the sample covariance matrix. However, it is well-known that this covariance matrix is strongly affected by anomalous observations. It is therefore necessary to apply robust method that are resistant to possible outliers. Li & Chen (1985) proposed asdution based on Projection Pursuit (PP). The idea is to search for the direction in which the projected observations have the largest robust scal. In subsequnt steps each new direction is constrained to be orthogonal to all previous direction. This method is very well suited for high dimensional data even when the number of variables (P) is higher than the number of observations (n) (Less than full rank data set or redused data). Our gool is to stady the redused data set spicially when this set contain an outliers observations and finaly we used arobust methodes (S,M,R, MVE, MCD,…) and find aroubest estimators that we can depent on it to make a good dissisions about our problems.

عندما نواجه بيانات بأبعاد عالية غالبا" ما نستخدم تحليل المركبات الرئيسية Principal Components Analysis (PCA) لتقليص تلك الابعاد. تحليل المركبات الرئيسية العادي (PCA) يكون مجموعة من المتغيرات غير المرتبطة التي تعود الى المتجهات الذاتية المشتقة في مصفوفة التباين المشترك او مصفوفة الارتباط. على كل حال من الجيد معرفة ان مصفوفة التباين المشترك هذه تتأثر بقوة بالمشاهدات المتطرفة لذلك من الضروري ان نضع طريقة حصينة تقاوم الشواذ المحتمل.Li & Chen (1985) قدموا حل يعتمد على ملاحقة البروز Projection Pursuit (PP) الفكرة هي البحث عن الاتجاه الذي فيه تكون المشاهدات البارزة Projected Observations تمتلك اكبر تباين حصين. في خطوات لاحقة كل اتجاه جديد سوف يهيكل كي يكون متعامد مع كل الاتجاهات السابقة. الطريقة وضعت جيدا" كل تتعامل مع بيانات الابعاد العالية حتى عندما يكون عدد المتغيرات (P) اكبر من عدد المشاهدات (n) او مايسمى بالبيانات غير تامة الرتبة او البيانات الناقصة. لهذا فان هذا البحث ينصب على دراسة البيانات الناقصة وخاصة عندما تحتوي مجموعة البيانات تلك على الملوثات او المشاهدات الشاذة ضمن مجموعة البيانات والوصول بعدها الى صورة معتدلة عن تلك البيانات نستطيع من خلالها تطبيق الخوارزميات الحصينة عليها مثل (R,M,S, …) وايجاد المقدرات الحصينة لها والمفاضلة فيما بينها ضمن مجموعة من المعايير. ER -