TY - JOUR ID - TI - Fast Ways to Detect Outliers طرق سريعة لكشف القيم المتطرفة AU - Nashaat Jasim AL-Anber1 نشأت جاسم محمد AU - Emad Obaid Merza1 عماد عبيد مرزة PY - 2021 VL - 3 IS - 1 SP - E66 EP - E73 JO - Journal of Techniques مجلة التقني SN - 27088383 AB - The occurrence of tremendous developments in the field of data has led to the formation of huge volumes of data, and it is normal that this leads to the presence of outliers in this data for many reasons, which may have small or large values compared to the rest of the normal data, and the presence of outliers in the data affects the statistical analysis of this data, so we must try to reduce its impact in various ways. On the other hand, the presence of outliers may be of great benefit, for example knowledge of geological activities that precede natural disasters such as (earthquakes, forest fires, floods ... etc.). Therefore, detection of outliers is of great importance in various fields. In this research, we aim to develop easy methods for detecting outliers in big data, as the problem that this research addresses is that many of the newly developed methods for detecting outliers suffer from computational complexity or are efficient when the sample size is small. An experimental approach was used in this research by suggesting three methods for detecting outliers, the first method is based on standard deviation and was tested and compared with the normal distribution method and the z-score method. The second method depends on the maximum and minimum value of the data, and the third method depends on the range between successive data points. The results of second and third methods are compared with Hample's Test method result. The accuracy of the results is measured based on the confusion matrix. The results of the proposed methods test showed the conformity of the first method with the results of the normal distribution method and the Z-Score method, as well as the superiority of the third method over the Hample's test method. In this paper, it was concluded that the Hample's test method suffers from a serious weakness when the zero values in the data constitute more than 50% of the number of elements.

أدى حدوث تطورات هائلة في مجال البيانات إلىتكوينكميات هائلةمن البيانات،ومن الطبيعي أن يؤدي ذلك إلى وجود قيم متطرفة في هذه البيانات لأسباب عديدة،والتيقد يكون لها قيم صغيرةأوكبيرةمقارنةً بـباقي البيانات العادية،ووجودالقيم المتطرفة في البيانات يؤثرعلى التحليل الإحصائي لهذه البيانات،لذلك يجب أن نحاول تقليل تأثيرها بطرق مختلفة،ومن ناحية أخرى،قد يكون وجودالقيم المتطرفة مفيدً اجدًا على سبيل المثال معرفةالأنشطة الجيولوجيةالتي تسبق الكوارث الطبيعية مثل (الزلازل،حرائق الغابات،الفيضانات ... الخ). لذلك،فإنا لكشف عن القيم المتطرفة له أهمية كبيرة في مختلف المجالات. في هذا البحث،نهدف إلى تطوير طرق سهلة لاكتشاف القيم المتطرفة في البيانات الضخمة،اذأن المشكلة التي يعالجهاهذا البحث هي أن العديد من الأساليب المطورة حديثً الاكتشاف القيم المتطرفة تعاني من التعقيد الحسابي أو تكون فعالة عندما يكون حجم العينة صغيرًا. تم استخدام المنهج التجريبي في هذ االبحث باقتراح ثلاث طرق للكشف عن القيم المتطرفة،الطريقة الأولى تعتمد على الانحراف المعياري وتم اختبارها ومقارنتها مع طريقة التوزيع الطبيعي وطريقةz-Score. تعتمد الطريقة الثانية على القيمة القصوى والدنيا للبيانات،والطريقة الثالثة تعتمد على المدى بين نقاط البيانات المتتالية. تتم مقارنة نتائج الطريقتين الثانية والثالثة بنتيجة طريقة اختبارHample. يتم قياس دقة النتائج بناءً على مصفوفة الارتباك. أظهرت نتائج اختبار الطرق المقترحة مطابقة الطريقة الأولى مع نتائج طريقة التوزيع الطبيعي وطريقةZ-Scoreوكذلك تفوق الطريقة الثالثة على طريقة اختبارHample. في هذا البحث تم استنتاج أن طريقة اختبارHampleتعاني من ضعف خطيرعندما تشكل القيم الصفرية في البيانات أكثرمن 50٪ من عدد العناصر. ER -