research centers


Search results: Found 8

Listing 1 - 8 of 8
Sort by

Article
An Improved Algorithm for Data Preprocessing in Mining Crime Data Set

Author: Kadhim B. Swadi Aljanabi كاظم بريهي سوادي
Journal: Journal of Kufa for Mathematics and Computer مجلة الكوفة للرياضيات والحاسوب ISSN: 11712076 Year: 2011 Volume: 1 Issue: 4 Pages: 81-87
Publisher: University of Kufa جامعة الكوفة

Loading...
Loading...
Abstract

This paper presents an improved algorithm for data preprocessing to solve the problem of missing values and smoothing the outliers in the real world data sets. Previous works in this field are based mainly on replacing the missing values with the average, class average, most common values and some other techniques in the same direction, and outliers were generally cancelled from the data set. Crime and criminal data sets have their own special characteristics and benchmark in that missing values and outliers have different meanings than in other fields, so they need to be processed in different manners. The algorithm is based mainly on using clustering techniques to group the objects according to their similarities and dissimilarities, then smoothing the outliers accordingly and the missing values are processed according to their clusters. WEKA is used as a tool to find different clusters of the criminals.


Article
Solving Missing Values : A Case Study

Author: Mansoor Habeeb & Kadhim Aljanabi & Nawras Riyadh Neamah
Journal: Journal of Education for Pure Science مجلة التربية للعلوم الصرفة ISSN: 20736592 Year: 2014 Volume: 4 Issue: 1 Pages: 254-265
Publisher: Thi-Qar University جامعة ذي قار

Loading...
Loading...
Abstract

One of the most important issues in information theory related to data in both Database and Data Warehouse is the missing values (unknown, not available and required). This represents a great challenge to the analysis process. Features or data attributes (fields or columns in relational DB) in data repositories represent the core of any analytical process in OLAP(On Line Analytical Processing)and OLTP(On Line Transaction Processing). These attributes are required to be studied and processed. Many papers were published to solve such problem in different goals and algorithms. However, the aim of this research proposal is to improve the algorithms applied to these topics to insure data consistency, correctness, completeness, and time and space complexity. Different algorithms and techniques were applied on more than 20000 records collected from different hospitals and clinics around Iraq to study the effectiveness of the proposed algorithms including Most Common Value, overall average, and classification.

تعتبر القيم المفقودة من أهم القضايا في نظرية المعلومات المتعلقة بالبيانات في كل من قاعدة بيانات ومخازن البيانات (وهي تشير الى القيم غير المعروفة، وليست متاحة ولكنها مطلوبة) وهذا الموضوع يمثل تحديا كبيرا لعملية تحليل البيانات. ميزات أو سمات البيانات (الحقول او الاعمدة في انظمة قواعد البيانات) تمثل جوهر أي عملية تحليلية في )OLAPانظمة المعالجة التحليلية المباشرة) وOLTP (انظمة معالجة الاجراءات المباشرة). وهذه الصفات تتطلب الدراسة والمعالجة. وقد تم معالجة هذه المشكلة في العديد من الاوراق البحثية باستخدام خوارزميات ومنهجيات مختلفة، وتهدف هذه الورقة البحثية الى تحسين وتطوير الخوارزميات المطبقة على هذه المواضيع لضمان اتساق البيانات وصحتها واكتمالها وتطويرها في كل من معياري الوقت والسعة المطلوبة لانجاز الخوارزمية. وتم تطبيق هذه الخوارزميات على اكثر من 20000 سجل تم جمعها من مستشفيات وعيادات مختلفة في العراق. وقد تم تطبيق الخوارزميات التالية:•القيمة الأكثر شيوعا ضمن البيانات•المعدل العام ومعدل الفئات المختلفة•التصنيف

Keywords

DB --- DW --- OLTP --- OLAP --- Missing Values


Article
An Approach for Solving Missing Values in Data Set Using Clustering-Curve Fitting Technique

Authors: . Kadhim AlJanabi --- Mansoor Habeebi --- Nawras Riyadh Neamah
Journal: Journal of Kufa for Mathematics and Computer مجلة الكوفة للرياضيات والحاسوب ISSN: 11712076 Year: 2014 Volume: 2 Issue: 2 Pages: 81-99
Publisher: University of Kufa جامعة الكوفة

Loading...
Loading...
Abstract

Missing values in data sets represent one of the greatest challenge in analyzing data to extract knowledge from the data set. The work in this paper presents a new approach for solving the missing values problems by using and merging two different techniques; clustering (K-means and Expectation Maximization) and curve fitting. More than twenty thousand records of real health data set collected from different Iraqi hospitals were used to create and test the proposed approach that showed better results than the most popular techniques for estimation missing values such as most common values, overall overage, class average, and class most common values. Different software were used in the proposed work including WEKA (Waikato Environment for Knowledge Analysis), Matlab, Excel and C++.


Article
The Numerical Methods to Estimation the Missing Values of Data in Time Series.
طرائق عددية لتقدير القيم المفقودة في بيانات السلاسل الزمنية

Author: Intisar M. Jassim انتصار مجيد جاسم
Journal: Al-Rafidain University College For Sciences مجلة كلية الرافدين الجامعة للعلوم ISSN: 16816870 Year: 2016 Issue: 37 Pages: 116-144
Publisher: Rafidain University College كلية الرافدين الجامعة

Loading...
Loading...
Abstract

This Research discuss the estimation of presumptive missing Values of time Series which assume mean maximal temperature degree in AL-Musil for(2001) in numerical methods (Least Squares – Cubic Spline – divided differences – Lagrange interpolation). Then Comparison between these methods to find the best method for estimation the missing values in the mean maximal and minimal temperature degree in AL-Musil for (2003).

يتناول هذا البحث تقدير القيم التي فرضنا بانها مفقودة من السلسلة الزمنية التي تمثل معدلات درجات الحرارة العظمى لمدينة الموصل عام 2001 بطرائق عددية ]المربعات الصغرى – الشريحة التكعيبية – الفروق المقسومة – استكمال لاكرانج[.ثم المقارنة بين هذه الطرق ليتسنى لنا تطبيق الطريقة المثلى لتقدير القيم المفقودة في معدلات درجات الحرارة العظمى والصغرى لمدينة الموصل عام 2003.


Article
USING FORECASTING ACCURACY CRITERIA TO DETERMINE OPTIMUM METHOD FOR ESTIMATING MISSING VALUES (AGRICULTURAL RESEARCHES DATA AS A CASE STUDY)
استخدام معايير الدقة التنبؤية في تحديد الطريقة المثلى في تقدير القيم المفقودة (بيانات البحوث الزراعية انموذجا)

Author: Ali D. K. Al-Hiyali علي درب كسار الحيالي
Journal: Iraqi Journal of Agricultural Science مجلة العلوم الزراعية العراقية ISSN: 00750530/24100862 Year: 2013 Volume: 44 Issue: 4 Pages: 509-517
Publisher: Baghdad University جامعة بغداد

Loading...
Loading...
Abstract

Missing data in time series is considered as an important issue especially in the process of mathematical and statistical model estimation and consequently its forecasting. Arriving at certain results through the analysis based on the estimation of missing values by using different methods would have great effect on decisions based on the results especially in agricultural researchers. This requires studying the methods of missing data estimation represented by time series average method, arithmetic mean for adjacent values, median for adjacent values , linear interpolation and regression imputation and testing them by using forecasting accuracy criteria such as mean absolute percentage error (MAPE), mean absolute error (MAE), and mean square error (MSE) in addition to using simple regression models. Then comparing some statistical tests resulted from these results such as F- test , -test and - test to support the resulting results from forecasting accuracy tests to judge for the best methods in estimating missing values. The results of this research showed the suitability of regression imputation method according to its advantage in forecasting accuracy tests in addition to simple linear regression model tests which this research is advising to be used within the condition explained within the research text. It is necessary that data are suitable to get valuable results.

تمثل مشكلة الفقد في بعض مشاهدات السلسلة الزمنية اهمية خاصة لاسيما في عملية تقدير النماذج الرياضية والاحصائية من ثم التنبؤ بها لان التوصل الى نتائج معينة من خلال نتائج هذا التحليل المبني على تقدير المشاهدات المفقودة بطرائق معينة سيكون له ابلغ الاثر في القرارات المبنية على هذه النتائج لاسيما في البحوث الزراعية، الامر الذي استوجب دراسة طرائق تقدير المشاهدات المفقودة والمتمثلة بطريقة متوسط السلسلة الزمنية وطريقة المتوسط الحسابي للقيم المتجاورة والوسيط للقيم المتجاورة وطريقة الاستكمال الخطي واخيرا طريقة التعويض بالانحدار واختبارها باستخدام معايير الدقة التنبؤية وهي نسبة متوسط القيمة المطلقة للاخطاء(Mean Absolute Percentage Error ) (MAPE)، ومتوسط القيمة المطلقة للاخطاء (Mean Absolute Error) (MAE)، ومتوسط مربع الاخطاء (Mean Square Error) (MSE)، فضلا عن استخدام نماذج الانحدار البسيطة ومقارنة بعض الاختبارات الاحصائية المتحصل عليها من هذه النماذج كاختبار واختبار واختبار لتدعيم النتائج المتحصل عليها من اختبارات الدقة التنبؤية للحكم على افضل الطرائق في تقدير المشاهدات المفقودة, وتوصل البحث الى افضلية طريقة التعويض بالانحدار من خلال تفوقها باختبارات الدقة التنبؤية فضلا عن اختبارات انموذج الانحدار الخطي البسيط، وبالتالي يمكن الجزم بتفوق نتائج القيم المقدرة بهذه الطريقة والتي على اساسها يمكن الحكم على القرار الذي سوف يتم تبنيه من قبل صاحب القرار بانه قرار يحمل اخطاء تنبؤية صغيرة بالمقارنة مع نتائج الطرائق الاخرى, ويوصي البحث باستخدامها ضمن شروط معينة، مع الاخذ بنظر الاعتبار ضرورة ملائمة البيانات للطريقة المستخدمة في تقدير المشاهدات المفقودة لغرض الحصول على نتائج يعتد بها، كما يوصي البحث باهمية اجراء بحوث حول الحالات الاخرى التي لم يتطرق اليها البحث لغرض وضع صورة متكاملة لاسيما وان واقع البيانات في العراق يفتقد الدقة وبالتالي تأثر النتائج المتحصل عليها وتكون القرارات المتخذة غير دقيقة ولاسيما في القطاع الزراعي.


Article
Processing of missing values in survey data using Principal Component Analysis and probabilistic Principal Component Analysis methods
معالجة القيم المفقودة باستعمال طريقة تحليل المركبات الرئيسة (PCA) و خرائط التنظيم الذاتي((SOM

Authors: قتيبة نبيل نايف --- بشرى رحيم جاسم
Journal: journal of Economics And Administrative Sciences مجلة العلوم الاقتصادية والإدارية ISSN: 2227 703X / 2518 5764 Year: 2018 Volume: 24 Issue: 104 Pages: 354-373
Publisher: Baghdad University جامعة بغداد

Loading...
Loading...
Abstract

The idea of carrying out research on incomplete data came from the circumstances of our dear country and the horrors of war, which resulted in the missing of many important data and in all aspects of economic, natural, health, scientific life, etc.,. The reasons for the missing are different, including what is outside the will of the concerned or be the will of the concerned, which is planned for that because of the cost or risk or because of the lack of possibilities for inspection. The missing data in this study were processed using Principal Component Analysis and self-organizing map methods using simulation. The variables of child health and variables affecting children's health were taken into account: breastfeeding and maternal health. The maternal health variable contained missing value and was processed in Matlab2015a using Methods Principal Component Analysis and probabilistic Principal Component Analysis of where the missing values were processed and then the methods were compared using the root of the mean error squares. The best method to processed the missing values Was the PCA method

المستخلص : ان فكرة انجاز بحث حول البيانات غير التامة جاءت من ظروف بلدنا العزيـز ومـا تعرض له من ويلات الحروب حيث أدى ذلك الى فقدان الكثير من البيانات المهمة وفي جميع نواحي الحياة الاقتصادية والطبيعية والصحية والعلمية الصرفة ... الخ. كما ان أسباب الفقدان مختلفة ، منها ما يكون خـارجاً عـن ارادة المعنيين او تكون بإرادة المعنيين أي يكون مخططاً لذلك بسبب الكلفة او المخـاطرة او بـسبب عدم توافر الإمكانيات للمعاينة. وان معالجة البيانات المفقودة في هذا البحث تمت باستخدام طريقتي تحليل المركبات الرئيسة وتحليل المركبات الرئيسة الاحتمالية وذلك باستخدام المحاكاة, حيث تم اخذ متغيرات صحة الاطفال والمتغيرات التي تتاثر بها صحة الاطفال وهي الرضاعة وصحة الامهات ويحتوي متغير صحة الامهات على قيم مفقودة وتم معالجتها في برنامج ( Matlab2015a) باستخدام طريقة تحليل المركبات الرئيسة وخرائط التنظيم الذاتيSOM حيث تم معالجة القيم المفقودة ومن ثم مقارنة الطرائق باستعمال جذر متوسط مربعات الخطأ وكانت افضل طريقة لمعالجة القيم المفقودة هي طريقة تحليل المركبات الرئيسة (PCA).


Article
most important treatment of the problem of missing values of time series data and its influence in simple linear regression.
تأثير فقدان إحدى مشاهدات المتغير المستقلوموقعها في تحليل الانحدار البسيط

Authors: عفاف صالح الحاني --- علي درب كسار الحيالي
Journal: journal of Economics And Administrative Sciences مجلة العلوم الاقتصادية والإدارية ISSN: 2227 703X / 2518 5764 Year: 2011 Volume: 17 Issue: 62 Pages: 170-177
Publisher: Baghdad University جامعة بغداد

Loading...
Loading...
Abstract

The objective of the research , is to shed light on the most important treatment of the problem of missing values of time series data and its influence in simple linear regression. This research deals with the effect of the missing values in independent variable only. This was carried out by proposing missing value from time series data which is complete originally and testing the influence of the missing value on simple regression analysis of data of an experiment related with the effect of the quantity of consumed ration on broilers weight for 15 weeks. The results showed that the missing value had not a significant effect as the estimated model after missing value was consistent and significant statistically. The results also showed that the estimated missing value was larger than the original value when the missing value situated either in the middle or at the end of the series while the sign was negative or the estimated value was less than the original value when the missing value situated in the beginning of the time series. All of that would affect the estimated values outside the time series data according to estimated value of missing value. The research recommended to work on the analysis of the effect of missing more than one value and also when the missing is in the dependent variable only and in both dependent and independent variables.

يهدف البحث إلى تسليط الضوء على أهم معالجات مشكلة فقدان بيانات السلسلة الزمنية وتأثيرها في تحليل الانحدار الخطي البسيط. ويتناول البحث تأثير فقدان المشاهدات في المتغير المستقل فقط دون المتغير التابع. ويتم ذلك من خلال افتراض فقدان إحدى المشاهدات من السلسلة الزمنية المتكاملة أصلا ومن ثم اختبار اثر هذا الفقدان على تحليل الانحدار البسيط لبيانات تجربة تتعلق بأثر كميات العليقة المستهلكة على وزن الدجاج ولمدة 15 أسبوعا. وتوصل البحث إلى إن فقدان مشاهدة واحدة لم يكن له ذلك التأثير الواضح إذ كان الأنموذج المقدر بعد فقدان مشاهدة متماسكا في معاملاته ومعنويا ضمن المستويات الإحصائية المقبولة، فضلا عن إن المنهجية المتبعة أعطت قيمة اكبر للمشاهدة المفقودة من القيمة الأصلية عندما كان الفقد في المشاهدات الواقعة في منتصف ونهاية السلسلة الزمنية في حين كانت الإشارة سالبة أي القيمة المتوقعة اقل من القيمة الأصلية عندما وقع الفقدان في بداية السلسلة الزمنية. وكل ذلك سيؤثر في القيم المتنبأ بها خارج السلسلة الزمنية تبعا للقيمة المستخرجة للمشاهدة المفقودة. وأوصى البحث بضرورة أن يتم البحث في تحليل اثر فقدان أكثر من مشاهدة فضلا عن دراسة الحالة عندما يكون الفقد في المتغير التابع فقط وفي المتغيرين التابع والمستقل معا.


Article
Climate change and dust storms in Iraq / 'Baghdad', Acase stady
التغير المناخي والعواصف الغبارية في العراق / " بغداد " حالة دراسية

Author: فاطمة جاسم محمد العزاوي
Journal: journal of Economics And Administrative Sciences مجلة العلوم الاقتصادية والإدارية ISSN: 2227 703X / 2518 5764 Year: 2015 Volume: 21 Issue: 81 Pages: 327-347
Publisher: Baghdad University جامعة بغداد

Loading...
Loading...
Abstract

A dust storm in Iraq is a climatic phenomenon common in arid and semi-arid regions . The frequency of the occurrence has increased drastically in the last decade and it is increasing continuously .Baghdad city like the rest of Iraq is suffering from the significant increase in dust storms . In this research , the study of the phenomenon of dust storms for all types (Suspended dust , rising dust , dust storm) , and its relationship with some climate variables (Temperature , rainfall ,wind speed) .The statement of the impact of climate change on this phenomenon to Baghdad station for the period (1981 – 2012) . Time series has been addressing the phenomenon of storms and climate variables for the time period under study, during which Iraq faced three wars affected the growing phenomenon occurring factors , missing values were estimated and identification of multiple outliers within the existing time series of phenomena and climate variables , the study found that climate change (the direction of rainfall downward, the direction of the temperature to rise, the direction of wind speed to rise) paid to the growing phenomenon of dust storms in that station studied and showed the relationship of these variables to this phenomenon (by type) through regression models .

العواصف الغبارية ظاهرة مناخية مالوفة في العراق بالمناطق الصحراوية وشبه الصحراوية , زادت وتيرة حدوثها بشكل كبير في العقد الاخير وما زالت في تزايد مستمر , ومدينة بغداد مثل بقية مناطق العراق عانت من زيادة كبيرة في حدوث العواصف الغبارية . في هذا البحث , دراسة ظاهرة العواصف الغبارية حسب نوعها (الغبار العالق , الغبار المتصاعد , العاصفة الغبارية) وعلاقتها مع بعض المتغيرات الانوائية (درجة الحرارة , تساقط الامطار, سرعة الرياح) و بيان تاثير التغير المناخي على هذه الظاهرة حسب نوعها لمدينة بغداد للفترة (1981- 2012), حيث تم معالجة السلاسل الزمنية لظاهرة العواصف حسب نوعها وللمتغيرات الانوائية تحت الدراسة للفترة الزمنية اعلاه والتي مر العراق خلالها بثلاثة حروب اثرت على تزايد عوامل حدوثها, فكان تقدير القيم المفقودة وتشخيص القيم الشاذة ضمن كافة السلاسل الزمنية ومعالجة البيانات وتوصلت الدراسة الى ان التغير المناخي (اتجاه تساقط الامطار نحو الانخفاض , اتجاه درجات الحرارة للارتفاع ,اتجاه سرعة الرياح للارتفاع ) دفع الى تزايد ظاهرة العواصف الغبارية وبينت علاقة هذه المتغيرات بهذه الظاهرة (حسب نوعها ) من خلال نماذج انحدار .

Listing 1 - 8 of 8
Sort by
Narrow your search

Resource type

article (8)


Language

Arabic and English (3)

English (3)

Arabic (2)


Year
From To Submit

2018 (1)

2016 (1)

2015 (1)

2014 (2)

2013 (1)

More...