Abstract:
Abstract
The evolution of biotechnology and health medicine has led to a rise in data volume from electronic devices and lab results. These data results are used in data mining to convert this information into knowledge and use knowledge to come up with a proper solution. The problem of this research in the spread of diabetes is largely of the inability to predict and diagnose the disease accurately because of the lack of specialist doctors, in this research, two datasets have been chosen. Dataset 1 from the University of California, Irvine (UCI) Repository of Machine Learning databases, dataset 2 from data.world. This research focused to find a model for predicting diabetes and if the disease is type I or type II by analyzing the patterns found in the data by employing machine learning techniques such as KNN, J48, Logistic Regression, to identify the most important predictors of diabetes discovery and to detect whether the attributes are independent of each other or not and partition diabetics data into distinct groups of similar items. Also the accuracy and recall Measures were used to measure the accuracy of the model.
Features selection has been done to determine the most important attributes that contributed to predicting diabetes for dataset1 and dataset2, k-means algorithm was used to group similar data into similar clusters, and the algorithm achieved good results, also to discover association rules, apriori was used, the algorithm has achieved the best association rules between the elements. And the results proved the algorithms J48 and logistic regression have the highest accuracy, with 99.77% for dataset1 and KNN with the highest accuracy of 92.07% for dataset2.
المستخلص
التطور في التكنولوجيا الحيوية والمجال الطبي أدى إلى زيادة حجم البيانات من الأجهزة الإلكترونية ونتائج المختبرات وتُستخدم نتائج هذه البيانات في تنقيب البيانات لتحويل هذه المعلومات إلى معرفة، واستخدام هذه المعرفة للتوصل إلى حل مناسب.تكمن مشكلة هذا البحث في انتشار مرض السكري إلى حد كبير في عدم القدرة على التنبؤ بالمرض وتشخيصه بدقة بسبب نقص الأطباء المختصين. استخدم هذا البحث مجموعتي بياناتالأولى من موقع (UCI) ، الثانية من موقع (data.world).ركز هذا البحث على إيجاد نموذج للتنبؤ بمرض السكري وما إذا كان المرض من النوع الأول أو النوع الثاني ، من خلال تحليل الأنماط الموجودة في البيانات عن طريق استخدام خوارزميات التعلم الآلي مثل KNN و J48 والانحدار اللوجستي.واستخدام مقايسس accuracy و recall لقياس دقة النموذج ، واستخدام خوارزميات Features selection لتحديد المتغيرات الأكثر أهمية المسببة لمرض السكري، وتقسيم بيانات مرضى السكري إلى مجموعات من العناصر المتشابهة عن طريق خوارزمية k-means. وتم استخدام خوارزمية apriori لاكتشاف قواعد الارتباط بين العناصرApriori, K-meansحققت أفضل نتائج. وأثبتت النتائج أن خوارميةLogistic Regression، J48حققت أعلى دقة بنسبة 99.77% لمجموعة البيانات الأولى وخوارزمية KNN حققت أعلى دقة بنسبة 92.07% لمجموعة البيانات الثانية.