8. International Selçuk Congress Scientific Research Congress, Konya, Turkey, 29 - 30 November 2025, pp.1662-1663, (Summary Text)
Prediabetes is a significant public health issue commonly known as ‘hidden sugar’ and carries the risk of developing into diabetes if left untreated. Although there are numerous studies on diabetes in the literature, research on the early diagnosis of prediabetes is relatively limited. Therefore, the early detection of prediabetes is critically important for both individual and public health. This study aims to predict patients diagnosed with prediabetes from electronic health record data using machine learning algorithms. A dataset from the Korean National Health and Nutrition Examination Survey (KNHANES), which investigates the association between prediabetes and various factors in adults, was used in this study. The dataset consists of 16 attributes, including clinical health data, socioeconomic indicators, physical activity, and dietary habits for 16.137 individuals. Following data acquisition, features that did not contribute to learning and increased computational load were removed from the dataset during the preprocessing stage. Values were also rescaled by applying Standard Scaler. The dataset was then split into 80% training and 20% test data to reliably test model performance. Four different machine learning methods were used in the study for prediabetes prediction: SVM, KNN, Logistic Regression, and Random Forest. Each model was trained on the training data. The success of the trained model was measured on the test data using accuracy, precision, sensitivity, F1-score, and ROC-AUC score metrics. As a result of the measurements, Random Forest stood out with 67% accuracy and 61% precision, SVM with 75% sensitivity, and Logistic Regression with 64% F1-score and 75% ROC-AUC score. The results obtained showed that machine learning algorithms can be beneficial in the diagnosis of prediabetes. Future studies plan to further improve prediabetes prediction performance by using larger datasets, different feature selection methods, and deep learning models.
Prediyabet, halk arasında “gizli şeker” olarak bilinen ve tedavi edilmediğinde diyabete dönüşme riski taşıyan önemli bir halk sağlığı sorunudur. Literatürde diyabet üzerine çok sayıda çalışma bulunmasına rağmen, prediyabetin erken teşhisine yönelik araştırmalar görece sınırlıdır. Bu nedenle prediyabetin erken dönemde tespit edilmesi hem bireysel hem de toplum sağlığı açısından kritik öneme sahiptir. Bu çalışma elektronik sağlık kaydı verilerinden prediyabet tanısı konulan bireyleri makine öğrenmesi algoritmalarıyla tahmin etmeyi hedeflemektedir. Çalışma içerisinde yetişkinlerde prediyabet ile çeşitli faktörler arasındaki bağlantıyı araştıran Kore Ulusal Sağlık ve Beslenme İnceleme Anketi’nin (KNHANES) alt kümesi olan bir veri seti kullanılmıştır. Veri seti 16,137 bireye ait klinik sağlık verileri, sosyoekonomik göstergeler, fiziksel aktivite ve beslenme alışkanlıklarını içeren 16 öznitelikten oluşmaktadır. Veri temininin ardından ön işleme aşamasında öğrenmeye katkısı olmayan ve hesaplama yükünü artıran özellikler veri setinden çıkarılmıştır. Ayrıca değerler standart scaler uygulanarak yeniden ölçeklendirilmiştir. Ardından model performansının güvenilir şekilde test edilebilmesi için veri seti %80 eğitim, %20 test olarak ayrılmıştır. Çalışmada SVM, KNN, Lojistik Regresyon ve Random Forest olmak üzere prediyabet tahmini için dört farklı makine öğrenmesi algoritması kullanılmıştır. Her model eğitim verisi üzerinde eğitilmiştir. Eğitilen modelin başarısı doğruluk, kesinlik, duyarlılık, f1-skor ve roc-auc skor metrikleriyle test verileri üzerinde ölçülmüştür. Ölçümler neticesinde %67 doğruluk, %61 kesinlik ile Random Forest, %75 duyarlılık ile SVM ve %64 F1-skor, %75 ROC-AUC skor ile Lojistik Regresyon öne çıkmaktadır. Elde edilen sonuçlar, makine öğrenmesi algoritmalarının prediyabet teşhisinde fayda sağlayabileceğini göstermiştir. Gelecek çalışmalarda daha geniş veri setleri, farklı özellik seçimi yöntemleri ve derin öğrenme modelleri kullanılarak prediyabet tahmin performansının daha da artırılması planlanmaktadır.