img
Veri madenciliği sınıflandırma algoritmalarının performans karşılaştırması: Tiroid hastalığının tahmini üzerinde bir uygulama
Tez Türü Yüksek Lisans
Ülke Türkiye
Kurum/Üniversite Kafkas Üniversitesi
Enstitü Sosyal Bilimler Enstitüsü
Anabilimdalı İşletme Ana Bilim Dalı
Tez Onay Yılı 2021
Öğrenci Adı ve Soyadı Nimet YAMAN
Tez Danışmanı PROF. DR. ÖTÜKEN SENGER
Türkçe Özet Tiroid bir endokrin bez olup vücutta metabolik olarak tüm faaliyetleri etkileyen tiroid hormonlarının üretilip kontrol edilmesini sağlar. Tiroid bezinin düzgün çalışmaması sonucu çeşitli hastalıklar meydana gelmektedir. Bu çalışmada, tiroid hastalığının doktorlar tarafından erken teşhis edilmesine yardımcı olmak ve yeni gelen hastaların tiroid hastası olup olmadığını tahmin etmek amacıyla Kafkas Üniversitesi Sağlık Araştırma ve Uygulama Merkezi ile Harakani Devlet Hastanesi'nden alınan 2019-2021 tarihine kadar olan tiroid hastaları veri seti üzerinde veri madenciliği teknikleri ile farklı sınıflandırma algoritmaları uygulanmıştır. Alınan veri setinde veriler gerekli ön işleme ve normalizasyon işlemlerinden geçirilerek analize uygun hale getirilmiştir. Tiroid hastalığı için belirleyici faktörler; kişiye ait yaş, cinsiyet, hamilelik, guatr, TSH, FT3, FT4, Anti-TPO, Anti-TG test sonuçları olduğu için bu parametreler üzerinde işlem yapılmıştır. WEKA açık kaynak kodlu veri madenciliği programı yardımı ile C4.5 Karar Ağacı, Rastgele Orman, Naive Bayes, Çok Katmanlı Yapay Sinir Ağı, K En Yakın Komşu, sınıflandırma algoritmaları uygulanarak analiz sonucunda başarı performansları karşılaştırılmıştır. Uygulanan yöntemler sonucunda en başarılı tahmin algoritmasının C4.5 Karar Ağacı olduğu görülmüştür.
İlgilizce Özet Thyroid is an endocrine gland and provides the production and control of the thyroid hormones, which affect all metabolic activities in the body. Various diseases occur because of the thyroid gland not working properly. In this study, data mining techniques and different classification algorithms have been used to help doctors diagnose thyroid disease early and to predict whether new patients have thyroid disease. On the data set of thyroid patients taken from Kafkas University Health Research and Application Center and Harakani State Hospital between 2019-2021.In the received data set, the data were made suitable for analysis by undergoing the necessary pre-processing and normalization processes. All analysis have been made on age of patience, gender, pregnancy, goiter, TSH, FT3, FT4, anti-TPO, anti-TG test results due to these parameters is the determination factor of thyroid disease. C4.5 Decision Tree, Random Forest, Naive Bayes, Multilayer Artificial Neural Network, K Nearest Neighbor, classification algorithms are applied to data set via WEKA which is an open-source data mining program, and success performances is compared regarding to the analysis results. In consequence of the applied methods, it has been observed that the most successful classification algorithm is C4.5 Decision Tree.