Türkçe Haber Metinlerinin Makine Öğrenmesi Yöntemleri Kullanılarak Sınıflandırılması


Creative Commons License

Uslu O., AKYOL S.

Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi, cilt.2, sa.1, ss.15-20, 2021 (Diğer Kurumların Hakemli Dergileri)

  • Yayın Türü: Makale / Tam Makale
  • Cilt numarası: 2 Konu: 1
  • Basım Tarihi: 2021
  • Dergi Adı: Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi
  • Sayfa Sayıları: ss.15-20

Özet

En büyük bilgi kaynağının internet olarak kabul edildiği günümüz bilgi çağında, elektronik ortamda yer alan metinlerin gün geçtikçe artması sonucunda metin madenciliği ve makine öğrenimi konusu önem kazanmıştır. Teknolojinin gelişmesine paralel olarak bu alanlarda da yenilikler geliştirilmektedir. Yapılan yenilikler ile herhangi bir platformda düzensiz olarak bulunan metinlerin, anlamlı bir bütün haline getirilerek sınıflandırılması ihtiyacı doğmaktadır. Bu çalışmada; farklı makine öğrenmesi yöntemleri kullanılarak Türkçe haber metinlerinin sınıflandırması yapılmaktadır. Haber içerikleri olarak birçok haber metninin ve haber kategorisinin yer aldığı bir veri seti kullanılmıştır. Çalışmada, Destek Vektör Sınıflandırıcısı, Rastgele Orman ve Naive Bayes Sınıflandırıcına göre gerçekleştirilen analiz sonuçları karşılaştırılarak, en başarılı performansa sahip yöntemin 91% doğruluk oranı ile Naive Bayes Sınıflandırıcısı olduğu görülmüştür.

In today's information age, where the largest source of information is accepted as the internet, the issue of text mining and machine learning has become important as a result of the increasing amount of texts in the electronic environment. In parallel with the advancement of technology, innovations are being developed in these areas. Due to the innovations, the need arises to classify the texts found irregularly on any platform into a meaningful whole. In this study; Turkish news texts are classified using different machine learning methods. A data set containing many news texts and news categories was used as news content. In the study, comparing the analysis results performed according to the Support Vector Classifier, Random Forest and Naive Bayes Classifier, it was seen that the method with the most successful performance was the Naive Bayes Classifier with 91% accuracy.