簡易貝氏分類器在不平衡資料集上效能改善之研究

Translated title of the thesis: A Study on the Performance Improvement of Naive Bayesian Classifier on Imbalanced Data Sets
  • 姚 靜姍

Student thesis: Master's Thesis

Abstract

在眾多分類方法中,由於簡易貝氏分類器具有使用簡便、運算效能佳以及分類預測正確率高之優點,因此被廣泛地應用在?多分類任務上。然而?多分類方法都會有一個基本假設,就是資料的分布並非高度傾斜,因此當我們把分類方法應用於資料時,在大多數的情況下可以取得理想的結果,但是在一資料集當中,大多數的資料會集中在某一類別,而所關注的則是占少數資料的類別,就形成了所謂不平衡資料集。由於簡易貝氏分類器本身的學習機制是將類別值機率與所有屬性條件機率相乘,因此在不平衡資料集中,因兩類別的資料筆數相差甚遠,致使類別值機率差異較大,可能會導致簡易貝氏分類器在學習的過程中,誤將少數類別資料預測為多數類別,因此將測試類別值機率對簡易貝氏分類器的影響,此外,透過貝氏屬性挑選法對屬性做重要性排序之外,亦會做特徵選取,並導入先驗分配來調整屬性參數,以此提升簡易貝氏分類器的分類效能。從UCI資料存放站下載10個資料集,並將其處理成不平衡資料集來進行試驗,在實證結果中顯示考量類別值機率與否所造成的影響不大,但導入先驗分配可顯著提升簡易貝氏分類器在不平衡資料集上的效能,且此改善可使得簡易貝氏分類器與分類方法RIPPER相匹配,但是與Random Forest相比之下還是顯得稍為劣勢。
Date of Award2018 Jul 6
Original languageChinese
SupervisorTzu-Tsung Wong (Supervisor)

Cite this

'