在大量數據快速產生的時代,資料探勘演算法可用於發掘隱藏於資料背後有價值的資訊與知識,因而廣泛被應用。其中,基礎分類演算法係藉由已知的資料做為訓練資料進行學習,建立模型以預測新資料的類別。所以,訓練資料的品質對於分類模型之預測結果影響甚鉅。倘若訓練資料包含雜訊或冗餘屬性,可能導致過度學習,進而干擾基礎分類演算法之表現。因此,單一基礎分類演算法所建立之預測模型,具有較高的不穩定性與侷限性。後續有研究提出集成演算法改善此情況,其應用一個或多個基礎分類演算法產生一組模型,再透過多數決的投票方式預測新資料的類別,以提升基礎分類演算法之分類正確率及穩定性。惟集成演算法會建構多樣性的預測模型,亦造成分類結果不易詮釋,訓練成本較高。另外,目前有研究提出混合型分類方法,結合不同的基礎分類演算法進行資料前置處理,刪除冗餘屬性或進行樣本過濾。其主要係將分類錯誤的資料視為雜訊,在訓練資料中移除,以提升分類表現。但是這些被排除的資料仍可能帶有某些有助於分類的重要訊息,導致資訊損失。是故,本研究提出基於樣本過濾的混合型分類演算法,藉由分類演算法的組合,除了可執行資料前置處理,亦能建構多個分類模型,當新資料進行預測時,僅須選擇單一模型進行分類,則更能有助於分類結果之詮釋。再者,不同的分類演算法有其適合的資料型態。為此,本研究選擇常見的基礎分類演算法進行模式組合,包含:適用於離散型態資料的簡易貝氏分類器和決策樹;以及適用於連續型態資料的k最鄰近法和支持向量機,各測試20個資料檔。實驗結果發現本研究提出基於樣本過濾的混合型分類方法之分類正確率顯著地優於基礎分類演算法及先前提出的混合型分類演算法。
Hybridization of Basic Classification Algorithms Based on Instance Filtering
乃玉, 楊. (Author). 2020
學生論文: Doctoral Thesis