適用於不同分類器的混合型離散化方法

Translated title of the thesis: A hybrid discretization method for classification algorithms
  • 伍 碧那

Student thesis: Master's Thesis

Abstract

分類是資料探勘領域處理資料的一種方法,根據資料的屬性,經過運算處理而得到每筆資料的分類結果。大多數資料檔內的屬性都包含了連續型屬性,在適用於離散型屬性的分類器中,一般會先將連續型屬性進行離散化動作,將資料轉換為離散型屬性。因此,離散化方法的挑選有可能影響到分類器的分類預測的效果。混合型離散化將連續型屬性個別進行離散化動作,來搜尋最適合的離散化方法,相較於將同一資料檔內的屬性皆採用同一種離散化方法來說,更能提升分類正確率。在混合型離散化的文獻中,主要研究適用於簡易貝氏分類器上,並且須採用分類結果來判定最適合的離散化方法,無法在資料前置處理步驟立即完成所有的離散化動作,因此本研究的目的在於建立出一個適用於其它處理離散型屬性的分類器的混合型離散化方法,且在資料前置處理步驟時即可完成所有的離散化動作。本研究將結合作業研究中的網路最佳化問題,並將混合型離散化問題轉換成網路最佳化模型圖,再根據屬性之間以及屬性與類別值的相關性作為評估指標,使用動態規劃來找出一條最佳的路徑,此路徑亦代表著最適合的混合離散化方法。本研究使用20個資料檔分別使用決策樹、簡易貝氏分類器與基於規則分類器進行分類驗證,相較於使用統一離散化方法,混合型離散化方法在放入簡易貝氏分類器與基於規則分類器時,大部分的資料檔的分類正確率皆有所提升,在決策樹的分類結果則是混合型離散化方法與統一離散化方法的結果差不多,因此本研究之研究方法在挑選混合離散化組合上是可行的。
Date of Award2014 Jul 14
Original languageChinese
SupervisorTzu-Tsung Wong (Supervisor)

Cite this

'