不同分類器的混合型離散化方法之一致性分析

Translated title of the thesis: Consistency Analysis of Hybrid Discretization Method among Classification Algorithms
  • 黃 柏翰

Student thesis: Master's Thesis

Abstract

分類是資料探勘領域中處理資料的一種方法,根據資料的屬性,經過運算處理而得到每筆資料的分類結果。大多數資料檔內的屬性都包含了連續型屬性,在適用於離散型屬性的分類器中,一般會先將連續型屬性進行離散化處理,將資料轉換為離散型屬性。因此,離散化方法的挑選有可能影響到分類器的預測結果。混合型離散化將連續型屬性個別進行離散化處理,來搜尋最適合的離散化方法。相較於將同一資料檔內的屬性皆採用同一種離散化方法來說,混合型離散化方法更能提升分類正確率。在混合型離散化的文獻中,已經建立出一個適用於多種處理離散型屬性分類器的混合型離散化方法,且在資料前置處理步驟時即可完成所有的離散化動作。然而,在決策樹的分類結果上,使用混合型離散化方法與統一離散化方法的結果持平。因此本研究的目的在於探討不同分類器最佳混合型離散化方法的一致性,希望在了解一致性高低後,能提供混合型離散化方法修正的方向,改善適用於不同分類器的混合型離散化方法。本研究將利用交替採用最佳混合型離散化方法與新提出的一致性測度,來衡量不同分類器最佳混合型離散化方法的一致程度。本研究使用30個資料檔分別於決策樹、簡易貝氏分類器、與基於規則分類器進行分類驗證,相較於交替採用最佳混合型離散化方法,分類器本身的最佳混合型離散化方法已能達不錯的正確率,但仍有些結果優於本身的最佳混合型離散化方法,且一致性測度結果明顯偏低,表示不同分類器的混合型離散方法不一致。因此若想求解適用不同分類器的最佳混合型離散化組合,可能需重新考量各別分類器之特性,並將特性加入計算當中,才有機會於前置處理階段即求得適用於不同分類器的最佳混合型離散化方法。
Date of Award2015 Jul 23
Original languageChinese
SupervisorTzu-Tsung Wong (Supervisor)

Cite this

不同分類器的混合型離散化方法之一致性分析
柏翰, 黃. (Author). 2015 Jul 23

Student thesis: Master's Thesis