在資料探勘技術中,資料分類是一項十分重要的探勘方法,而由於現今網路資訊量過於龐雜,所蒐集到的資料品質並不穩定,因此採用資料前處理技術適當過濾資料時,能夠改善分類結果品質。目前常使用的資料前處理技術,可以分為針對資料檔屬性特徵,或是針對訓練樣本進行過濾兩種方式。針對屬性特徵的部分,除了特徵選取方法外,?多學者結合不同分類方法或是分群方法,透過重複測試?多屬性特徵子集以得到最佳分類結果;針對訓練樣本的部分,有學者透過對訓練樣本的隨機重取樣,建構?多個分類預測模型。另外也有學者提出樣本減少方法,將採用最近鄰居法時被分類錯誤的訓練樣本直接移除。本研究則提出一種針對訓練樣本的混合分類方法,利用分類方法將全訓練樣本進行適當重分組,同時保留分類資訊較多的全訓練樣本,最後在預測階段中,透過比較測試樣本與每一組訓練樣本之近似程度來決定預測模型。本研究採用20個資料檔,並分別針對分類正確率及花費的計算時間,與基礎分類方法和其他學者提出之混合分類方法進行比較。根據實證結果可以知道,採用本研究混合分類方法時,雖然相較基礎分類方法需要花費較多的計算時間,然而將近一半的資料檔中都可以顯著提升基礎分類方法之分類正確率,且在所有資料檔中皆等於或大於基礎分類方法得到的正確率;與混合分類方法正確率之統計檢定結果的整體比較下,本研究亦能夠得到顯著較佳之結果。除此之外,針對訓練樣本執行K等分交叉驗證及單一預測模型的設計,本研究方法亦能夠維持一定的計算時間,同時保有相對較好的解釋能力。
Date of Award | 2017 Jul 28 |
---|
Original language | Chinese |
---|
Supervisor | Tzu-Tsung Wong (Supervisor) |
---|
以資料二元分割方式為基礎的混合分類方法
國鴻, 陳. (Author). 2017 Jul 28
Student thesis: Master's Thesis