資料探勘的分類領域中,資料輸入分類模型就可以推論出類別,當實際遇到一筆新資料時,通常是使用現有的整個資料產生全樣本模型,來對新資料做預測與結果的解釋,但由於現實中並沒有新資料在手邊,一般會使用K等分交叉驗證法來估計全樣本模型的分類正確率。K等分交叉驗證法的運作方式是將資料檔隨機切割成約相同大小的K等分,選取每一等分輪流擔任測試資料,來測試其餘K-1等分的學習結果,因此將會有K個模型及K個正確率,再將這K個正確率進行平均,即為全樣本模型的預測正確率的估計值,然後利用此正確率估計值來挑選較佳分類器。有研究發現這樣的挑選程序,有可能會挑選到K等分交叉驗證法的正確率較佳之分類器,其所產生的全樣本模型的表現卻較差的錯選情形。本研究將採用三十個資料檔,進行重複實驗,計算出更可靠的錯選率數據,實證結果顯示,當K值上升時,錯選率的改變不大,而當面臨分類器選擇越多時,錯選率也會上升,而資料筆數越大的資料檔擁有較小的錯選率,混合型資料檔則有較大的錯選率。選用適用新模型時,本研究採用修改類別值方法或是從K個模型中找出最接近K等分交叉驗證法表現的模型來當作新模型驗證,結果建議可在不同的分類器組合下,選用不同方式的新模型來取代全樣本模型,將可以降低錯選率且維持正確率,以此新模型來取代全樣本模型來對新資料做預測與結果的解釋會更適合。
獎項日期 | 2015 7月 13 |
---|
原文 | ???core.languages.zh_ZH??? |
---|
監督員 | Tzu-Tsung Wong (Supervisor) |
---|
探討K等分交叉驗證法改善分類器錯選率之新模型研究
宜音, 黃. (Author). 2015 7月 13
學生論文: Master's Thesis