一般會使用K等分交叉驗證法(K-fold Cross Validation)來估計一個分類器的分類正確率,K等分交叉驗證法的運作模式是將一資料檔隨機切成K個等分,輪流當其餘(K-1)等分的資料去做訓練、學習後的測試資料,再將得出K筆分類正確率計算平均值,而根據所得之正確率來選擇最佳分類器。通常是使用目前收集的所有資料去產生一個模型,在本研究中稱之為全樣本模型(Full Sample Model),來對任一筆新產生的資料進行預測與結果的解釋,由於沒有其它資料可用來估算全樣本模型的分類正確率,因此一般都會使用K等分交叉驗證法所得到的分類正確率來做為全樣本模型的正確率估計值,這樣的做法在挑選分類器時,有可能會挑選到K等分交叉驗證法的正確率較佳之分類器,其所產生的全樣本模型的表現卻較差的錯選情形。本研究採用三十個資料檔,實驗結果顯示,實際錯選率與理論錯選率於部分分類器選用時會有差不多的結果,而於一些分類器組合時會有不吻合的結果;在從K等分交叉驗證法訓練模型中,選用適合新模型時,將會發現使用K等分交叉驗證法所得之正確率中間的新模型時,與使用全樣本模型比較,在面臨兩兩分類器選擇時,可以降低選錯分類器的錯選情況,代表將來遇到一筆新資料時,可以考慮使用該新模型來取代全樣本模型,做為對新資料的預測及結果的解釋。
Date of Award | 2014 Jul 28 |
---|
Original language | Chinese |
---|
Supervisor | Tzu-Tsung Wong (Supervisor) |
---|
探討K等分交叉驗證法對於分類器錯選率之研究
巧盈, 林. (Author). 2014 Jul 28
Student thesis: Master's Thesis