在資料探勘領域中,常使用K等分交叉驗證法作為分類演算法之評估方法,但以此方法所獲得之分類正確率變異數通常較大,導致在後續的統計檢定中只能定下較保守的結論,因此,部分文獻建議重複執行交叉驗證法,並宣稱此法可以得到變異數較低的估計量,然而多數的文獻未提及每一輪交叉驗證之間的相關性,若每一輪交叉驗證間存在高度相關,忽略相關性將產生對變異數過度低估的情形,且高度相關的存在也代表由任一輪交叉驗證皆能獲得相似的結果,表示不一定需要耗費運算能量來重複執行K等分交叉驗證法。因此本研究的目的在於探討重複執行K等分交叉驗證法的合適性,考慮由每一輪交叉驗證所得之分類正確率是否符合獨立假設對分類正確率變異數計算的影響;以k近鄰演算法,令k為一,應用其較為簡單的特性來探討預測結果在不同輪間為相依或獨立之情形,並提出判斷每輪間是否達高度相關之統計檢定方法,以探討高度相關的情形在實際資料檔中發生的頻率。根據理論與實際驗證之結果,變異數之計算不應假設不同輪交叉驗證間為獨立,而相關性會隨著等分數的增加而變強,多數資料檔在10等分交叉驗證法下,重複執行將會有超過70%的資料分類結果相同;在大樣本條件成立下,若使用平均每輪變異數的算法來做為變異數的估計則較耗費運算能力。最後,本研究探討如何合適的使用重複執行K等分交叉驗證法,建議使用低重複高等分數之K等分交叉驗證法。
Date of Award | 2017 Jul 24 |
---|
Original language | Chinese |
---|
Supervisor | Tzu-Tsung Wong (Supervisor) |
---|
探討重複執行K等分交叉驗證法之合適性研究
柏揚, 葉. (Author). 2017 Jul 24
Student thesis: Master's Thesis