分層對使用K等分交叉驗證法來評估分類方法效能之影響

Translated title of the thesis: The impact of stratification on the performance of classification algorithms evaluated by k-fold cross validation
  • 吳 建昆

Student thesis: Master's Thesis

Abstract

目前大多數研究會採用K等分交叉驗證法進行分類正確率估計值的計算,但卻鮮少研究會採用分層法來使各等份內的訓練資料與測試資料更具有代表性,以利降低所得估計值變異數。分層法能更貼切地估計出分類方法的表現程度,但是採用分層法的相關研究,對於一般資料檔與不平衡資料檔則以不同的方向探討,在一般資料檔中,大多以偏誤值與變異數的角度探討分層K等分交叉驗證法與變型方法之間的差異;在不平衡資料檔之下,則為透過精確率或召回率等相關測度探討分層K等分交叉驗證法於稀少類別下,是否能有效降低相關測度的變異程度的研究。?多研究提出各自不同的分層法方法,但目前尚未經過合理的有母數方法進行統計方法檢定,並且明確指出分層法應用於何種情況下較為合適。因此本研究探討這些分層法在實驗環境相同的比較條件下採用決策樹與最近鄰居分類方法,並以有母數統計檢定方法進行檢驗。實驗結果顯示,對於這些分層法相關的評估方法,不論在一般或不平衡資料檔的單一資料檔或多資料檔上,在一般K等分交叉驗證法中有無實施分層法,其所獲得的平均估計值表現結果,會與一般K等分交叉驗證法相近,並不會有較佳或較差的情形。然而,在單一資料檔上所得估計值之變異數的比較中,由於檢定顯示結果差異不大,若以時間層面之考量因素,且預計有較穩定的估計值,則可以實施一般分層法應用於K等分交叉驗證法上即可,若無時間考量,則可以進一步地對一般分層法上採用對該類別所屬資料進行測度衡量的進階分層法,所得到的估計值則會比一般分層法些微穩定。
Date of Award2017 Jun 16
Original languageChinese
SupervisorTzu-Tsung Wong (Supervisor)

Cite this

'