多維度區別變數之區別函數的建立

Translated title of the thesis: The Search of Discriminant Function for Multi-dimensional Discriminant Variables
  • 劉 梓揚

Student thesis: Master's Thesis

Abstract

在各領域中,從已發現的風險因子或感興趣因子中,若適當地應用區別函數,可判讀如某種疾病病患是否可能復發或未復發,或某項產品消費者是否可能購買或不購買。常見的區別函數方法,如線性區別函數、二次區別函數為區別參數方法;但無母數方法,如最近鄰居法、Hechenbichler & Schliep (2004)之加權最近鄰居法、Duong & Hazelton (2005)之核密度估計法等,雖有區別規則,卻未有特定的實質函數形式。本文試圖利用無母數方法了解區別函數的可能行為,進而以參數化的方式估計此區別函數,使得在實際操作上更加便利。 本文估計線性區別函數的方法,有別於迴歸模型的設計,取損失函數為資料點到配適函數之投影距離和最小來求取直線的參數估計。二次曲線及曲面上之作法,則為利用Taubin (1991)之Taubin配適法,來估計曲線及曲面參數。當區別邊界為非傳統型之不規則型態時,係利用「連續函數行為皆可用分段直線來近似」的概念,發展分段線性模型,以資料點到配適函數之投影距離和最小,來求取此分段線性模型的參數估計。 為了解本文所建議之建立區別函數方法的表現,我們模擬了不規則非常態資料,利用無母數區別方法了解資料特性及區別函數的可能行為,進而對其區別規則以參數化函數近似。評估區別方法則利用訓練資料集及交叉驗證檢驗法來估計錯誤分類率,並藉由曲線下面積(Area Under Curve AUC) 來論斷各區別方法之表現。本文所提出之以參數方法近似無母數方法所得的區別函數,其在分類上較在最佳狀態為線性區別或二次區別函數時的表現(在較高的AUC值及較低的錯誤分類率上)並未有大的差異,而相對於模擬較複雜資料型態上以無母數區別法來分類時,本文所引入的近似方法亦有不錯的績效。
Date of Award2016 Aug 2
Original languageChinese
SupervisorShih-Huang Chan (Supervisor)

Cite this

'