專案詳細資料
Description
學習類別不平衡資料對於研究者而言是一項艱困的任務,因多數的機器學習演算法會誤將少數類別樣本視為可容忍的誤差,而將所有樣本分類為多數類別樣本,以達到高分類準確率的結果。為平衡訓練資料中的類別比例,合成少類別過抽樣技術(synthetic minority over-sampling technique, SMOTE)已展現其透過樣本生成方式以改善少量類別之分類結果,然而部分的合成樣本可能是雜訊資料,反而降低分類的量測結果。後續發展的SMOTE延伸版本試圖經由決定樣本應生成的範圍以避免產生雜訊資料,然而他們在本質上仍無法解決這個問題,因SMOTE係基於最近鄰居法(k nearest neighbor, kNN)所開發,而kNN基本上無法得知兩筆少數類別樣本間多數類別樣本的分布狀況。為達成此目的,本研究提出一個三階段的學習方法,首先依據定義的區域半徑以計算各少數類別樣本在自身範圍內的類別比率,並選擇類別比例高於平均類別比率的少數類別樣本來生成新樣本,這樣的策略乃因這些樣本被較少的多數類別樣本所包圍;方法的第二步使用DBSCAN(density-based spatial clustering of applications with noise)對這些樣本進行分群;當在群內產生樣本時,則計算兩筆成對的少量類別樣本之間的多數類別分佈情況,並稱為區域不純度指標,用以避免生成的樣本被多數類別樣本所污染。本研究所提出之區域不純度-合成少類別過抽樣技術(Region-Impurity-SMOTE, RI-SMOTE)期望能透過21筆公開資料的實驗來驗證其分類效能(如F度量與曲線下面積)比SMOTE和多數延伸版本有更佳的結果。
狀態 | 已完成 |
---|---|
有效的開始/結束日期 | 20-08-01 → 21-07-31 |