現今網路科技以及電腦資訊的磅礡發展下,講求高效率運作與提升精準度已成為目前技術發展的目標,而數據處理為這一切發展的根基,在大數據文化的迫使下,數據不再像之前一樣單純,而是參雜著錯綜複雜的資訊使得現今機器學習或是深度學習上分析精準度以及效能受到不小的影響,再加上文字數據本身的複雜度,以及不平衡資料的問題提高,時常導致分類器在學習的過程當中,對小類別資料(Minority class)時常誤分類為大類別資料(Majority class),使結果有著顯著的偏差。小類別的資料通常數量少而具有重要的意義,因此,如何在類別比例懸殊的文字資料集進行資料分析是一個實務上的挑戰和議題。隨機抽樣(Random Sampling)是處理不平衡資料集的手段之一,該方法分為兩種,一為過抽樣(Oversampling),二為欠抽樣(Undersampling),過抽樣指的是針對小類別樣本進行隨機複製,來增加其樣本數,而欠抽樣則是針對大類別樣本進行隨機刪減,兩者的目的都是為了降低不平衡比例,但這種方法在情感分析的情境下,可能會導致訓練時產生過擬合(Overfitting)和訊息缺失的問題。本研究為了解決該問題,提出二階段平衡分類法,目的為讓學習模型之建立在資料量平衡的情境下來找出理想的分類情況。方法之第一階段透過成本敏感度支持向量機(Cost-sensitive support vector machine CS-SVM),找出不平衡比例低的資料集,而在第二階段使用支持向量機(Support Vector Machine SVM),將第一階段產出的平衡資料集進行分類,並依據分類結果以基因演算法(Genetic Algorithm GA)來處理SVM中誤分類懲罰成本C和篩選核函數中的參數Γ。
A Novel Classification Method Based on a Two-Phase Technique for Learning Imbalanced Text Data
文彥, 徐. (Author). 2020
學生論文: Doctoral Thesis