本文旨在建立有效分群,找出死刑與無期徒刑差異。藉由差異建立特徵,並輔助法官判決,進而降低犯人從審判到執行的成本。 目前國在法律文件分類上的研究已經相當成熟,多為用特徵詞與 SVM 的搭配進行案件分類。而中文判決的相關分析卻相當少,原因在於中文的處理上並不像英文一樣好處理,且詞性的標記上有?多困難。由於上述困難,使得法律判決在分析上,需要花費大量人力進行處理,進而使得研究上有難度。 本文利用政府資料開放平台所提供的判決書,找出死刑與無期徒刑判決。並以這些判決作為訓練資料,用以訓練 word2vec 建立語意空間。取得判決向量後,利用 K-medians、SVM 對判決進行分群。然而,在實驗過程中發現,判決中無意義資訊過多,使得準確率無法上升。最終,以「本院經查」中的內容做為代表該判決的主要資訊,並進行否定詞的合併,作為 word2vec 的訓練資料。以倍率詞作為特徵詞,提取出判決中較具代表的特徵,作為該判決的語意,並進行分群。 最終使用倍率詞之後,準確率提升為 94%。而實證結果發現,高倍率詞與低倍率詞中,存在一些差異較大的詞彙,像是「喋血」、「不實」、「泯滅」、「枉顧」、「兒童」、「教化」、「遷善」等詞。將其與死刑及無期徒刑的平均向量計算相關性,發現有的詞明顯屬於死刑,而有的詞介於二者中間。然而,死刑與無期徒刑也如預想的,兩者之間十分相近。但是藉由特徵詞,建立出死刑與無期徒刑的差異,使得兩者可被明確區分。
The application of artificial intelligence to the law: The classification of capital punishment and life imprisonment
品任, 段. (Author). 2019
學生論文: Doctoral Thesis