使用離群偵測與實體辨識改進群眾生醫標注系統

Translated title of the thesis: Using outlier detection and entity recognition to improve a crowdsourcing biocuration system
  • 鄭 宇傑

Student thesis: Master's Thesis

Abstract

日新月異的科技,加速人們對生醫領域的探索,相關文獻的發表速度與數量已不可同日而語。為了將數量龐大的文獻分別建立資料庫索引以供查詢,自然語言的資訊擷取模型扮演至關重要的角色。過去,常見的模型不外乎藉由自動化工具處理文獻,再聘請領域專家進行驗證;如此,花費的金錢與專家的時間將成為不可避免的負擔,難以長久維持。而群眾外包概念的形成,造就了短時間內蒐集大量標注資料的可能。若能有效率地整合,將能以相對低廉的花費與較短的時間,獲得有價值的資訊。 本研究應用群眾外包的發想,以一款俱備文獻標注工具的手機遊戲,建立資訊擷取模型。為有效降低離群資料帶來的影響,本研究預先計算群眾間標注結果的相似程度,作為指標以去除差異過大的標注資料。並藉由封閉測試,比較其他自動化工具與方法的標注表現,更探討是否能藉由群眾資料達成單一專家的成效。本研究亦針對標注流程進行分析與改進,同時以自動化工具為輔助,提供群眾更精確地標注文獻。 基於命名實體辨識於資訊擷取範疇之重要性,本研究因而以生醫文獻之命名實體辨識為主軸,設計一系列的實驗與探討,藉此驗證上述模型之成效。實驗結果顯示,經模型整合之群眾標注結果,其整體表現將擁有超過百分之十五的提升,更達到單一領域專家之水準。而透過比較各別玩家和群眾間標注結果之相似程度,與其真實標注能力間,具有大於0 66之斯皮爾曼等級相關係數,證明上述方法用於過濾離群資料之可靠性。此外藉由修改標注流程,並同時引入自動化工具作為輔助,亦將提升玩家之平均標注表現約百分之二點七。最後本研究藉由模擬實驗之結果與分析,提供參考予相關研究單位,自蒐集「能力較好」或「數量較多」等兩項指標中進行取決。
Date of Award2018 Aug 15
Original languageChinese
SupervisorTien-Hao Chang (Supervisor)

Cite this

'