A Study on Concept Recognition in Biomedical Field Using Gene Ontology as an Example

論文翻譯標題: 生物醫學領域中概念辨識的研究 以基因本體學為例
  • 楊 家融

學生論文: Doctoral Thesis

摘要

近年來,自然語言處理在生物醫學的專業領域上遇見障礙;專業領域的語言使用和一般領域大相逕庭。在基因本體學等非常專精的領域中常常缺乏大型的訓練資料集,使得強大的深度學習技巧難以在小資料集中施展。 我們在研究中所採用的 Colorado Richly Annotated Full-Text 資料集包含 67 篇的全文文件,由生物學家標註「基因本體學」的資料。我們在研究中找尋出「基因本體學概念辨識」的困難所在,並且用「有名字的概念」為刀,把難題一分為二,分別用字典查找和機器學習來克服。第一步我們先用「有名字的概念」把「基因本體學概念」的資料重新架構,第二步我們再運重新架構的「基因本體學」來完成概念辨識的需求。 我們的系統在 F1-measure 上比先前頂尖的系統進步了約 20%,達到 0 804 的 precision 及 0 715 的 recall。我們也證明了使用「有名字的概念」的想法有效,或?可以推廣到其他專業的語言上。
獎項日期2019
原文English
監督員Jung-Hsien Chiang (Supervisor)

引用此

'