Multi-Document Reading Comprehension Based on BERT and Reinforcement Learning – Building a Health Knowledge Question Answering System

論文翻譯標題: 基於BERT與增強式學習的多文件?讀理解模型-建構健康知識領域問答系統
  • 曹 何謙

學生論文: Doctoral Thesis

摘要

近年來透過文件進行問答已經成為一個熱門的研究議題。機器?讀理解是基於文件的問答系統中一個核心的部分,其目的為從問題相關的文件或段落中,找到答案出現的地方。為了要更貼近將機器?讀理解的技術整合在問答系統的情況,?多基於多文件?讀理解的研究被提出。在多文件?讀理解中,需要從數篇文件內找到問題相關的答案,而非從某一個已知與問題相關的段落中找答案。 多文件?讀理解一個常見的方法是會將預測答案分成兩個步驟,首先從先從數篇文件內挑選出可能包含答案的段落,再從這些被選出的段落中抽取出答案進行預測。然而這樣的方法遇到的問題是當第一個步驟挑出的?多錯誤的段落時,就會導致第二個步驟無法正確的抽取答案。在本研究中,我們使用了增強式學習來解決這樣的問題。另一個將機器?讀理解的模型應用於問答系統會遇到的困難點為缺乏在應用領域上的人工標註訓練資料。用來訓練模型的資料分布與應用領域上資料分布的差異導致模型的表現下降。為了減緩這樣的問題我們基於BERT來建構了兩個模型:段落排序模型和答案抽取模型。並且使用它們來建構健康知識領域的問答系統。 為了驗證我們的方法,我們百度的DuReader資料集和自行收集的健康知識領域?讀理解資料集進行實驗評估。實驗的結果顯示本篇提出的答案抽取模型可以改善應用領域上表現下降的問題,以及使用增強式學習的訓練方法可以增進段落排序模型的表現。
獎項日期2020
原文English
監督員Jung-Hsien Chiang (Supervisor)

引用此

'