Construction of a non-communicable disease risk prediction model using data mining methods

論文翻譯標題: 基於資料探勘技術之非傳染性疾病風險預測模型建立
  • 黃 唯軒

學生論文: Doctoral Thesis

摘要

本論文旨在利用身心健康狀況自評表的問卷資料以及臨床收集之生理資料建立非傳染性疾病的風險預測與分析模型。身心健康狀況自評表的資料包含生理症狀以及生活習慣,而臨床收集的資料則包含有受測者基本資料、生化指標、X光等檢驗報告結果。本論文所開發之模型共有兩種:第一種是單純利用受測者填寫之問卷資料評估其非傳染性疾病之風險高低:第二種為使用臨床收集資料所預測之非傳染性疾病風險高低,進一步預測其非傳染性疾病的風險。本研究在國立成?大學醫學院附設醫院的健康管理中心利用回溯性方式,總共收集2 361名受試者在檢驗室收集之臨床資料以及2 270筆的問卷資料,這兩部分的資料在排除遺漏資料後,透過Boruta演算法的特徵選取法分別選出對於各別疾病辨識效果較為良好的輸入特徵。本論文使用五種不同的預測模型,分別為決策樹、隨機森林、支持向量機、倒傳遞神經網路、輕量化梯度提升器,並比較其有效性。第一種問卷預測的結果顯示,輕量化梯度提升器在預測非酒精性脂肪肝病有最好的結果,其平均標準率、靈敏度、特異度與曲線下面積(AUC)分別為73 3%、73 52%、72 86%、0 7319,並發現睡眠情形以及喝咖啡的情形會對非酒精性脂肪肝病之得病風險有所影響,此外,輕量化梯度提升器在預測高血壓、高血糖、高血脂有最好的結果,其平均曲線下面積(AUC)分別為0 7384、0 7137、0 6181,也從分析結果中中發現模型在預測高血脂的表現明顯較差,在與領域專家討論後確定其原因為問卷資料的內容,無法充分表現高血脂的症狀導致預測上表現的不佳,未來需要考慮增加針對性的問卷資料,例如:高血脂問卷。第二種臨床資料預測的結果顯示,輕量化梯度提升器在預測非酒精性脂肪肝病有最好的結果,其平均標準率、靈敏度、特異度與曲線下面積(AUC)分別為80 9%、81 25%、80 3%、0 8077。綜合以上結果顯示,使用輕量化梯度提升器可得到最佳結果,對於非酒精性脂肪肝病的預測,其平均標準率為80 9%,並且還能額外得到疾病上有價值的影響因素分析結果。研究結果驗證了本論文提出之方法的可行性。希望未來能將提供民眾方便且快速的工具進行居家健康檢查項目選擇的建議,並分析日常生活習慣的情形,以此來讓民眾能夠針對風險較高的疾病進行檢查或預防。
獎項日期2019
原文English
監督員Jeen-Shing Wang (Supervisor)

引用此

'