次世代基因定序資料遺失值插補與建立模型之研究

Translated title of the thesis: The Study on Missing Value Imputation for Modeling the Data of Next Generation Sequence
  • 吳 哲維

Student thesis: Master's Thesis

Abstract

隨著科技進步,DNA定序技術以及DNA定序平台也跟著推陳出新,定序人員所使用的定序平台每隔一段時間後就有新型的平台出現,在資金充沛的情況下,定序人員將會購入新型的平台,舊有的平台不一定會馬上淘汰,而每一筆定序資料動輒數萬至數十萬元的費用,在保存最大資料量的需求下,因此造成資料分析人員必須同時分析來自不同平台之下的基因序列比對片段讀數資料,此時平台效果(Platform effect)容易影響分析結果。另外,基因晶片容易因為機台分辨率不足、圖像毀損等等原因,產生遺失值(Missing value),導致無法使用已有的統計方法進行分析。 本論文資料是由國立成?大學分子醫學研究所暨基因體醫學中心孫孝芳教授所提供之大腸直腸癌(Colorectal cancer)患者的基因序列比對片段讀數(read count),檢體來自12位大腸直腸癌患者正常和腫瘤細胞,先後使用一種或兩種不同平台定序而得到讀數資料,由於部份檢體只有一種平台的定序資料,使得資料集具有一整行都是遺失值的情況,既有的加權最小鄰近插補法(Weighted K-nearest neighborhood imputation)並不能使用,故本論文將提出迴歸插補法以及修改加權最小鄰近法來解決上述情況,並利用廣義估計方程式(Generalized estimating equation)針對實際資料進行建模。 本論文除了探討不同插補法之下廣義估計方程式模型的參數估計的好壞,另外,我們也想了解在資料具有大量遺失值的情況下,在使用廣義估計方程式建立模型,選取不同的工作相關矩陣對參數估計值是否還具有穩健性。因此透過統計模擬來比較各種插補法對模型參數估計的好壞,以及比較固定相同插補法之下,選擇不同的工作相關矩陣對模型參數估計的差異。
Date of Award2015 Jul 23
Original languageChinese
SupervisorMi-Chia Ma (Supervisor)

Cite this

'