找出致病基因在醫學研究中是非常重要的議題,生物學家藉由同一個病人身上的腫瘤細胞和正常細胞進行基因定序,基因讀值經過RPKM(reads per kilobyte of exon model per million mapped reads)校正後之差值,可利用成對樣本t檢定找出致病基因。但數以萬計的基因進行多重檢定時,如果不調整個別檢定之顯著水準,則整體型一誤差就會膨脹。目前主要解決方法為控制FDR(false discovery rate)和FWER(familywise error rate)。但當虛無假設不為真時,FWER方法會有較小的檢定力而且趨近保守。但是不論控制FDR或FWER,首先需準確地估計虛無假設的個數。 本研究是針對鄭暘諭(2016)所提出對虛無假設個數進行估計的EM演算法,從單維度拓展至多維度的探討。本研究假設基因資料呈混合型多變量常態分配,估計方法主要分為兩個部分,第一部份提出利用EM演算法以及核密?估計(Kernel Density Estimation) 的兩種估計方法,第二部分利用廣義估計方程式(Generalized estimating equation,簡稱GEE)進行估計虛無假設為真的比例和單一顯著水準?值。最後,考慮基因表現值分別在低、中和高相關時,和資料是否呈多變量常態分配下進行模擬,並比較和探討三種提出方法的優劣。
Date of Award | 2017 Aug 7 |
---|
Original language | Chinese |
---|
Supervisor | Mi-Chia Ma (Supervisor) |
---|
利用核密度和廣義估計方程式估計致病基因的個數
方渝, 吳. (Author). 2017 Aug 7
Student thesis: Master's Thesis