本篇會介紹兩個方向
- 何謂上位作用
- 目前如何偵測上位作用
基本概念
基因型(genotype) 與 表現型(phenotype)
genotype 就是你的 DNA,也就是 ATCG… 的序列組成,中間經過 mRNA、蛋白質的過程,這裡先不討論,最後再跟環境互動,最後變成你能觀察到的樣子,那就是 phenotype ,比如說 有沒有生病,花瓣的顏色
點位(SNP) 跟 等位基因(allele)
假設豌豆(Pea plant)的 gene 是 bb 最後導致花瓣顏色為白色。在此例子中,bb 是 genotype 而白色是 phenotype。
我們會說這是一個 SNP (通常SNP會有一個名字代號),這段基因在某段染色體上的一個地方。這個地方有兩個可能的 alleles 分別是 B 或 b,因為人類是有兩倍體,所以這個 SNP 有 BB, Bb, bb 三個可能組合
上位作用(epistasis)
一樣也是顏色問題,拉不拉多(Labrador Retriever)的毛色有三種,B* 表示是黑色,bb 是棕色。然後當另外一個 SNP 是 ee 的時候是黃色,我們就說這個 SNP 對剛剛那個 SNP 有上位作用。
講簡單一點,上位作用就是 A SNP 會影響 B SNP 。
偵測
資料
我們先呈現一下資料的長相,避免下面的文章寫得有點抽象
通常這種分析的 table 會長這樣,如下表
Note:
- 通常有很多格式表達這個表格,不過大抵是這樣
- 每個 SNP 只會在 AA, Aa, aa 其中一格是 1
- pheontype 通常會當作應變數 (dependent variable)來用
- 從這三個 samples 做一點不負責任的推測,可以發現 phenotype 可能跟 C-SNP 有沒有含 C 有關聯
關聯性分析
我們先看怎麼做單基因的關聯性分析
以豌豆的例子,我們可以用 Fisher’s exact test 來檢測 SNP 有沒有跟花瓣顏色有關係(i.e. 能不能拿來預測),越有關係 p-value 越低(越能拒絕 null hypothesis),就是很顯著的意思。可以想像如下:
p-value <- fisher_exact(SNP_A, phenotype)
這招是 Plink(https://www.cog-genomics.org/plink2/) 在做 GWAS(genome-wide association studies) 的其中一項方法。
最後會產生 manhattan plot 其中 x 軸是每個 SNP, y 軸是 -log(p-value),所以越高越顯著。(此圖為阿茲海默症的 GWAS 圖,可以發現最顯著也最知名的是 ApoE 這個 gene)。
上位作用偵測
可是你會發現如果用在拉不拉多上 p-value 就不會這麼明顯,因為有其他 SNP 在干擾,解決方式很簡單,把兩個 SNP 當成一個大 SNP 再拿去算就行了,其中 SNP_A * SNP_B 就是 枚舉 AABB, AaBB, aaBB, AABb, AaBb, Aabb, aaBB, aaBb, aabb 這九個可能性,共作九次 testing
p-value <- fisher_exact(SNP_A*SNP_B, phenotype)
然後會期望 BBee, Bbee, bbee 這三個 p-value 值會比較低。但是如果有 1000000 個 SNPs ,就要做 1*10^12 個 testing 一定會算不完。
第二件可能的問題是偽陽性(false positive = type 1 error)會多,因為我們在做 hypothesis testing 時,就會有 type 1 error 的存在,當檢測的東西很多時,type 1 error 的量也會變多(比例可能不變),所以未來要用更聰明且更強健的方法來找出上位作用的 SNP。
What is Next:
- 更好的方法找,如 genepi(https://github.com/Chester75321/GenEpi),其中用了 chi-square test, alleles frequency, cross-validation, parameters of regression 來檢驗 SNP ,詳情請參閱論文,這裡不細講。
- 更多已知資訊;genotype 跟 phenotype 中間我們略過,當作黑盒子的地方,譬如說 pathway, binding site
備註: haplotype
在看相關 paper 時,其中你常會看到 haplotype ,其實可以想像成兩個 SNP 行為不是獨立的,所以可以把兩個 SNP 當一個看,可以說是減少參數的方法。
比如說,在一個群體中 SNP_A 出現 A 跟 SNP_B 出現 b 的機率沒有 independent ,可以計算如下式(其實就是獨立事件的算法)
D = P(Ab) - P(A)P(b)
當 D 越偏離 0 ,代表越 dependent,這個又叫 linkage disequilibrium ,可能原因比如說這兩個 SNP 在染色體的距離很近,使得在做 crossover 時,他們幾乎同時出現。
這個性質同時也不容易改變,也就是說,同一區域或有血緣關係的人,那段 haplotype 會長得很像。
Reference
- Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M. A., Bender, D., … & Sham, P. C. (2007). PLINK: a tool set for whole-genome association and population-based linkage analyses. The American journal of human genetics, 81(3), 559–575.
- Chang, Y. C., Wu, J. T., Hong, M. Y., Tung, Y. A., Hsieh, P. H., Yee, S. W., … & Alzheimer’s Disease Neuroimaging Initiative. (2019). GenEpi: Gene-based Epistasis Discovery Using Machine Learning. bioRxiv, 421719.
- Wiki
- Lambert, J.-C., Ibrahim-Verbaas, C., Harold, D., Naj, A., Sims, R., Bellenguez, C., . . . Ciaramella, A. (2013). Meta-analysis of 74,046 individuals identifies 11 new susceptibility loci for Alzheimer’s disease. Nature Genetics, 45, 1–9. doi:10.1038/ng.2802