基因上位作用(epistasis)介紹與發現

linnil1

7 min readFeb 19, 2020

本篇會介紹兩個方向

何謂上位作用
目前如何偵測上位作用

基本概念

基因型(genotype) 與表現型(phenotype)

genotype 就是你的 DNA，也就是 ATCG… 的序列組成，中間經過 mRNA、蛋白質的過程，這裡先不討論，最後再跟環境互動，最後變成你能觀察到的樣子，那就是 phenotype ，比如說有沒有生病，花瓣的顏色

點位(SNP) 跟等位基因(allele)

假設豌豆(Pea plant)的 gene 是 bb 最後導致花瓣顏色為白色。在此例子中，bb 是 genotype 而白色是 phenotype。

我們會說這是一個 SNP (通常SNP會有一個名字代號)，這段基因在某段染色體上的一個地方。這個地方有兩個可能的 alleles 分別是 B 或 b，因為人類是有兩倍體，所以這個 SNP 有 BB, Bb, bb 三個可能組合

Copied from wiki(https://en.wikipedia.org/wiki/Genotype)

上位作用(epistasis)

一樣也是顏色問題，拉不拉多(Labrador Retriever)的毛色有三種，B* 表示是黑色，bb 是棕色。然後當另外一個 SNP 是 ee 的時候是黃色，我們就說這個 SNP 對剛剛那個 SNP 有上位作用。

講簡單一點，上位作用就是 A SNP 會影響 B SNP 。

Copied from Wiki(https://en.wikipedia.org/wiki/Labrador_Retriever_coat_colour_genetics)

偵測

資料

我們先呈現一下資料的長相，避免下面的文章寫得有點抽象

通常這種分析的 table 會長這樣，如下表

Note:

通常有很多格式表達這個表格，不過大抵是這樣
每個 SNP 只會在 AA, Aa, aa 其中一格是 1
pheontype 通常會當作應變數 (dependent variable)來用
從這三個 samples 做一點不負責任的推測，可以發現 phenotype 可能跟 C-SNP 有沒有含 C 有關聯

關聯性分析

我們先看怎麼做單基因的關聯性分析

以豌豆的例子，我們可以用 Fisher’s exact test 來檢測 SNP 有沒有跟花瓣顏色有關係(i.e. 能不能拿來預測)，越有關係 p-value 越低(越能拒絕 null hypothesis)，就是很顯著的意思。可以想像如下:

p-value <- fisher_exact(SNP_A, phenotype)

這招是 Plink(https://www.cog-genomics.org/plink2/) 在做 GWAS(genome-wide association studies) 的其中一項方法。

最後會產生 manhattan plot 其中 x 軸是每個 SNP， y 軸是 -log(p-value)，所以越高越顯著。(此圖為阿茲海默症的 GWAS 圖，可以發現最顯著也最知名的是 ApoE 這個 gene)。

GWAS analysis for Alzheimer(Lambert et al, 2013).

上位作用偵測

可是你會發現如果用在拉不拉多上 p-value 就不會這麼明顯，因為有其他 SNP 在干擾，解決方式很簡單，把兩個 SNP 當成一個大 SNP 再拿去算就行了，其中 SNP_A * SNP_B 就是枚舉 AABB, AaBB, aaBB, AABb, AaBb, Aabb, aaBB, aaBb, aabb 這九個可能性，共作九次 testing

p-value <- fisher_exact(SNP_A*SNP_B, phenotype)

然後會期望 BBee, Bbee, bbee 這三個 p-value 值會比較低。但是如果有 1000000 個 SNPs ，就要做 1*10^12 個 testing 一定會算不完。

第二件可能的問題是偽陽性(false positive = type 1 error)會多，因為我們在做 hypothesis testing 時，就會有 type 1 error 的存在，當檢測的東西很多時，type 1 error 的量也會變多(比例可能不變)，所以未來要用更聰明且更強健的方法來找出上位作用的 SNP。

What is Next:

更好的方法找，如 genepi(https://github.com/Chester75321/GenEpi)，其中用了 chi-square test, alleles frequency, cross-validation, parameters of regression 來檢驗 SNP ，詳情請參閱論文，這裡不細講。
更多已知資訊；genotype 跟 phenotype 中間我們略過，當作黑盒子的地方，譬如說 pathway, binding site

備註: haplotype

在看相關 paper 時，其中你常會看到 haplotype ，其實可以想像成兩個 SNP 行為不是獨立的，所以可以把兩個 SNP 當一個看，可以說是減少參數的方法。

比如說，在一個群體中 SNP_A 出現 A 跟 SNP_B 出現 b 的機率沒有 independent ，可以計算如下式(其實就是獨立事件的算法)

D = P(Ab) - P(A)P(b)

當 D 越偏離 0 ，代表越 dependent，這個又叫 linkage disequilibrium ，可能原因比如說這兩個 SNP 在染色體的距離很近，使得在做 crossover 時，他們幾乎同時出現。

Copied from https://www.khanacademy.org/science/biology/classical-genetics/chromosomal-basis-of-genetics/a/linkage-mapping

這個性質同時也不容易改變，也就是說，同一區域或有血緣關係的人，那段 haplotype 會長得很像。

Reference

Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M. A., Bender, D., … & Sham, P. C. (2007). PLINK: a tool set for whole-genome association and population-based linkage analyses. The American journal of human genetics, 81(3), 559–575.
Chang, Y. C., Wu, J. T., Hong, M. Y., Tung, Y. A., Hsieh, P. H., Yee, S. W., … & Alzheimer’s Disease Neuroimaging Initiative. (2019). GenEpi: Gene-based Epistasis Discovery Using Machine Learning. bioRxiv, 421719.
Wiki
Lambert, J.-C., Ibrahim-Verbaas, C., Harold, D., Naj, A., Sims, R., Bellenguez, C., . . . Ciaramella, A. (2013). Meta-analysis of 74,046 individuals identifies 11 new susceptibility loci for Alzheimer’s disease. Nature Genetics, 45, 1–9. doi:10.1038/ng.2802

基因上位作用(epistasis)介紹與發現

基本概念

基因型(genotype) 與表現型(phenotype)

點位(SNP) 跟等位基因(allele)

上位作用(epistasis)

偵測

資料

關聯性分析

上位作用偵測

備註: haplotype

Reference

Written by linnil1

No responses yet

基因上位作用(epistasis)介紹與發現

基本概念

基因型(genotype) 與 表現型(phenotype)

點位(SNP) 跟 等位基因(allele)

上位作用(epistasis)

偵測

資料

關聯性分析

上位作用偵測

備註: haplotype

Reference

Written by linnil1

No responses yet

基因型(genotype) 與表現型(phenotype)

點位(SNP) 跟等位基因(allele)