基因上位作用(epistasis)介紹與發現

linnil1
7 min readFeb 19, 2020

本篇會介紹兩個方向

  • 何謂上位作用
  • 目前如何偵測上位作用

基本概念

基因型(genotype) 與 表現型(phenotype)

genotype 就是你的 DNA,也就是 ATCG… 的序列組成,中間經過 mRNA、蛋白質的過程,這裡先不討論,最後再跟環境互動,最後變成你能觀察到的樣子,那就是 phenotype ,比如說 有沒有生病,花瓣的顏色

Genotype 跟 phenotype 示意圖

點位(SNP) 跟 等位基因(allele)

假設豌豆(Pea plant)的 gene 是 bb 最後導致花瓣顏色為白色。在此例子中,bb 是 genotype 而白色是 phenotype。

我們會說這是一個 SNP (通常SNP會有一個名字代號),這段基因在某段染色體上的一個地方。這個地方有兩個可能的 alleles 分別是 B 或 b,因為人類是有兩倍體,所以這個 SNP 有 BB, Bb, bb 三個可能組合

Copied from wiki(https://en.wikipedia.org/wiki/Genotype)

上位作用(epistasis)

一樣也是顏色問題,拉不拉多(Labrador Retriever)的毛色有三種,B* 表示是黑色,bb 是棕色。然後當另外一個 SNP 是 ee 的時候是黃色,我們就說這個 SNP 對剛剛那個 SNP 有上位作用。

講簡單一點,上位作用就是 A SNP 會影響 B SNP 。

Copied from Wiki(https://en.wikipedia.org/wiki/Labrador_Retriever_coat_colour_genetics)

偵測

資料

我們先呈現一下資料的長相,避免下面的文章寫得有點抽象

通常這種分析的 table 會長這樣,如下表

Example Table

Note:

  • 通常有很多格式表達這個表格,不過大抵是這樣
  • 每個 SNP 只會在 AA, Aa, aa 其中一格是 1
  • pheontype 通常會當作應變數 (dependent variable)來用
  • 從這三個 samples 做一點不負責任的推測,可以發現 phenotype 可能跟 C-SNP 有沒有含 C 有關聯

關聯性分析

我們先看怎麼做單基因的關聯性分析

以豌豆的例子,我們可以用 Fisher’s exact test 來檢測 SNP 有沒有跟花瓣顏色有關係(i.e. 能不能拿來預測),越有關係 p-value 越低(越能拒絕 null hypothesis),就是很顯著的意思。可以想像如下:

p-value <- fisher_exact(SNP_A, phenotype)

這招是 Plink(https://www.cog-genomics.org/plink2/) 在做 GWAS(genome-wide association studies) 的其中一項方法。

最後會產生 manhattan plot 其中 x 軸是每個 SNP, y 軸是 -log(p-value),所以越高越顯著。(此圖為阿茲海默症的 GWAS 圖,可以發現最顯著也最知名的是 ApoE 這個 gene)。

GWAS analysis for Alzheimer(Lambert et al, 2013).

上位作用偵測

可是你會發現如果用在拉不拉多上 p-value 就不會這麼明顯,因為有其他 SNP 在干擾,解決方式很簡單,把兩個 SNP 當成一個大 SNP 再拿去算就行了,其中 SNP_A * SNP_B 就是 枚舉 AABB, AaBB, aaBB, AABb, AaBb, Aabb, aaBB, aaBb, aabb 這九個可能性,共作九次 testing

p-value <- fisher_exact(SNP_A*SNP_B, phenotype)

然後會期望 BBee, Bbee, bbee 這三個 p-value 值會比較低。但是如果有 1000000 個 SNPs ,就要做 1*10^12 個 testing 一定會算不完。

第二件可能的問題是偽陽性(false positive = type 1 error)會多,因為我們在做 hypothesis testing 時,就會有 type 1 error 的存在,當檢測的東西很多時,type 1 error 的量也會變多(比例可能不變),所以未來要用更聰明且更強健的方法來找出上位作用的 SNP。

What is Next:

  • 更好的方法找,如 genepi(https://github.com/Chester75321/GenEpi),其中用了 chi-square test, alleles frequency, cross-validation, parameters of regression 來檢驗 SNP ,詳情請參閱論文,這裡不細講。
  • 更多已知資訊;genotype 跟 phenotype 中間我們略過,當作黑盒子的地方,譬如說 pathway, binding site

備註: haplotype

在看相關 paper 時,其中你常會看到 haplotype ,其實可以想像成兩個 SNP 行為不是獨立的,所以可以把兩個 SNP 當一個看,可以說是減少參數的方法。

比如說,在一個群體中 SNP_A 出現 A 跟 SNP_B 出現 b 的機率沒有 independent ,可以計算如下式(其實就是獨立事件的算法)

D = P(Ab) - P(A)P(b)

當 D 越偏離 0 ,代表越 dependent,這個又叫 linkage disequilibrium ,可能原因比如說這兩個 SNP 在染色體的距離很近,使得在做 crossover 時,他們幾乎同時出現。

Copied from https://www.khanacademy.org/science/biology/classical-genetics/chromosomal-basis-of-genetics/a/linkage-mapping

這個性質同時也不容易改變,也就是說,同一區域或有血緣關係的人,那段 haplotype 會長得很像。

Reference

  • Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M. A., Bender, D., … & Sham, P. C. (2007). PLINK: a tool set for whole-genome association and population-based linkage analyses. The American journal of human genetics, 81(3), 559–575.
  • Chang, Y. C., Wu, J. T., Hong, M. Y., Tung, Y. A., Hsieh, P. H., Yee, S. W., … & Alzheimer’s Disease Neuroimaging Initiative. (2019). GenEpi: Gene-based Epistasis Discovery Using Machine Learning. bioRxiv, 421719.
  • Wiki
  • Lambert, J.-C., Ibrahim-Verbaas, C., Harold, D., Naj, A., Sims, R., Bellenguez, C., . . . Ciaramella, A. (2013). Meta-analysis of 74,046 individuals identifies 11 new susceptibility loci for Alzheimer’s disease. Nature Genetics, 45, 1–9. doi:10.1038/ng.2802

--

--

linnil1

目前做生物資訊與演算法,過去做過 Machine Vision(Deep learning),維護伺服器(k8s, docker),部分IOT(rpi, arduino)