簡介單細胞定序 review

linnil1
9 min readFeb 26, 2020

本篇來自 2018 年 8 月發的 paper: Single-cell RNA sequencing technologies and bioinformatics pipelines

單細胞定序(Single-cell sequencing) 是一門高解析度(high resolution)的測序技術,相較於 bulk sequencing (傳統方法),沒有把細胞們混在一起,所以我們能從裡面獲取更多資訊,因為即使相似細胞也有不同的表現(異質性 hetergeneous)。

下圖為整個流程,我們會一一介紹。

Modified from [Lähnemann et al., 2020], [Eraslan et al., 2019] and [Hwang et al.,2018]

單細胞定序方法

這裡比較多種把單細胞擷取出來並拿去定序的方法與優缺,我在這裡就不細講。

方法會追求幾個要點

  • Sensitivity: 定序到的數量 at 相同條件
  • Accuracy: 進來的 sequence 濃度(mRNA 的數量) 要跟定序後的數量有足夠的相關性
  • Precision: 就是可重複性 實驗間的 variance 越小越好
左圖: 定序的數量(隨著定序深度增高 當然也越貴) 中圖: 定序的精準度(隨著濃度升高) 右圖: 表現出該技術的 variance (越小越好)

跟幾點需要克服的

  • Dropout: 原本量就很少 所以常常抓不到 就會變成 0(zero counts, missing data)
  • Over-amplify:某 gene 跟其他 gene 比起來被複製太多次
Dropout 跟 over-amplify 是指同一件事: 在放大資料時沒有均勻
  • Batch Effect: 其實每次 batch 就是一顆 cell,所以產生的資料就會有些不同,更何況是不同實驗的。把很多 cells 拿來做平均就可以解決這個問題,可是這就跟傳統的 bulk sequencing 一樣ㄌ。
雖然不是很懂圖要說什麼,反正就是每顆 cell 都不一定是完全同樣的實驗條件

資料前處理

總之,因為上面那三個挑戰沒被克服,所以就變成資料處理問題

計算表現量

首先 我們會拿到 scRNA-seq 的資料,也就是一條條序列 ATCGTCG 等等的資料,然後

  1. Quality Control: FastQC 刪掉 low-quality 的資料
  2. Alignment: BWA, STAR 這兩個最常用
  3. 統計數量(Read Count)
Gene Expression 的呈現方式,其中一格格的是該 cell 在 該 gene 的表現量,會是個數字。

最後會獲得上圖,就是把 Gene Expression(GE) 畫出來。

這邊的處理方式大概沒什麼問題,而有關 Mapping 或是 Alignment 的技術,未來有機會再寫成一篇來說明。

Gene Expression(GE)

雖然我們有一大段 DNA 但是每個細胞只會轉錄(transcript)其中特定的 gene 成一條條 mRNA,而且同條序列不只轉錄一次,轉錄越多次代表著 gene 越活躍 = 表現量很大,我們的目的就是去量化、統計某個 gene 的出現次數,來判斷這個細胞功能。

Copied from https://www.ncbi.nlm.nih.gov/Class/MLACourse/Original8Hour/Genetics/gene_expression.html

去雜訊 Denoise

然後 我們希望能弄出一個乾淨且有指標性的方法來處理資料,來表達這個基因真實的表現情況,然後才能做最終的分析,甚至拿去其他 database 比較。

這裡有很多種說法 imputing, data cleaning 個人喜歡 denoising 拉

比如說 最直覺的是使用 autoencoder 來 denoise

Copy from DCA(Eraslan et al, 2019)

目前這項處理還沒有個定論(i.e. 厲害的方法)來把 noise 消光光。不過現在有一堆paper提供方法來處理這種問題,想看 review 的話可以看這篇大觀園 Eleven grand challenges in single-cell data science(Lähnemann et al., 2020)。

資料處理

使用上面處理的資料,也就是每個 cell 有一個高維 vector(從上面那張圖的話,就是一列 column)。然後

  • 降維(Dimension reduction): e.g. PCA, 最後要降到 2D 才方便畫出來
  • 分群(Clustering): 不過這個分群目標不一定要分得很開,原因如下段所述 e.g. k-means

分群後有很多名稱如 clusters = groups = sub-population = clones

Trajectory

通常 single cell 在做 sequencing 時,不一定每個細胞都呈現相同的狀態(hetergeneous),可能會有不同 size 的、處在不同 state 的、在不同 cell cycle 上的,而且不會有人有 label,所以做分群時,如果是不同 tissue, type 就應該分得很開,如下圖左。而處在中間的細胞(transient state, intermediate state)可以組成一個軌道(trajectory = pseudo-time),如下圖右。

左圖 cell type 被分開。右圖 不只分開 還做出 trajectory,因為 single-cell 才有這種 resolution

目前的演算法有 SCUBA, Monocle, Monocle2, Waterfall, Wishbone

分析

從分群與 trajectory 資料,我們希望得到以下幾點

  • 分出不同細胞(廢話
  • 癌細胞可能會從一般細胞被分出來
  • 判斷反應: 如藥物刺激,某個 cluster 數量上升
  • 在一條 trajectory 上,細胞的狀態變化(state dynamics, e.g. 某群細胞的終點變成癌細胞)
  • 細胞譜系 (Cell lineage)(細胞發育) e.g. stem cell, immune cell, brain
  • 受藥物刺激後,這個 trajectory 發生 branching(見下圖)
  • 發現某些新的 pathway
  • 找到某些新的 SNP 跟 regulator

未來

  1. Single-cell sequencing 可以把 RNA, DNA, protein, epigenomic, methylation 同時抓進來分析,會讓科學家更了解整個細胞的生理。
  2. 製造一個 Reference(Database) (1)能比較實驗間的差異 (2) 可以有個 branch mark 來評比演算法的好壞 (3) 記錄所有的細胞與其表現量 如 Human Cell Atlas
  3. 接下來再來介紹 SSrGE 方法並帶完整個 scRNA-seq 的資料處理流程。有提到上面沒講清楚的東西: pathway, SNV, denoising, trajectory

Reference

  1. Hwang, B., Lee, J.H. & Bang, D. Single-cell RNA sequencing technologies and bioinformatics pipelines. Exp Mol Med 50, 96 (2018). https://doi.org/10.1038/s12276-018-0071-8
  2. Ziegenhain, C., Vieth, B., Parekh, S., Reinius, B., Guillaumet-Adkins, A., Smets, M., … & Enard, W. (2017). Comparative analysis of single-cell RNA sequencing methods. Molecular cell, 65(4), 631–643.
  3. Eraslan, G., Simon, L.M., Mircea, M. et al. Single-cell RNA-seq denoising using a deep count autoencoder. Nat Commun 10, 390 (2019). https://doi.org/10.1038/s41467-018-07931-2
  4. Lähnemann, D., Köster, J., Szczurek, E. et al. Eleven grand challenges in single-cell data science. Genome Biol 21, 31 (2020). https://doi.org/10.1186/s13059-020-1926-6

--

--

linnil1

目前做生物資訊與演算法,過去做過 Machine Vision(Deep learning),維護伺服器(k8s, docker),部分IOT(rpi, arduino)