簡介單細胞定序 review

9 min readFeb 26, 2020

本篇來自 2018 年 8 月發的 paper: Single-cell RNA sequencing technologies and bioinformatics pipelines

單細胞定序(Single-cell sequencing) 是一門高解析度(high resolution)的測序技術，相較於 bulk sequencing (傳統方法)，沒有把細胞們混在一起，所以我們能從裡面獲取更多資訊，因為即使相似細胞也有不同的表現(異質性 hetergeneous)。

下圖為整個流程，我們會一一介紹。

Modified from [Lähnemann et al., 2020], [Eraslan et al., 2019] and [Hwang et al.,2018]

單細胞定序方法

這裡比較多種把單細胞擷取出來並拿去定序的方法與優缺，我在這裡就不細講。

方法會追求幾個要點

Sensitivity: 定序到的數量 at 相同條件
Accuracy: 進來的 sequence 濃度(mRNA 的數量) 要跟定序後的數量有足夠的相關性
Precision: 就是可重複性實驗間的 variance 越小越好

左圖: 定序的數量(隨著定序深度增高當然也越貴) 中圖: 定序的精準度(隨著濃度升高) 右圖: 表現出該技術的 variance (越小越好)

跟幾點需要克服的

Dropout: 原本量就很少所以常常抓不到就會變成 0(zero counts, missing data)
Over-amplify:某 gene 跟其他 gene 比起來被複製太多次

Dropout 跟 over-amplify 是指同一件事: 在放大資料時沒有均勻

Batch Effect: 其實每次 batch 就是一顆 cell，所以產生的資料就會有些不同，更何況是不同實驗的。把很多 cells 拿來做平均就可以解決這個問題，可是這就跟傳統的 bulk sequencing 一樣ㄌ。

資料前處理

總之，因為上面那三個挑戰沒被克服，所以就變成資料處理問題

計算表現量

首先我們會拿到 scRNA-seq 的資料，也就是一條條序列 ATCGTCG 等等的資料，然後

Quality Control: FastQC 刪掉 low-quality 的資料
Alignment: BWA, STAR 這兩個最常用
統計數量(Read Count)

Gene Expression 的呈現方式，其中一格格的是該 cell 在該 gene 的表現量，會是個數字。

最後會獲得上圖，就是把 Gene Expression(GE) 畫出來。

這邊的處理方式大概沒什麼問題，而有關 Mapping 或是 Alignment 的技術，未來有機會再寫成一篇來說明。

Gene Expression(GE)

雖然我們有一大段 DNA 但是每個細胞只會轉錄(transcript)其中特定的 gene 成一條條 mRNA，而且同條序列不只轉錄一次，轉錄越多次代表著 gene 越活躍 = 表現量很大，我們的目的就是去量化、統計某個 gene 的出現次數，來判斷這個細胞功能。

Copied from https://www.ncbi.nlm.nih.gov/Class/MLACourse/Original8Hour/Genetics/gene_expression.html

去雜訊 Denoise

然後我們希望能弄出一個乾淨且有指標性的方法來處理資料，來表達這個基因真實的表現情況，然後才能做最終的分析，甚至拿去其他 database 比較。

這裡有很多種說法 imputing, data cleaning 個人喜歡 denoising 拉

比如說最直覺的是使用 autoencoder 來 denoise

目前這項處理還沒有個定論(i.e. 厲害的方法)來把 noise 消光光。不過現在有一堆paper提供方法來處理這種問題，想看 review 的話可以看這篇大觀園 Eleven grand challenges in single-cell data science(Lähnemann et al., 2020)。

資料處理

使用上面處理的資料，也就是每個 cell 有一個高維 vector(從上面那張圖的話，就是一列 column)。然後

降維(Dimension reduction): e.g. PCA, 最後要降到 2D 才方便畫出來
分群(Clustering): 不過這個分群目標不一定要分得很開，原因如下段所述 e.g. k-means

分群後有很多名稱如 clusters = groups = sub-population = clones

Trajectory

通常 single cell 在做 sequencing 時，不一定每個細胞都呈現相同的狀態(hetergeneous)，可能會有不同 size 的、處在不同 state 的、在不同 cell cycle 上的，而且不會有人有 label，所以做分群時，如果是不同 tissue, type 就應該分得很開，如下圖左。而處在中間的細胞(transient state, intermediate state)可以組成一個軌道(trajectory = pseudo-time)，如下圖右。

目前的演算法有 SCUBA, Monocle, Monocle2, Waterfall, Wishbone

分析

從分群與 trajectory 資料，我們希望得到以下幾點

分出不同細胞(廢話
癌細胞可能會從一般細胞被分出來
判斷反應: 如藥物刺激，某個 cluster 數量上升
在一條 trajectory 上，細胞的狀態變化(state dynamics, e.g. 某群細胞的終點變成癌細胞)
細胞譜系 (Cell lineage)(細胞發育) e.g. stem cell, immune cell, brain

受藥物刺激後，這個 trajectory 發生 branching(見下圖)

發現某些新的 pathway
找到某些新的 SNP 跟 regulator

未來

Single-cell sequencing 可以把 RNA, DNA, protein, epigenomic, methylation 同時抓進來分析，會讓科學家更了解整個細胞的生理。
製造一個 Reference(Database) (1)能比較實驗間的差異 (2) 可以有個 branch mark 來評比演算法的好壞 (3) 記錄所有的細胞與其表現量如 Human Cell Atlas
接下來再來介紹 SSrGE 方法並帶完整個 scRNA-seq 的資料處理流程。有提到上面沒講清楚的東西: pathway, SNV, denoising, trajectory

Reference

Hwang, B., Lee, J.H. & Bang, D. Single-cell RNA sequencing technologies and bioinformatics pipelines. Exp Mol Med 50, 96 (2018). https://doi.org/10.1038/s12276-018-0071-8
Ziegenhain, C., Vieth, B., Parekh, S., Reinius, B., Guillaumet-Adkins, A., Smets, M., … & Enard, W. (2017). Comparative analysis of single-cell RNA sequencing methods. Molecular cell, 65(4), 631–643.
Eraslan, G., Simon, L.M., Mircea, M. et al. Single-cell RNA-seq denoising using a deep count autoencoder. Nat Commun 10, 390 (2019). https://doi.org/10.1038/s41467-018-07931-2
Lähnemann, D., Köster, J., Szczurek, E. et al. Eleven grand challenges in single-cell data science. Genome Biol 21, 31 (2020). https://doi.org/10.1186/s13059-020-1926-6