Reference-free Quantification Code Review

9 min readSep 4, 2020

這次 code review 背景是學長這篇 Effect of de novo transcriptome assembly on transcript quantification

如果不了解原始論文在做什麼的，請先去看前篇

簡介 Effect of de novo transcriptome assembly on transcript quantification

medium.com

這篇是我第一個 code review 所以會從 0 開始講(應該)（結果沒有）

這個 paper 的 pipeline 長這樣，總共有 3x2x2x3x3=108 種組合，所以code 有可能會很混亂，但也因為如此，如果寫的整齊，是一個很好的範例。

原始的 code:

github.com

我重新魔改的 code(本文使用):

github.com

首先要看說明 README 也就是進這個 github repo 第一個地方

非常重要，通常會寫怎麼跑怎麼安裝怎麼設定

一定要寫，務必要寫，而且要寫的精簡

我很推薦 docker，docker 講簡單點是個虛擬環境(容器)的執行器，你可以下載環境(Image)，然後執行他，執行時你的環境(container) 是跟外界隔離的，所以:

Example: docker run -it --rm -v $PWD:/app docker.io/library/alpine ls /app 解釋一下，

-it是 interactive
--rm 是執行完後刪除環境
那執行什麼呢 ls /app
/app 是你把現在的資料夾(PWD) mount 進去環境裡面的位置，稱之 volume 所以是 -v ，也只有 mount 進去的才能被改到，存在環境(container)的其他地方重開就不見了
ls 是在 docker.io/library/alpine 這個環境裡面的 script 這樣，假設library/alpine這個環境你沒有，他會自動幫你下載

通常 Python 會把需要的套件都會放在一個叫 requirements.txt 的檔案裡，然後你就安裝 pip3 install -r requirments.txt

然後我蠻推薦 ipython 的 (Jupyter notebook 是 ipython 再把它弄成 web 介面這樣)，ipython 我覺得最好用的功能是

根本就可以取代 shell script ㄌ，等等我們就會看到效果

首先要做到的是 code 跟 meta 資料分離，

我把東西放在 metadata/ 裡面，比如說模擬的參數，還有一些設定

最主要的設定在 metadata/meta.yml，yaml 是個很適合人類閱讀與編輯的類似 json格式

比如說，下面的 yaml 檔，我設定了有那些 species 與 species 的 reference 的檔案在哪裡

又或者你設定該工具的 docker 版本(images 那排)，與執行時的參數( trimmomatic 那行)，這樣的話，檢查跟維護就很輕鬆

首先我們用 argparser 把剩下的參數讀進來，比如說 threads memory

所以操作起來變成這樣: ipython3 pipeline.ipy --method=all -t 32 可以讓使用者輕鬆修改他想用的資源但不會動到 code (尤其是資料夾路徑)

最後一行我們就把 meta 資料讀進來

然後我們看看 ipython 的威力，用 assemble 這個操作為例(下圖)

用 python 的 function 包起來，然後用 docstring(就是那幾行註解)，去說明這個做了什麼，input 什麼 output 什麼
可以在裡面 import 其他 python code，執行你想要的事情(from xx import xx 那裏)，比如說這裡就是一個簡單的 code 把 contig < 500bp 的 contig 去掉
因為我們對每個 species(e.g. yeast) 每個 dataset(e.g. simulation low, simulation high, …) 做我們想要的 assemble 方式(e.g trinity) 所以用三個 for 迴圈
跟 shell code 只差一點，加個 ! 就可以執行，重點是可以塞 python 變數(e.g. !mkdir -p {xx_folder} )
執行 docker，前面有定義 dk 是執行 docker 的 alias，把那段全部展開就是像這樣 docker run -it --rm -v $PWD:/app -w /app docker.io/trinityrnaseq/trinityrnaseq:2.11.0 Trinity --max_memory 300G --CPU 32 ...