NGS Lab3 (基因组从头组装)
相关软件
组装工具
评估工具
安装
( 是时候简化安装方法了:将同一类软件安装在一个虚拟环境里面!)
使用 anaconda
创建虚拟环境
conda create -n assemble
# 等待一会儿后输入 y , 然后回车
进入虚拟环境
conda activate assemble
安装相关软件
conda install -c bioconda -c conda-forge canu wtdbg spades quast
# 等待一会儿后输入 y , 然后回车
检验是否安装成功
canu --version && \
wtdbg2 --version && \
spades.py -v && \
quast -v
# 我的输出是:
# canu 2.2
# wtdbg2 0.0
# SPAdes genome assembler v4.0.0
# QUAST v5.2.0
使用 micromamba
创建虚拟环境
# 和 anaconda 不同, micromamba 在新建虚拟环境的时候需要加上 env
micromamba env create -n assemble
进入虚拟环境
micromamba activate assemble
安装相关软件
micromamba install -c bioconda -c conda-forge canu wtdbg spades quast
# 等待一会儿后输入 Y , 然后回车
检验是否安装成功
canu --version && \
wtdbg2 --version && \
spades.py -v && \
quast -v
# 我的输出是:
# canu 2.2
# wtdbg2 0.0
# SPAdes genome assembler v4.0.0
# QUAST v5.2.0
任务
数据:
/public/workspace/shaojf/Course/NGS/DataSets/Lab3/SRR30883004/SRR30883004_subreads.fastq.gz
测序技术:
PacBio Sequel IIe CCS
所测基因组大小为 2.9Mb
https://www.ncbi.nlm.nih.gov/datasets/genome/?taxon=1675036 https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_003315775.1/
第一版基因组由454测序所的
需求:
- 利用
canu
、wtdbg2
、SPAdes
进行组装 - 利用
QUAST
对三个组装结果进行评估
参考代码
数据准备
# 新建文件夹 Lab3
mkdir -p ~/myNGS/Lab3
cd ~/myNGS/Lab3
# 将原始数据软链接 (已预处理)
ln -s /public/workspace/shaojf/Course/NGS/DataSets/Lab3/SRR30883004/SRR30883004_subreads.fastq.gz .
使用 Canu
进行组装
- 新建文件夹
canu
用于保存结果
mkdir ~/myNGS/Lab3/canu
cd ~/myNGS/Lab3/canu
- 开始组装!
canu useGrid=false \
-p M.hexanoica.canu \
-d M.hexanoica.canu.res \
genomeSize=2.9m \
-pacbio-hifi ../SRR30883004_subreads.fastq.gz
# -d 指定输出文件夹
使用 wtdbg2
进行组装
- 新建文件夹
wtdbg2
用于保存结果
mkdir ~/myNGS/Lab3/wtdbg2
cd ~/myNGS/Lab3/wtdbg2
- 开始组装!
# 运行时间较长,建议放入 tmux 或 SCREEN 里面,具体方法不多赘述,可参考 Lab0
wtdbg2 -x ccs -t 4 \
-g 2.9m -o M.hexanoica.wtdbg2 \
-i ../SRR30883004_subreads.fastq.gz
wtpoa-cns -t 4 \
-i M.hexanoica.wtdbg2.ctg.lay.gz \
-o M.hexanoica.wtdbg2.ctg.cns.fa
使用 SPAdes
进行组装
- 新建文件夹
SPAdes
用于保存结果
mkdir ~/myNGS/Lab3/SPAdes
cd ~/myNGS/Lab3/SPAdes
- 开始组装!
# 运行时间较长,建议放入 tmux 或 SCREEN 里面,具体方法不多赘述,可参考 Lab0
spades.py --isolate -t 4 \
-o M.hexanoica.spades.res \
-s ../SRR30883004_subreads.fastq.gz
评估结果
- 新建文件夹
quast
用于保存结果
mkdir ~/myNGS/Lab3/quast
- 本任务中使用
QUAST
前需要先运行一次quast-download-gridss
quast-download-gridss
# 下载的数据来源于 github,若下载失败可多试几次...
- 开始评估!
quast.py ./canu/M.hexanoica.canu.res/M.hexanoica.canu.contigs.fasta \
./wtdbg2/M.hexanoica.wtdbg2.ctg.cns.fa \
./SPAdes/M.hexanoica.spades.res/contigs.fasta \
-t 4 --glimmer --pacbio ./SRR30883004_subreads.fastq.gz \
-o ./quast/M.hexanoica.quast
- 从
QUAST
输出的结果网页文件可以看出,canu
的 contigs 最长,组装效果最好
(绿的线条对应的软件是 SPAdes
)