Skip to content

NGS Lab3 (基因组从头组装)

约 693 字大约 2 分钟

canuwtdbg2SPAdesQUAST

2024-10-21

相关软件

组装工具

评估工具

安装

( 是时候简化安装方法了:将同一类软件安装在一个虚拟环境里面!)

使用 anaconda

创建虚拟环境

conda create -n assemble
# 等待一会儿后输入 y , 然后回车

进入虚拟环境

conda activate assemble

安装相关软件

conda install -c bioconda -c conda-forge canu wtdbg spades quast
# 等待一会儿后输入 y , 然后回车

检验是否安装成功

canu --version && \
wtdbg2 --version && \
spades.py -v && \
quast -v

# 我的输出是:
# canu 2.2
# wtdbg2 0.0
# SPAdes genome assembler v4.0.0
# QUAST v5.2.0

使用 micromamba

创建虚拟环境

# 和 anaconda 不同, micromamba 在新建虚拟环境的时候需要加上 env
micromamba env create -n assemble

进入虚拟环境

micromamba activate assemble

安装相关软件

micromamba install -c bioconda -c conda-forge canu wtdbg spades quast
# 等待一会儿后输入 Y , 然后回车

检验是否安装成功

canu --version && \
wtdbg2 --version && \
spades.py -v && \
quast -v

# 我的输出是:
# canu 2.2
# wtdbg2 0.0
# SPAdes genome assembler v4.0.0
# QUAST v5.2.0

任务

数据:

/public/workspace/shaojf/Course/NGS/DataSets/Lab3/SRR30883004/SRR30883004_subreads.fastq.gz

测序技术:

  • PacBio Sequel IIe CCS

  • 所测基因组大小为 2.9Mb

https://www.ncbi.nlm.nih.gov/datasets/genome/?taxon=1675036 https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_003315775.1/

第一版基因组由454测序所的

需求:

  • 利用 canuwtdbg2SPAdes 进行组装
  • 利用 QUAST 对三个组装结果进行评估

参考代码

数据准备

# 新建文件夹 Lab3
mkdir -p ~/myNGS/Lab3
cd ~/myNGS/Lab3

# 将原始数据软链接 (已预处理)
ln -s /public/workspace/shaojf/Course/NGS/DataSets/Lab3/SRR30883004/SRR30883004_subreads.fastq.gz .

使用 Canu 进行组装

  • 新建文件夹 canu 用于保存结果
mkdir ~/myNGS/Lab3/canu
cd ~/myNGS/Lab3/canu
  • 开始组装!
canu useGrid=false \
    -p M.hexanoica.canu \
    -d M.hexanoica.canu.res \
    genomeSize=2.9m \
    -pacbio-hifi ../SRR30883004_subreads.fastq.gz

# -d 指定输出文件夹

使用 wtdbg2 进行组装

  • 新建文件夹 wtdbg2 用于保存结果
mkdir ~/myNGS/Lab3/wtdbg2
cd ~/myNGS/Lab3/wtdbg2
  • 开始组装!
# 运行时间较长,建议放入 tmux 或 SCREEN 里面,具体方法不多赘述,可参考 Lab0
wtdbg2 -x ccs -t 4 \
       -g 2.9m -o M.hexanoica.wtdbg2 \
       -i ../SRR30883004_subreads.fastq.gz

wtpoa-cns -t 4 \
    -i M.hexanoica.wtdbg2.ctg.lay.gz \
    -o M.hexanoica.wtdbg2.ctg.cns.fa

使用 SPAdes 进行组装

  • 新建文件夹 SPAdes 用于保存结果
mkdir ~/myNGS/Lab3/SPAdes
cd ~/myNGS/Lab3/SPAdes
  • 开始组装!
# 运行时间较长,建议放入 tmux 或 SCREEN 里面,具体方法不多赘述,可参考 Lab0
spades.py --isolate -t 4 \
          -o M.hexanoica.spades.res \
          -s ../SRR30883004_subreads.fastq.gz

评估结果

  • 新建文件夹 quast 用于保存结果
mkdir ~/myNGS/Lab3/quast
  • 本任务中使用 QUAST 前需要先运行一次 quast-download-gridss
quast-download-gridss
# 下载的数据来源于 github,若下载失败可多试几次...
  • 开始评估!
quast.py ./canu/M.hexanoica.canu.res/M.hexanoica.canu.contigs.fasta \
         ./wtdbg2/M.hexanoica.wtdbg2.ctg.cns.fa \
         ./SPAdes/M.hexanoica.spades.res/contigs.fasta \
         -t 4 --glimmer --pacbio ./SRR30883004_subreads.fastq.gz \
         -o ./quast/M.hexanoica.quast

📄 report.html

  • QUAST 输出的结果网页文件可以看出,canu 的 contigs 最长,组装效果最好

(绿的线条对应的软件是 SPAdes)