Skip to content

NGS Lab4 (基因组重测序-读段比对)

约 561 字大约 2 分钟

bwabowtie2minimap2Linux

2024-10-28

相关软件

安装

使用 anaconda

创建虚拟环境

conda create -n alignment
# 等待一会儿后输入 y , 然后回车

进入虚拟环境

conda activate alignment

安装相关软件

conda install -c bioconda -c conda-forge bwa bowtie2 minimap2
# 等待一会儿后输入 y , 然后回车

查看软件版本

bwa
bowtie2 --version
minimap2 --version

# 我的版本分别是:
# Version: 0.7.18-r1243-dirty
# version 2.5.4
# 2.28-r1209

使用 micromamba

创建虚拟环境

# 和 anaconda 不同, micromamba 在新建虚拟环境的时候需要加上 env
micromamba env create -n alignment

进入虚拟环境

micromamba activate alignment

安装相关软件

micromamba install -c bioconda -c conda-forge bwa bowtie2 minimap2
# 等待一会儿后输入 Y , 然后回车

查看软件版本

bwa
bowtie2 --version
minimap2 --version

# 我的版本分别是:
# Version: 0.7.18-r1243-dirty
# version 2.5.4
# 2.28-r1209

任务

  • fastq 文件:/public/workspace/shaojf/Course/NGS/DataSets/Lab2/Con_sequence_{1,2}.fastq.gz (可直接用lab2已完成质控的数据直接进行比对)

  • 索引文件

  1. bwa 前缀: BWA_Index/Homo_sapiens.GRCh38.dna.primary_assembly.fa
  2. bowtie2 前缀: bowtie2_Index/Homo_sapiens.GRCh38.dna.primary_assembly
  • 需求:bwabowtie2 分别进行比对,生成 .sam 文件备用

参考代码

0. 准备工作

  • 新建文件夹 Lab4
mkdir -p ~/myNGS/Lab4
cd ~/myNGS/Lab4
  • 先将 Lab2 里面质控好的数据软链接过来
# 这里我选择的是使用 cutadapt 切好接头的数据, 可根据你的实际情况调整对应文件路径
ln -s ../Lab2/cutadapt/cutadapt_Con_sequence_1.fastq.gz .
ln -s ../Lab2/cutadapt/cutadapt_Con_sequence_2.fastq.gz .
  • 再将索引文件夹软链接过来
# bwa 索引文件夹
ln -s /public/workspace/shaojf/Course/NGS/Reference/BWA_Index/ .

# bowtie2 索引文件夹
ln -s /public/workspace/shaojf/Course/NGS/Reference/bowtie2_Index/ .

1. 使用 bwa 比对

  • 新建文件夹用于保存结果
mkdir ~/myNGS/Lab4/bwa
cd ~/myNGS/Lab4/bwa
  • 开始比对!
# 运行时间较长,建议放入 tmux 或 SCREEN 里面。具体方法不多赘述,可参考 Lab0
bwa mem -t 4 ../BWA_Index/Homo_sapiens.GRCh38.dna.primary_assembly.fa \
        ../cutadapt_Con_sequence_1.fastq.gz \
        ../cutadapt_Con_sequence_2.fastq.gz \
        > lab4.bwa.pe.sam

2. 使用 bowtie2 比对

  • 新建文件夹用于保存结果
mkdir ~/myNGS/Lab4/bowtie2
cd ~/myNGS/Lab4/bowtie2
  • 开始比对!
# 运行时间较长,建议放入 tmux 或 SCREEN 里面。具体方法不多赘述,可参考 Lab0
bowtie2 --phred33 -p 4 \
        -x ../bowtie2_Index/Homo_sapiens.GRCh38.dna.primary_assembly \
        -1 ../cutadapt_Con_sequence_1.fastq.gz \
        -2 ../cutadapt_Con_sequence_2.fastq.gz \
        -S lab4.bowtie2.pe.sam

结果文件

# 瞅眼各自的大小
du -h ~/myNGS/Lab4/bwa/*.sam ~/myNGS/Lab4/bowtie2/*.sam

# 2.9G    /public/workspace/stu22230111/myNGS/Lab4/bwa/lab4.bwa.pe.sam
# 2.9G    /public/workspace/stu22230111/myNGS/Lab4/bowtie2/lab4.bowtie2.pe.sam