行业新闻

Industry news

首页 > 行业新闻 > 测序数据质控界的宠儿-Trimmomatic

测序数据质控界的宠儿-Trimmomatic

一个优质的测序结果,除了倚仗技术娴熟的实验人员和稳定的测序仪器,更重要的是要有一款集能力和才华于一身的质控软件。高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。今天,小奥要给大家介绍的就是数据质控界的宠儿——Trimmomatic软件。


Trimmomatic 简介

Trimmomatic软件,2014年首次发表在Bioinformatics期刊上,是一款专门对Illumina平台测序产生的reads进行修剪和过滤的软件。自发表以来,Trimmomatic软件凭借其简单的安装方法、较快的运行速度(支持多线程)、强大的去接头能力(simple和palindrome两种模式)、多元化的低质量数据处理方式、人性化的输出格式(clean reads为一一对应的pair-end形式,无需再次处理)等特点,深受数据处理者喜爱!下面就由小奥带大家一起来学习下Trimmomatic的具体用法。

Trimmomatic 下载安装

Trimmomatic下载安装方式有网站链接安装和Linux系统下命令安装两种方式。

◆方法一:直接进入网站http://www.usadellab.org/cms/index.php?page=trimmomati c进行手动下载二进制软件,解压后的trimmomatic-0.38.jar即为我们需要的软件。


1535940126260227.jpg

◆方法二:在Linux系统下通过命令行进行下载安装

1.mkdir Trimmomatic(创建一个名为Trimmomatic的文件夹)

1.webp.jpg

2.cd Trimmomatic(进入Trimmomatic文件夹工作路径下)

2.webp.jpg

3.wget 

http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip(通过wget命令下载Trimmomatic-0.38.zip压缩文件)

640.webp (1).jpg

4.unzip Trimmomatic-0.36.zip(解压缩Trimmomatic-0.36.zip文件)

640.webp (2).jpg

5.java -jar~/biosoft/Trimmomatic/Trimmomatic-0.36/trimmomatic-0.36.jar –h(运行安装命令,即可完成安装)

6.webp.jpg


Trimmomatic 质控用法


根据单端测序和双端测序两种模式,Trimmomatic软件也有两种质控用法。

◆ 1. SE 模式

SE模式下,只有一个输入文件和一个质控后的输出文件,运行命令如下:

Java –jar < trimmomatic的安装路径> SE –threads <线程数> <input> <output> <step1> <step2> …

<step1><step2>… 表示每一步的质控参数

◆ 2. PE 模式

PE 模式下,有两个输入文件(正向测序reads和反向测序reads)和四个质控后的输出文件(双端序列都保留的paired序列文件和只保留一端序列的unpaired序列文件),运行命令如下:

Java -jar $trimmomatic PE -threads 12 -phred33 $R1.fq.gz $R2.fq.gz $R1.paired.fq.gz $R1.unpaired.fq.gz $R2.paired.fq.gz $R2.unpaired.fq.gz ILLUMINACLIP:$adapter.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

参数设置说明(同一个命令下的不同参数可以用“:”来界定):

$  表示软件或文件所在的路径(建议使用绝对路径)

$R1.fq.gz $R2.fq.gz  为两个输入文件

$R1.paired.fq.gz $R1.unpaired.fq.gz $R2.paired.fq.gz $R2.unpaired.fq.gz  为四个对应的输出文件

Phred33  设置碱基的质量格式,默认的是-phred64。

ILLUMINACLIP:$adapter.fa:2:30:10  adapter.fa为接头文件,2表示最大mismatch数,30表示palindrome模式下碱基的匹配阈值,10表示simple模式下碱基的匹配阈值。

LEADING:20  表示切除reads 5’端碱基质量低于3的碱基。

TRAILING:3   表示切除3’ 端碱基质量低于3的碱基。

SLIDINGWINDOW:4:15  表示以4个碱基为窗口进行滑动,切除窗口内碱基平均质量小于15的。

MINLEN:36  丢弃以上步骤处理后,序列长度小于36的reads。


以上便是本期给大家带来的微生物扩增子分析数据质控过程中用到的明星软件Trimmomatic,下期将给大家带来质控后用于数据的拼接和OTU聚类所用的软件,敬请关注哦~~~

公司动态 <<更多
行业新闻 <<更多
联系我们

400-017-6077

E-mail:support@allwegene.com

北京市海淀区苏州街长远天地C座3栋502

留言信箱

邮箱地址*

姓名*

电话*

留言信息*

带星号必填*

Copyright ©2014-2016 Allwegene Technology Inc. All Rights Reserved. 京ICP备13053223号