您的当前位置:首页正文

HMMER教程

来源:爱站旅游
导读HMMER教程


博耘生物

Main menu

Skip to primary content Skip to secondary content

首页 生物信息学的阶梯

生物信息学的阶梯-初级

生物信息学的阶梯-高级

生物信息学的阶梯-初中级

生物信息学的阶梯-中级

生物信息学的阶梯-初高级

生物信息的学人才需求 关于 版权声明 留言板

hmmer的安装与使用

从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度已经更高的搜索速度,但其应用还远没有blast普及,这里是一篇入门级的介绍文章。

hmmer下载与安装

对于Mac OS/X, Linux, UNIX系统,用源代码编译安装:

% wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz

% tar zxf hmmer-3.0.tar.gz

% cd hmmer-3.0

% ./configure

% make

% make check

windows系统,直接下载二进制压缩包,解压就可以使用,下载地址:

http://hmmer.janelia.org/static/binaries/hmmer3.0_windows.zip

hmmer包含的程序

▪ phmmer: 与Blastp类似,使用一个蛋白质序列搜索蛋白质序列库;

▪ > phmmer tutorial/HBB HUMAN uniprot sprot.fa

▪ jackhmmer: 与psiBlast类似,蛋白质序列迭代搜索蛋白质序列库;

▪ > jackhmmer tutorial/HBB HUMAN uniprot sprot.fa

▪ hmmbuild: 用多重比对序列构建HMM模型;

▪ hmmsearch: 使用HMM模型搜索序列库;

▪ hmmscan: 使用序列搜索HMM库;

▪ hmmalign: 使用HMM为线索,构建多重比对序列;

▪ > hmmalign globins4.hmm tutorial/globins45.fa

▪ hmmconvert: 转换HMM格式

▪ hmmemit: 从HMM模型中,得到一个模式序列;

▪ hmmfetch: 通过名字或者接受号从HMM库中取回一个HMM模型;

▪ hmmpress:格式化HMM数据库,以便于hmmscan搜索使用;

▪ hmmstat: 显示HMM数据库的统计信息;

使用HMM模型搜索序列数据库

1. 使用hmmbuild构建HMM模型,输入为Stockholm格式或者FASTA格式的多重比对序列文件(如:tutorial/globins4.sto),命令如下:

2. > hmmbuild globins4.hmm tutorial/globins4.sto

3. globins4.hmm为输出的HMM模型

4. 使用hmmsearch搜索蛋白质序列数据库,蛋白质序列数据库为FASTA格式,命令如下:

5. > hmmsearch globins4.hmm uniprot sprot.fasta > globins4.out

6. globins4.out为输出的结果文件,如下:

*示例使用

官方教程中的示例

使用蛋白质序列搜索HMM数据库

1. 构建HMM数据库,HMM数据库是包含多个HMM模型的文件,可以从Pfam、SMART、TIGRFams下载,也可以自己由多重比对序列集中构建,如:

2. > hmmbuild globins4.hmm tutorial/globins4.sto

3. > hmmbuild fn3.hmm tutorial/fn3.sto

4. > hmmbuild Pkinase.hmm tutorial/Pkinase.sto

5. > cat globins4.hmm fn3.hmm Pkinase.hmm > minifam

6. 使用hmmpress格式化数据库,包括压缩以及创建索引,命令如下:

7. > hmmpress minifam

8. 这个步骤可以很快的执行完成,输出的内容如下:

9. Working… done.

10. Pressed and indexed 3 HMMs (3 names and 2 accessions).

11. Models pressed into binary file: minifam.h3m

12. SSI index for binary model file: minifam.h3i

13. Profiles (MSV part) pressed into: minifam.h3f

14. Profiles (remainder) pressed into: minifam.h3p

15. 使用hmmscan搜索HMM数据库,命令如下:

16. > hmmscan minifam tutorial/7LESS_DROME

17. 输出如下:

18. 后记

这里主要是一个入门式的教程,介绍了hmmer的安装,以及最常用功能使用的命令示例。其他程序的使用,以及每个程序的详细参数说明,请参看官方手册,

官方文档手册(pdf):

ftp://selab.janelia.org/pub/software/hmmer3/3.0/Userguide.pdf

新书推荐

» 转载文章请注明,转载自:博耘生物 » 《hmmer的安装与使用》

» 原文链接:http://boyun.sh.cn/bio/?p=1753

相关文章:

▪ RNA-seq差异表达基因分析之TopHat篇 ▪ CummeRbund的安装与使用(for linux) ▪ 存文本文件及其字符编码 ▪ blast+与blast的差异 This entry was posted in 数据分析 and tagged HMM, hmmer, 功能基因研究, 同源基因预测, 结构域, 软件安装 by boyun. Bookmark the permalink.

23 THOUGHTS ON “HMMER的安装与使用”

1. boyun on 2011 年 10 月 25 日 at 18:30 said:

需要注意的几点:蛋白质序列,基因组数据方面,hmmer操作的对象是蛋白质数据,而不是基因组或者转录组的数据;FASTA格式,就输入序列而言,格式就是FASTA格式;hmm模型格式,多重比对格式Stockholm格式;与blast结果类似的输出结果的解读。Reply ↓

2. Pingback: 构建批量基因结构域鉴定分析平台 | 博耘生物

3. agui on 2013 年 4 月 20 日 at 19:14 said:

为什么我在运行./configure后,生成里makefile,但是不能执行make,显示make: command not found,请问怎么回事?Reply ↓

boyun on 2013 年 4 月 24 日 at 09:26 said:

你用的是什么操作系统,是不是make没有安装?输入which make,看是否可以找到make命令。Reply ↓

4. 来自中国 on 2013 年 7 月 27 日 at 00:48 said:

你好。我到现在还是不了解hmmalign是什么意思,有什么意义,和一般的多重序列比对有何不同?它会产生数字,这又是为什么?

我同学为了做hmm模型,用hmmbuild把每个序列已知是domain的部分拼接起来,形成新多重序列,然后再用hmmscan,你说可行吗?我觉得不行,因为这些domain并不是连在一起的,测得的新序列肯定有问题。Reply ↓

boyun on 2013 年 7 月 27 日 at 22:16 said:

多重序列比对可以由不同的算法实现,hmmalign是基于hmm模型的多重比对。我不太情况你讲的数字指的什么,我估计你指的的每个位置碱基出现的概率模型结果。将domain进行拼接再hmmscan,我认为是多余的步骤,可能造成负面的影响,不过也许

ta有另外的目的,许多时候只能用数据说话。Reply ↓

5. xndless on 2013 年 8 月 14 日 at 11:19 said:

请问HMMER程序能利用一段基因序列.fa搜索出对应的蛋白序列嘛?怎么处理的~~Reply ↓

boyun on 2013 年 8 月 20 日 at 00:29 said:

不可以,如果想用一段基因序列搜索对于蛋白质可以使用blast。对于相似度高的序列,都可以达到很好的效果。hmmer的出现是因为两条蛋白质相似性很低,但是却有着近似的功能,为什么,是因为其有着相似的特征,而hmm模型就是这个特征的一种表示,所以要把这些相似度低,但是确实是同一家族的蛋白质,进行建模,然后通过模型再去找其他家族的成员。Reply ↓

cuitao on 2015 年 6 月 29 日 at 14:05 said: 可以, 使用phmmer

程序Reply ↓

6. 小强 on 2013 年 8 月 19 日 at 22:54 said:

您好,我目前想搜索Pfam数据库中含有目标结构域的所有基因,并输出,这个需要使用哪个软件,如何实现,若楼主知道,麻烦告知一下。谢谢Reply ↓

boyun on 2013 年 8 月 20 日 at 00:22 said:

pfam就是一个结构域数据库,找到你要的结构域,详细信息就会看到,也可以下载

到构建该结构域的所有基因。通常需要做的就是新的物种测序,对于远源蛋白进行预测,下载到指定格式的结构域序列,然后使用hmmer的搜索结构域搜索蛋白质库的命令对库进行搜索。Reply ↓

7. 董楚河 on 2013 年 8 月 21 日 at 13:38 said:

请问楼主,为什么我下载的windows版,的所有文件都没法运行?我的系统目前还是windowsXP.Reply ↓

boyun on 2013 年 9 月 1 日 at 21:35 said: 你是如何运行的,没有任何输

出吗?Reply ↓

coca on 2013 年 9 月 2 日 at 10:53 said:

windows 版下载解压后,没法打开,双击就直接跳掉了,进入不了程序

里面说明是这样介绍的,我把两个DLL文件,复制到WINDOWS文件荚是,还是不行,请问怎么回事儿,要安装什么么?谢谢

HMMER 3.0 for Windows

This suite of HMMER 3.0 modules has been compiled under CYGWIN environment

and tested to run properly under Windows XP and Windows 7 operating systems.

In order to run HMMER programs, one need to place two dll files,

cygwin1.dll and cyggcc_s-1.dll into directory, where those files can be seen by Windows, i.e.

place it in windows/system32 folder, or append the path to those files to PATH

environment variable.

Note, that when you run HMMER modules and indicate file path as a parameter, you should use path either

relative to the place, where HMMER modules located or use notation /cygdrive/c/mypath/myfile instead of

c:\\mypath\\myfile. Otherwise, you will every time get an annoing warning like this below:

cygwin warning:

MS-DOS style path detected: c:\emp\\file

Preferred POSIX equivalent is: /cygdrive/c/temp/file

CYGWIN environment variable option “nodosfilewarning” turns off this warning.

Reply ↓

boyun on 2013 年 9 月 2 日 at 12:59 said: 我已经想到了,

你犯了一个错误,界面到命令行转变必经之路,不是每个程序双击都有窗口的,因为他没有窗口界面,是一条命令,只能在命令行(dos窗口)调用。在开始->运行,中输入cmd,回车,进入dos窗口,切换磁盘,比如D:,在切换目录到你hmmer的bin目录,比如cd hmmer\\bin,输入命令,按照hmmer的手册Reply ↓

刘雄 on 2013 年 10 月 22 日 at 22:04 said:

我已经想到了,你犯了一个错误,界面到命令行转变必经之路,不是每个程序双击都有窗口的,因为他没有窗口界面,是一条命令,只能在命令行(dos窗口)调用。在开始->运行,中输入cmd,回车,进入dos窗口,切换磁盘,比如D:,在切换目录到你hmmer的bin目录,比如cd hmmer\\bin,输入命令,按照hmmer的手册

不好意思,还是不太懂,能不能·详细说明

boyun on 2013 年 10 月 30 日 at 13:25 said: 试着做

一下,遇到不懂的比如“cmd”,可以再搜索一下,这样你将明白了。

赵淑婷 on 2013 年 12 月 10 日 at 16:16 said: 你好,

你这个问题解决了吗,就是转换到d盘

8. 如鱼饮水 on 2013 年 11 月 26 日 at 10:59 said: 你好,我在用hmmscan搜索时为什么会出现Error: bad format, binary auxfiles, ./TFHMM_3.hmm:

9. binary auxfiles are in an outdated HMMER format (3/b); please hmmpress your HMM file again这样的报错呢?数据库明明已经用hmmpress格式化好了。请问楼主这错误是什么意思?Reply ↓

10. cotton on 2014 年 6 月 25 日 at 16:58 said: 您好,如何获得.sto格式的多重比对文件呢,我用fasta格式总说不正确Reply ↓

11. 小志 on 2014 年 11 月 21 日 at 21:12 said: 有了神奇的BioLinux,妈妈再也不用担心安装了Reply ↓

12. Ethan on 2015 年 6 月 29 日 at 14:17 said: 您好,我下载之后,运行.exe程序,窗口一闪即过,这是怎么回事?我看您上面给解释的是需要在dos界面操作,对吗?除此之外,运行该软件是否对操作系统有要求?我的是WIN7Reply ↓

13. ling on 2015 年 7 月 16 日 at 16:32 said: 我想找某个家族,不知道这个家族的hmm数据从哪里下?Reply ↓

因篇幅问题不能全部显示,请点此查看更多更全内容

Top