博耘生物
Main menu
Skip to primary content Skip to secondary content
▪
首页 生物信息学的阶梯
▪
生物信息学的阶梯-初级
▪
生物信息学的阶梯-高级
▪
生物信息学的阶梯-初中级
▪
生物信息学的阶梯-中级
▪
生物信息学的阶梯-初高级
▪
生物信息的学人才需求 关于 版权声明 留言板
hmmer的安装与使用
从功能基因研究的角度来讲,相关的搜索,比如从序列数据库中,找同源的序列,或者对一个对一个新的基因功能进行鉴定,使用hmmer比使用blast有着更高的灵敏度已经更高的搜索速度,但其应用还远没有blast普及,这里是一篇入门级的介绍文章。
hmmer下载与安装
对于Mac OS/X, Linux, UNIX系统,用源代码编译安装:
% wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz
% tar zxf hmmer-3.0.tar.gz
% cd hmmer-3.0
% ./configure
% make
% make check
windows系统,直接下载二进制压缩包,解压就可以使用,下载地址:
http://hmmer.janelia.org/static/binaries/hmmer3.0_windows.zip
hmmer包含的程序
▪ phmmer: 与Blastp类似,使用一个蛋白质序列搜索蛋白质序列库;
▪ > phmmer tutorial/HBB HUMAN uniprot sprot.fa
▪ jackhmmer: 与psiBlast类似,蛋白质序列迭代搜索蛋白质序列库;
▪ > jackhmmer tutorial/HBB HUMAN uniprot sprot.fa
▪ hmmbuild: 用多重比对序列构建HMM模型;
▪ hmmsearch: 使用HMM模型搜索序列库;
▪ hmmscan: 使用序列搜索HMM库;
▪ hmmalign: 使用HMM为线索,构建多重比对序列;
▪ > hmmalign globins4.hmm tutorial/globins45.fa
▪ hmmconvert: 转换HMM格式
▪ hmmemit: 从HMM模型中,得到一个模式序列;
▪ hmmfetch: 通过名字或者接受号从HMM库中取回一个HMM模型;
▪ hmmpress:格式化HMM数据库,以便于hmmscan搜索使用;
▪ hmmstat: 显示HMM数据库的统计信息;
使用HMM模型搜索序列数据库
1. 使用hmmbuild构建HMM模型,输入为Stockholm格式或者FASTA格式的多重比对序列文件(如:tutorial/globins4.sto),命令如下:
2. > hmmbuild globins4.hmm tutorial/globins4.sto
3. globins4.hmm为输出的HMM模型
4. 使用hmmsearch搜索蛋白质序列数据库,蛋白质序列数据库为FASTA格式,命令如下:
5. > hmmsearch globins4.hmm uniprot sprot.fasta > globins4.out
6. globins4.out为输出的结果文件,如下:
*示例使用
官方教程中的示例
使用蛋白质序列搜索HMM数据库
1. 构建HMM数据库,HMM数据库是包含多个HMM模型的文件,可以从Pfam、SMART、TIGRFams下载,也可以自己由多重比对序列集中构建,如:
2. > hmmbuild globins4.hmm tutorial/globins4.sto
3. > hmmbuild fn3.hmm tutorial/fn3.sto
4. > hmmbuild Pkinase.hmm tutorial/Pkinase.sto
5. > cat globins4.hmm fn3.hmm Pkinase.hmm > minifam
6. 使用hmmpress格式化数据库,包括压缩以及创建索引,命令如下:
7. > hmmpress minifam
8. 这个步骤可以很快的执行完成,输出的内容如下:
9. Working… done.
10. Pressed and indexed 3 HMMs (3 names and 2 accessions).
11. Models pressed into binary file: minifam.h3m
12. SSI index for binary model file: minifam.h3i
13. Profiles (MSV part) pressed into: minifam.h3f
14. Profiles (remainder) pressed into: minifam.h3p
15. 使用hmmscan搜索HMM数据库,命令如下:
16. > hmmscan minifam tutorial/7LESS_DROME
17. 输出如下:
18. 后记
这里主要是一个入门式的教程,介绍了hmmer的安装,以及最常用功能使用的命令示例。其他程序的使用,以及每个程序的详细参数说明,请参看官方手册,
官方文档手册(pdf):
ftp://selab.janelia.org/pub/software/hmmer3/3.0/Userguide.pdf
新书推荐
» 转载文章请注明,转载自:博耘生物 » 《hmmer的安装与使用》
» 原文链接:http://boyun.sh.cn/bio/?p=1753
相关文章:
▪ RNA-seq差异表达基因分析之TopHat篇 ▪ CummeRbund的安装与使用(for linux) ▪ 存文本文件及其字符编码 ▪ blast+与blast的差异 This entry was posted in 数据分析 and tagged HMM, hmmer, 功能基因研究, 同源基因预测, 结构域, 软件安装 by boyun. Bookmark the permalink.
23 THOUGHTS ON “HMMER的安装与使用”
1. boyun on 2011 年 10 月 25 日 at 18:30 said:
需要注意的几点:蛋白质序列,基因组数据方面,hmmer操作的对象是蛋白质数据,而不是基因组或者转录组的数据;FASTA格式,就输入序列而言,格式就是FASTA格式;hmm模型格式,多重比对格式Stockholm格式;与blast结果类似的输出结果的解读。Reply ↓
2. Pingback: 构建批量基因结构域鉴定分析平台 | 博耘生物
3. agui on 2013 年 4 月 20 日 at 19:14 said:
为什么我在运行./configure后,生成里makefile,但是不能执行make,显示make: command not found,请问怎么回事?Reply ↓
▪
boyun on 2013 年 4 月 24 日 at 09:26 said:
你用的是什么操作系统,是不是make没有安装?输入which make,看是否可以找到make命令。Reply ↓
4. 来自中国 on 2013 年 7 月 27 日 at 00:48 said:
你好。我到现在还是不了解hmmalign是什么意思,有什么意义,和一般的多重序列比对有何不同?它会产生数字,这又是为什么?
我同学为了做hmm模型,用hmmbuild把每个序列已知是domain的部分拼接起来,形成新多重序列,然后再用hmmscan,你说可行吗?我觉得不行,因为这些domain并不是连在一起的,测得的新序列肯定有问题。Reply ↓
▪
boyun on 2013 年 7 月 27 日 at 22:16 said:
多重序列比对可以由不同的算法实现,hmmalign是基于hmm模型的多重比对。我不太情况你讲的数字指的什么,我估计你指的的每个位置碱基出现的概率模型结果。将domain进行拼接再hmmscan,我认为是多余的步骤,可能造成负面的影响,不过也许
ta有另外的目的,许多时候只能用数据说话。Reply ↓
5. xndless on 2013 年 8 月 14 日 at 11:19 said:
请问HMMER程序能利用一段基因序列.fa搜索出对应的蛋白序列嘛?怎么处理的~~Reply ↓
▪
boyun on 2013 年 8 月 20 日 at 00:29 said:
不可以,如果想用一段基因序列搜索对于蛋白质可以使用blast。对于相似度高的序列,都可以达到很好的效果。hmmer的出现是因为两条蛋白质相似性很低,但是却有着近似的功能,为什么,是因为其有着相似的特征,而hmm模型就是这个特征的一种表示,所以要把这些相似度低,但是确实是同一家族的蛋白质,进行建模,然后通过模型再去找其他家族的成员。Reply ↓
▪
cuitao on 2015 年 6 月 29 日 at 14:05 said: 可以, 使用phmmer
程序Reply ↓
6. 小强 on 2013 年 8 月 19 日 at 22:54 said:
您好,我目前想搜索Pfam数据库中含有目标结构域的所有基因,并输出,这个需要使用哪个软件,如何实现,若楼主知道,麻烦告知一下。谢谢Reply ↓
▪
boyun on 2013 年 8 月 20 日 at 00:22 said:
pfam就是一个结构域数据库,找到你要的结构域,详细信息就会看到,也可以下载
到构建该结构域的所有基因。通常需要做的就是新的物种测序,对于远源蛋白进行预测,下载到指定格式的结构域序列,然后使用hmmer的搜索结构域搜索蛋白质库的命令对库进行搜索。Reply ↓
7. 董楚河 on 2013 年 8 月 21 日 at 13:38 said:
请问楼主,为什么我下载的windows版,的所有文件都没法运行?我的系统目前还是windowsXP.Reply ↓
▪
boyun on 2013 年 9 月 1 日 at 21:35 said: 你是如何运行的,没有任何输
出吗?Reply ↓
▪
coca on 2013 年 9 月 2 日 at 10:53 said:
windows 版下载解压后,没法打开,双击就直接跳掉了,进入不了程序
里面说明是这样介绍的,我把两个DLL文件,复制到WINDOWS文件荚是,还是不行,请问怎么回事儿,要安装什么么?谢谢
HMMER 3.0 for Windows
This suite of HMMER 3.0 modules has been compiled under CYGWIN environment
and tested to run properly under Windows XP and Windows 7 operating systems.
In order to run HMMER programs, one need to place two dll files,
cygwin1.dll and cyggcc_s-1.dll into directory, where those files can be seen by Windows, i.e.
place it in windows/system32 folder, or append the path to those files to PATH
environment variable.
Note, that when you run HMMER modules and indicate file path as a parameter, you should use path either
relative to the place, where HMMER modules located or use notation /cygdrive/c/mypath/myfile instead of
c:\\mypath\\myfile. Otherwise, you will every time get an annoing warning like this below:
cygwin warning:
MS-DOS style path detected: c:\emp\\file
Preferred POSIX equivalent is: /cygdrive/c/temp/file
CYGWIN environment variable option “nodosfilewarning” turns off this warning.
Reply ↓
▪
boyun on 2013 年 9 月 2 日 at 12:59 said: 我已经想到了,
你犯了一个错误,界面到命令行转变必经之路,不是每个程序双击都有窗口的,因为他没有窗口界面,是一条命令,只能在命令行(dos窗口)调用。在开始->运行,中输入cmd,回车,进入dos窗口,切换磁盘,比如D:,在切换目录到你hmmer的bin目录,比如cd hmmer\\bin,输入命令,按照hmmer的手册Reply ↓
▪
刘雄 on 2013 年 10 月 22 日 at 22:04 said:
我已经想到了,你犯了一个错误,界面到命令行转变必经之路,不是每个程序双击都有窗口的,因为他没有窗口界面,是一条命令,只能在命令行(dos窗口)调用。在开始->运行,中输入cmd,回车,进入dos窗口,切换磁盘,比如D:,在切换目录到你hmmer的bin目录,比如cd hmmer\\bin,输入命令,按照hmmer的手册
不好意思,还是不太懂,能不能·详细说明
▪
boyun on 2013 年 10 月 30 日 at 13:25 said: 试着做
一下,遇到不懂的比如“cmd”,可以再搜索一下,这样你将明白了。
▪
赵淑婷 on 2013 年 12 月 10 日 at 16:16 said: 你好,
你这个问题解决了吗,就是转换到d盘
8. 如鱼饮水 on 2013 年 11 月 26 日 at 10:59 said: 你好,我在用hmmscan搜索时为什么会出现Error: bad format, binary auxfiles, ./TFHMM_3.hmm:
9. binary auxfiles are in an outdated HMMER format (3/b); please hmmpress your HMM file again这样的报错呢?数据库明明已经用hmmpress格式化好了。请问楼主这错误是什么意思?Reply ↓
10. cotton on 2014 年 6 月 25 日 at 16:58 said: 您好,如何获得.sto格式的多重比对文件呢,我用fasta格式总说不正确Reply ↓
11. 小志 on 2014 年 11 月 21 日 at 21:12 said: 有了神奇的BioLinux,妈妈再也不用担心安装了Reply ↓
12. Ethan on 2015 年 6 月 29 日 at 14:17 said: 您好,我下载之后,运行.exe程序,窗口一闪即过,这是怎么回事?我看您上面给解释的是需要在dos界面操作,对吗?除此之外,运行该软件是否对操作系统有要求?我的是WIN7Reply ↓
13. ling on 2015 年 7 月 16 日 at 16:32 said: 我想找某个家族,不知道这个家族的hmm数据从哪里下?Reply ↓
因篇幅问题不能全部显示,请点此查看更多更全内容