在前一节(利用 modeller进行 融合蛋白多模板建模(一) - 大家都叫我杨哥的文章 - 知乎 https://zhuanlan.zhihu.com/p/126689898)中讲述了使用modeller的基本套路,虽然是个开胃菜,但没掌握的话则后面的工作就很难顺利的进行下去。
多模板建模过程
1 照例,先准备目标序列对齐文件 seq_in.ali
2 运行salign .py 从多个同源模板PDB提取氨基酸序列,生成临时对齐序列tmp.ali(模板之间的对齐)(这一步很厉害,手动是做不到的)
3 运行align2dmultiple .py ,将上一步tmp.ali 和 seq_in.ali作为输入,输出模板-目标序列对齐文件out_multi.ali 。
4 modelmutli.py ,将out_multi.ali作为为输入,输出5个模板。注意在脚本中是否启用打分函数。写个示例照抄吧,
#script name: model_multi.py
from modeller import *
from modeller.automodel import *env = environ()
a = automodel(env, alnfile='RAs.ali',knowns=('3jvfC','5nanB','raA','fcA'), sequence='v301',assess_methods=(assess.DOPE, assess.GA341)) #打分函数DOPE GA341
a.starting_model = 1
a.ending_model = 5
a.make()
运行脚本时,一个好的习惯是把结果输出到log文件。以下是正确的运行姿势:
python model_multi.py >model_mult.log
5 耐心等2-5min,可以看到文件夹里输出了 top5 PDB文件
6 接下来就是选一个最好的模型,对loop区进行优化,选哪个最好呢?model_mult.log 文件翻到最后几行,有一个打分表如下所示:
>> Summary of successfully produced models:
Filename molpdf DOPE score GA341 score
----------------------------------------------------------------------
v301.B99990001.pdb 14329.77930 -50343.39844 1.00000
v301.B99990002.pdb 14055.56250 -50587.92188 1.00000
v301.B99990003.pdb 14375.34180 -50059.13281 1.00000
v301.B99990004.pdb 14329.56445 -49999.58203 1.00000
v301.B99990005.pdb 14213.77441 -50539.99219 1.00000
molpdf 、DOPE 数值越小、GA341 越接近1 说明模型越合理。 GA341一般要求大于0.6。这里都差不多,我就选择第二个作为candidate进行优化。
运行loop_refine脚本时要指定优化哪一段序列。
python loop_refine.py >loop_refine.log
等上一段时间后,输出XXX.BL99990001-5.pdb 5个优化后的模型文件。
7 至此 基本流程就结束了,剩下的是在线对模型进行一站式评估了
DOE-MBI Structure Lab UCLAservicesn.mbi.ucla.edu
小结:融合蛋白多模板拼接建模,相对于不拼接建模的 核心操作其实很简单,一句话, 在步骤3 建模脚本out_multi.ali 对齐文件中,手动的将所有序列对齐。