机器学习工具箱读取和分析蛋白质序列
法国的研究人员报告称,他们开发了一种机器学习工具箱,可以读取和分析蛋白质序列。他们的研究(“ 从序列数据中学习蛋白质组成基序 ”) 出现在 eLife中。研究表明,当训练读取序列数据时,称为限制玻尔兹曼机器(RBM)的人工神经网络可以提供有关蛋白质结构,功能和进化特征的信息。它被认为是第一种可以仅从序列数据中提取这种细节水平的方法。
“进化相关蛋白质序列的统计分析提供了有关其结构,功能和历史的见解。我们展示了Restricted Boltzmann Machines,旨在学习复杂的高维数据及其统计特征,可以从序列信息中有效地模拟蛋白质家族。我们在这里将RBM应用于20个蛋白质家族,并提供两个短蛋白质结构域的详细结果,Kunitz和WW,一个长伴侣蛋白,Hsp70和用于基准测试的合成晶格蛋白,“研究者写道。
“RBM推断出的特征具有生物学上的可解释性:它们与结构(如残基 - 残基三级接触,扩展的二级基序(α-螺旋和β-折叠)和本质上无序区域)有关(如活动)和配体特异性),或系统发育的身份。此外,我们使用RBM通过组合和随意调高或调低不同模式来设计具有推定特性的新蛋白质序列。因此,我们的工作表明,RBM是一种多功能的实用工具,可以揭示和利用蛋白质家族的基因型 - 表型关系。“
一篇关键的问题是试图了解蛋白质序列的哪些部分负责哪些属性,据巴黎高等师范学院(ENS)物理实验室的前博士生JérômeTubiana称。“回答这个问题可能会对药物开发产生重大影响,”Tubiana解释道。“例如,它可以帮助设计具有所需功能的新蛋白质,或预测未来生物体中蛋白质的序列进化,如病原体,并确定适当的药物靶标。”
为了探索这个问题,Tubiana和他的合作者将RBM应用于20个蛋白质家族。研究人员为四个蛋白质家族提供了详细的结果 他们发现,在学习之后,RBM中人工神经元之间的联系是可解释的,并且与蛋白质的结构,功能(例如活动)或系统发育有关。此外,该团队发现他们可以使用RBM通过随意组合和调高或调低不同的人工神经元来设计新的蛋白质序列。
“我们的RBM模型展示了机器学习技术如何能够以可解释的方式解决复杂的数据识别并从数据中得出结论,”共同作者,ENS物理实验室CNRS研究主任Simona Cocco博士说。“这与传统上用于数据科学的更复杂的黑盒模型背道而驰,因为这些工具提供的统计分析在很大程度上是无法解释的。我们方法的可解释性对科学家来说是一个重大的好处; 它承诺允许它们以受控的方式产生具有所需功能的蛋白质。“
推荐内容
-
儿童易被家长忽视的才能特征
都说现在的小孩子是越来越难教育了。好像从小就有自己的想法,不听爸爸妈妈的话,有时候还老是对着和你干 怎么才能发现孩子的特长,儿童都
-
如何培养孩子视野
都说小孩一天一个样。其实从小到大的成长过程中每个人都在不断的“进化”孩子视野培养十分重要,小时候孩子事业培养做的好的话对孩子的...
-
大秦赋公子虞的下场是什么 大秦赋公子傒结局怎么样
以前都说网剧不如电视剧,题材偏年轻化,故事没有质感经不起推敲,演员名气不大,演技也不如戏骨精湛,热度和口碑自然也不好。大秦赋公...
-
未来10年人类微生物组研究的重点
在过去十年中,超过17亿美元用于人类微生物组研究。主要项目正在美国,欧盟,中国,加拿大,爱尔兰,韩国和日本进行。这项投资证实了微...
-
孩子有自闭症倾向怎么办
家家都有本难念的经,特别是有小孩的家庭。在和孩子相处的过程中很多家长都在不断学习,怎么跟孩子交流起来更有效,怎么不跟孩子发脾气...
-
NEJM发布关键临床数据 抗癌新药CD47抗体
CD47是广泛表达在正常细胞表面的一种蛋白质,通过与巨噬细胞表面的SIRPα结合,释放一种别吃我的信号,从而保护健康细胞不被巨噬细胞
-
宝宝“节后综合症”,调理有新招
孩子是祖国的未来,我们必须时刻关注青少年的身体健康和心理健康。现在社会的压力很大,如果没有一个强大的心脏是无法承受住当今社会的...
-
心理咨询之婚恋观——如何判断男人准备撒谎_判断男人撒谎方法
如果一些还没谈过恋爱的男男女女们不知道该怎么处理异性人际关系可以看下过来人的一些建议,能帮助自己在爱情这条路上少走一些弯路。 如何
-
别被“乖孩子”忽悠了
都说小孩一天一个样。其实从小到大的成长过程中每个人都在不断的“进化”“我女儿患了多动症,怎么可能?”当雯雯被医生诊断为“多动症...
-
综合测试可以预测重症儿童的肾脏损伤风险
结合两种测试可以改善对重症监护儿童严重急性肾损伤的预测。这些发现来自一项研究,该研究将在2019年11月5日至11月10日在华盛顿特区的沃尔