新工具挖掘融合蛋白事实的科学文本
一种名为ProtFus的新计算工具可以筛选科学文献,以验证关于融合蛋白活性的预测 - 由先前编码两种不同蛋白质的两个基因连接编码的蛋白质。以色列Bar-Ilan大学Frenkel-Morgenstern实验室的Somnath Tagore及其同事在PLOS计算生物学中展示了ProtFus 。
不同种类的融合蛋白可以在人体内自然产生,有时会导致癌症。了解融合蛋白与其他蛋白质之间的相互作用有助于改善个性化癌症治 然而,讨论这些相互作用的科学论文数量正在迅速增长,并且没有标准格式来呈现这些信息。因此,组织和掌握这些知识是一项重大挑战。
ProtFus通过使用计算策略(例如文本挖掘和机器学习)来解决这一挑战,以分析来自在线搜索引擎PubMed的科学文献。它能够识别可能具有多个名称的融合蛋白,并且它可以识别实验验证的融合蛋白与其他蛋白质之间的相互作用。当应用于1,817种融合蛋白的测试集时,ProtFus鉴定了18种癌症类型中的2,908种相互作用,这些相互作用已在PubMed的科学文献中发表。
ProtFus还建立在研究人员之前开发的工具之上,以便根据其两种亲本蛋白的已知特性预测给定的融合蛋白的相互作用。ProtFus采用感兴趣的融合蛋白,使用先前开发的工具(嵌合蛋白 - 蛋白质相互作用或ChiPPI)预测其相互作用,然后通过PubMed搜索验证这些相互作用。
“我们的研究结果证明了使用新型大数据基础设施进行大规模科学文章的文本挖掘的可能性,并且每天发表的文章都会进行实时更新,”该研究的通讯作者Milana Frenkel-Morgenstern博士说。“ProtFus可以以完全个性化的方式促进研究个体癌症患者蛋白质网络的改变,”该实验室的第一作者和之前的博士后(目前是纽约哥伦比亚大学的博士后)着名。