建立模型以比以往更准确地重建进化变化

医学2020-08-26 17:23:37
导读还记得我们在中学生物学中学到的领域,王国,门,阶级,秩序,家庭,属,物种和达尔文的生命树隐喻吗?这种描述生命事物谱系的方式,是科学

还记得我们在中学生物学中学到的领域,王国,门,阶级,秩序,家庭,属,物种和达尔文的生命树隐喻吗?这种描述生命事物谱系的方式,是科学界对基因如何随着时间发生突变和分裂以将事物改变为如今的状态所做的最好猜测。

随着科学越来越擅长识别蛋白质和基因的变化,将生物重新分类为另一个属并不少见。例如,最近,各种细菌,植物和珊瑚的分类法发生了变化。

如果您可以建立一个更好的进化变化模型,尽管它可能不是100%准确(考虑到复杂的生物体已经进化了数十亿年),却能为您提供比以往更清晰的图景?

克里斯汀·纳格勒(Kristen Naegle)是弗吉尼亚大学工程学院的生物医学工程和计算机科学副教授,也是UVA公共卫生基因组学中心的常任理事,并曾担任博士学位。当时的学生罗曼·斯洛特斯基(Roman Sloutsky)现在是麻省大学阿默斯特分校的博士后研究员。他们的工作展示了如何构建模型来比以往任何时候都更准确地重建进化变化,这为了解疾病在人体中的工作方式带来了突破。

他们的论文“ ASPEN,一种使用整体模型重建蛋白质进化的方法,”在10月17日星期四发表在eLife杂志上。ASPEN代表“通过蛋白质进化子采样的准确性”。他们的研究突出了UVA在生物医学数据科学中的优势。

为了更好地理解他们在建模演化变化方面工作的复杂性,Naegle提供了一个类比:“如果我要求您预测某人在旧金山和纽约之间走的路线,那将是一个模型。但是如果我要求1,000个人给我一个人走哪条路线的预测,那么这条路线在1000人中共享最多的部分就很可能是真实的,这是因为大多数人可能都认为,两个城市之间的特定高速公路是最有效的要走的路,这样高速公路的那部分就会有很大的分量或概率。

“如果我发现在这1000条路线中没有人达成任何协议,那将告诉我,我对任何一种模型的准确性都没有信心。相反,如果每个人都对路线的绝大部分或大部分达成共识,我非常有信心在这两个点之间必须有一种最佳的旅行方式,我可以想出一条新路线,而不是这1000个人中的任何一条,而是捕捉所有这1000个人之间共享最多的路线建议,该模型可能比提供给我的任何单个模型都更接近真实路线。最后,它可能仍然不完全准确-我永远无法知道真实路线,除非我询问实际执行此操作的人旅行-但这可能比单独的任何一条路线建议要好得多。

“进化就是这样,只是就像在猜测通过时间而不是空间的路线。”

重建进化分支是棘手的,特别是当许多物种共享相似类型的蛋白质时,这种蛋白质可能已经进化为执行某些不同的功能。从数学上讲,问题很快就变得非常严重,但是发现这种蛋白质进化的含义可能会导致人们更好地了解我们的身体如何应对癌症和其他疾病。

这个问题的解决方法是Sloutsky在研究许多不同物种共有的细胞信号传导中的重要蛋白质时提出的。他想知道这种蛋白质是如何随着时间演变而在不同物种中具有不同功能的。这个问题是如此之大,他决定只对几个序列进行抽样,以重建进化的分歧。

他说,尽管进行了1000次尝试,但重建工作彼此不同。“这本身并不是一个大问题-我没想到他们都会同意。但是我希望一个模型在大多数时间或至少很多时间可以重复。”

惊讶的是,他决定看看所有不同意见的模型有什么共同点。他说:“我知道我将不得不想出一种方法来合并所有这些模型中的信息,因为我不能只使用最常见的模型。”“这是一个意外的挑战,导致了这项工作。”

在几个月的时间里,Naegle和Sloutsky改进了软件并测试了越来越多的针对蛋白质的重构问题,Naegle和Sloutsky能够创建开源软件,该软件可以结合多个模型来非常准确地重构进化变化。

免责声明:本文由用户上传,如有侵权请联系删除!