人工智能检测自闭症背后的一类新突变
导致疾病的DNA中的许多突变不在实际基因中,而是位于被认为是“垃圾”的99%的基因组中。尽管科学家最近已经明白这些巨大的DNA片段确实发挥了关键作用,到目前为止,大规模地破译这些影响是不可能的。
利用人工智能,普林斯顿大学领导的团队已经解释了这种突变对自闭症患者的功能影响。研究人员认为,这种强有力的方法通常适用于发现任何疾病的遗传贡献。
由普林斯顿大学计算机科学和基因组学教授Olga Troyanskaya领导的研究已经开发出一种新方法,用于在整个人类基因组中搜索影响基因调控方式的突变,并预测这些突变如何与自闭症等疾病相关联。预测被自闭症患者的调节突变破坏的基因倾向于参与脑细胞功能,并分为两类。一类(以蓝色显示)涉及突触,神经元之间的通信枢纽,另一类(以红色显示)涉及染色质,染色质是染色体中正确基因表达所需的高度结构化的DNA和蛋白质形式。研究人员的插图
发布 在杂志自然遗传学,研究人员分析了1,790个家庭,其中一个孩子有自闭症谱系障碍,但其他成员没有的基因组。该方法在120,000个突变中进行分类,以找到那些影响自闭症患者基因行为的突变。虽然结果没有揭示自闭症病例的确切原因,但它们揭示了研究人员研究的数千种可能的贡献者。
以前的许多研究都集中在识别基因本身的突变上。基因本质上是制造构建和控制身体的许多蛋白质的说明。基因突变导致突变的蛋白质,其功能被破坏。然而,其他类型的突变会破坏基因的调控方式。这些区域的突变不会影响基因的产生,而是产生何时和产生多少。
研究人员说,到目前为止,不可能在整个基因组中查找调控基因的DNA片段,并预测这种调节DNA中的突变可能如何导致复杂疾病。该研究首次证明调节DNA突变可导致复杂疾病。
“这种方法为任何疾病的分析提供了一个框架,” 计算机科学 和 基因组学教授 ,该研究的高级作者Olga Troyanskaya说 。该方法可能特别有助于神经系统疾病,癌症,心脏病和许多其他无法确定遗传原因的努力。
“这改变了我们思考这些疾病可能原因所需的方式,”Troyanskaya说,她也是纽约西蒙斯基金会熨斗研究所基因组学副主任,领导了一组合着者。
该团队还包括由洛克菲勒大学的神经科学家Robert Darnell领导的小组。本文的第一作者是Jian Zhou和Christopher Park,他们在普林斯顿大学获得博士学位,现在正在访问Lewis-Sigler综合基因组学研究所的合作者和Flatiron研究所的研究人员,以及普林斯顿Lewis-Sigler研究所的Chandra Theesfeld。用于整合基因组学。
大多数先前关于疾病遗传基础的研究都集中在20,000个已知基因和调节这些基因的DNA的周围部分。然而,即使是大量的遗传信息也只占人类基因组中32亿个化学对的1%多一点。其他99%传统上被认为是“黑暗”或“垃圾”,尽管 最近的研究 已经开始破坏这一想法。
在他们的新发现中,研究团队提供了一种方法来理解这一大量基因组数据。该系统使用称为深度学习的人工智能技术,其中算法执行连续的分析层以了解否则将无法辨别的模式。在这种情况下,该算法教导自己如何识别DNA的生物学相关部分并预测这些片段是否在已知影响基因调节的2,000多种蛋白质相互作用中发挥作用。该系统还预测破坏单对DNA单元是否会对这些蛋白质相互作用产生实质性影响。
Troyanskaya说,该算法“沿基因组滑动”分析其周围1000个化学对的每一个化学对,直到它扫描了所有突变。因此,该系统可以预测突变整个基因组中每个化学单元的影响。最后,它揭示了可能调节可能干扰该调节的基因和突变的DNA序列的优先列表。
在此计算成就之前,收集此类信息的传统方法是对每个序列进行艰苦的实验室实验以及该序列中的每个可能的突变。这些可能的功能和突变数量太大而无法考虑 - 实验方法需要针对超过2,000种类型的蛋白质相互作用测试每种突变,并在组织和细胞类型中反复重复这些实验,总计数亿次实验。其他研究小组试图通过将机器学习应用于DNA的靶向部分来加速这一发现,但是没有实现查看每个DNA单元和每个可能的突变的能力以及对整个基因组中超过2,000种调节相互作用的影响。 。
“我们的论文真正允许你做的是采取所有这些可能性并对它们进行排名,”帕克说。“优先排序本身非常有用,因为现在你也可以继续在最优先的情况下进行实验。”
最后,该系统根据已知的致病突变校准其预测,并制定“疾病影响评分”,评估给定突变对疾病产生影响的可能性。
在自闭症的情况下,研究人员分析了1790个具有“单纯性”孤独症谱系障碍的家庭的基因组,这意味着该病症在一个孩子中是明显的,但在其他家庭成员中则不然。(这些数据来自2000多个孤独症家庭的Simons Simplex Collection。)在这个样本中,受自闭症谱系障碍影响的人中只有不到30%具有先前确定的遗传原因。研究人员表示,新发现的突变可能会显着增加这一比例。
预测每个突变的功能效应的能力是这项新研究的关键创新。之前的研究发现,与未受影响的人相比,检测自闭症患者的调节突变数量存在任何差异具有挑战性。然而,新方法研究了预测具有高功能影响的突变,发现受影响人群中此类突变的数量明显增多。
当研究人员随后查看哪些基因受这些突变影响时,他们发现它们是与大脑功能密切相关的基因。这些新发现的突变影响了与先前鉴定的突变相似的基因和功能。
“现在我们打开这个领域,了解可能与自闭症有关的所有因素,”Theesfeld说。
这些信息对于家庭及其医生来说也很重要,可以更好地诊断这种疾病,并避免过分笼统地假设一个人的孤独症如何与其他人分类。“他们说,当你遇到一个患有自闭症的人时,你遇到了一个患有自闭症的人,因为没有相同的病例,”Theesfeld说。“基因上,它似乎是一样的。”
通过这种新方法,该团队正在分析各种形式的癌症,心脏病和其他疾病的遗传原因。