研究人员揭示了遗传预测方法的一个共同缺陷

新闻2020-02-25 09:02:14
导读来自新加坡国立大学新加坡癌症科学研究所(CSI新加坡)和新加坡南洋理工大学生物科学学院(新加坡南洋理工大学)的研究人员进行的一项研究显示

来自新加坡国立大学新加坡癌症科学研究所(CSI新加坡)和新加坡南洋理工大学生物科学学院(新加坡南洋理工大学)的研究人员进行的一项研究显示,现有的人工智能方法常用于预测增强子 - 启动子相互作用,可能导致膨胀的性能测量。该研究结果发表在2019年7月的“ 自然遗传学 ”杂志上,为理解基因调控提供了一个改进的路线图。

增强子是DNA的短序列,其用于加速基因转录,而启动子是用于启动基因转录的DNA片段。了解增强子和启动子之间的相互作用对于基因调控研究至关重要,因为对于癌细胞中的相互作用是否功能失调具有重大的科学兴趣,并为临床干预提供了机会。为了大规模且经济有效地研究增强子 - 启动子相互作用,用于预测此类相互作用的人工智能方法对于促进研究人员的研究并使他们能够将这些数据的可用性扩展到新细胞类型至关重要。

在CSI新加坡研究员曹凡博士和CSI新加坡首席研究员Melissa J. Fullwood博士以及新加坡南洋理工大学南洋助理教授的研究中,研究小组试图开发增强子 - 启动子相互作用。使用来自TargetFinder的现有数据集的预测方法,这是一种先进的机器学习方法,基于转录因子和增强子与启动子之间的窗口区域中的组蛋白修饰谱预测增强子 - 启动子相互作用。在此期间,研究小组观察到增强子 - 启动子相互作用在窗口区域的随机DNA序列特征中被预测,表明高性能。

然而,仔细检查TargetFinder数据集后,该团队意识到报告的高性能可归因于数据集中阳性样本的窗口区域之间的高重叠,从而影响预测的性能。为了缓解样本重叠的问题,该团队随后使用染色体分裂策略评估了增强子 - 启动子相互作用方法。TargetFinder通过染色体分裂策略实现了显着降低的性能,这证明了性能测量确实在早期预测中被夸大了。

该团队还研究了另一种方法JEME,这是一种有监督的机器学习方法,利用在正样本和负样本之间的距离分布存在显着差异的数据集来预测增强子 - 启动子相互作用。他们的调查显示,JEME也导致由于错误使用输入数据导致的性能测量结果膨胀。

“我们的研究强调了在将机器学习应用于基因组研究时需要仔细的实验​​设计。正确评估增强子 - 启动子相互作用方法的关键,并考虑产生高度膨胀的性能测量的可能性。” 曹博士说。

“准确的增强子 - 启动子相互作用预测在基因调控研究中是必不可少的,以便促进我们理解癌症样本之间是否存在任何差异,例如不同的癌症临床亚型,以便更好地开发癌症的生物标志物和治疗方法。未来,“Fullwood博士说。

展望未来,研究团队将致力于一种新的精确机器学习方法,用于预测增强子 - 启动子相互作用,并将该方法应用于癌症队列分析,以了解癌症中增强子 - 启动子相互作用的变化。

免责声明:本文由用户上传,如有侵权请联系删除!