机器学习可以预测生物回路的行为

生活2020-08-29 15:45:52
导读 杜克大学(Duke University)的生物医学工程师设计了一种机器学习方法,来模拟工程菌中复杂变量之间的相互作用,否

杜克大学(Duke University)的生物医学工程师设计了一种机器学习方法,来模拟工程菌中复杂变量之间的相互作用,否则这些复杂变量的预测将过于繁琐。它们的算法可推广到多种生物系统。

在这项新的研究中,研究人员训练了一个神经网络来预测细菌培养中嵌入的生物电路所产生的圆形图案。该系统的运行速度是现有计算模型的3万倍。

为了进一步提高准确性,研究小组设计了一种对机器学习模型进行多次再训练的方法,以比较他们的答案。然后,他们用它来解决第二个生物系统,这是一个计算要求不同的方式,表明算法可以工作的不同的挑战。


杜克大学生物医学工程教授游灵崇(Lingchong You)表示:“这项工作的灵感来自谷歌,它表明神经网络可以学会在围棋中击败人类。”

“尽管游戏规则很简单,但电脑有太多的可能性来决定论地计算出最佳的下一个选项,”你说。“我想知道这样的方法是否有助于我们应对生物复杂性的某些方面。”

你和他的博士后同事王商英面临的挑战是确定什么样的参数可以在经过基因工程的细菌培养中产生特定的模式。

在之前的研究中,你的实验室让细菌产生蛋白质,根据培养物生长的具体情况,这些蛋白质相互作用形成年轮。通过控制生长环境的大小和提供的营养物质的数量等变量,研究人员发现他们可以控制环的厚度、出现的时间以及其他特征。

通过改变几十个可能的变量,研究人员发现他们可以做得更多,比如导致两个甚至三个环的形成。但是,由于单个计算机模拟需要五分钟,为特定结果搜索任何大型设计空间变得不切实际。

在他们的研究中,该系统由13个细菌变量组成,如生长速率、扩散、蛋白质降解和细胞运动。仅仅计算每个参数的六个值,一台计算机就需要600多年的时间。在有数百个节点的并行计算机集群上运行它可能会将运行时间缩短到几个月,但机器学习可以将其缩短到几个小时。

“我们使用的模型速度很慢,因为它必须以足够小的速度及时考虑中间步骤,以保证准确性,”尤说。“但我们并不总是关心中间步骤。我们只是想要某些应用程序的最终结果。如果我们发现最终的结果很有趣,我们就可以找出中间的步骤。”

为了直接跳到最终结果,王求助于一种称为深度神经网络的机器学习模型,这种模型可以有效地比原始模型更快地做出数量级的预测。该网络以模型变量为输入,初始分配随机的权值和偏差,并预测菌落将形成何种模式,完全跳过了导致最终模式的中间步骤。

虽然最初的结果与正确答案相差甚远,但随着新的训练数据输入到网络中,权重和偏差每次都可以调整。如果有足够大的“训练”集,神经网络最终将学会几乎每次都做出准确的预测。

为了处理少数机器学习出错的情况,You和Wang想出了一种快速检查他们工作的方法。对于每个神经网络,学习过程都具有随机性。换句话说,它永远不会以同样的方式学习两次,即使它接受的是同一套答案的训练。

研究人员训练了四个独立的神经网络,并比较了每个实例的答案。他们发现,当训练好的神经网络做出类似的预测时,这些预测接近正确答案。

“我们发现我们不需要用慢速的标准计算模型来验证每个答案,”You说。“实际上,我们用的是‘群众的智慧’。”

随着机器学习模型的训练和验证,研究人员开始使用它来对他们的生物回路做出新的发现。在最初用于训练神经网络的10万个数据模拟中,只有一个产生了带有三个环的菌落。但是随着神经网络的速度,You和Wang不仅能够找到更多的三胞胎,而且还能确定哪些变量对产生三胞胎至关重要。

“神经网络能够发现变量之间的模式和相互作用,否则是不可能发现的,”王说。

作为研究的最后阶段,You和Wang在一个随机操作的生物系统上尝试了他们的方法。解决这类系统需要一个计算机模型多次重复相同的参数,以找到最可能的结果。虽然这是一个与他们最初的模型完全不同的计算运行时间长的原因,研究人员发现他们的方法仍然有效,表明它可以推广到许多不同的复杂生物系统。

研究人员现在正试图将他们的新方法应用于更复杂的生物系统。除了在运行速度更快的gpu的计算机上运行它,他们还试图让算法尽可能地高效。

“我们用10万组数据训练了神经网络,但这可能有点过头了,”王说。“我们正在开发一种算法,在这种算法中,神经网络可以与仿真实时交互,以帮助加快速度。”

“我们的第一个目标是一个相对简单的系统,”You说。“现在我们想要改善这些神经网络系统,为更复杂的生物电路的潜在动态提供一个窗口。”


免责声明:本文由用户上传,如有侵权请联系删除!