符号系统使科学家能够更容易地传达聚合物
具有紧凑但强大的基于结构的分子结构标识符或表示系统是在研究界内有效共享和传播结果的关键促成因素。这些系统还为机器学习和其他数据驱动的研究奠定了重要的基础。虽然小分子已经取得了实质性进展,但聚合物界一直在努力提出一种有效的代表系统。
对于小分子,基本前提是每种不同的化学物种对应于明确定义的化学结构。这不适用于聚合物。聚合物本质上是随机分子,通常具有化学结构分布的集合体。这种困难限制了为小分子开发的所有确定性表示的适用性。在麻省理工学院,杜克大学和西北大学的研究人员9月12日发表的一篇论文中,麻省理工学院,杜克大学和西北大学的研究人员报告了一种新的表示系统,该系统能够处理聚合物的随机性质,称为BigSMILES。
“BigSMILES解决了聚合物数字表示方面的重大挑战,”Connor Coley博士解释说。'19,该论文的共同作者。“聚合物几乎总是通过随机过程产生的多种化学结构的集合体,因此我们不能使用相同的策略来记录它们的结构,就像小分子一样。”
共同作者是Coley;麻省理工学院化学工程副教授Bradley D. Olsen;华盛顿大学Karens F. Jensen化学工程教授Warren K. Lewis;西北大学化学助理教授Julia A. Kalow;麻省理工学院化学副教授Jeremiah A. Johnson;William T. Miller杜克大学化学教授Stephen L. Craig;西北大学的研究生艾略特伍兹;杜克大学研究生Zi Wang;麻省理工学院的研究生王文聪;麻省理工学院的研究生Haley K. Beech;麻省理工学院访问研究员Hidenobu Mochigase;麻省理工学院的研究生Tzyy-Shyang Lin。
有几种线符号可以传达分子结构,简化的分子输入线路输入系统(SMILES)是最受欢迎的。SMILES通常被认为是人类最易读的变体,迄今为止是最广泛的软件支持。在实践中,SMILES提供了一组简单的表示,适合作为化学数据的标签,也可作为研究人员之间数据交换的记忆紧凑型标识符。作为基于文本的系统,SMILES也很适合许多基于文本的机器学习算法。这些特性使SMILES成为将化学知识转化为机器友好形式的完美工具,并已成功应用于小分子特性预测和计算机辅助综合规划。
然而,聚合物已经抵制了这种和其他结构语言的描述。这是因为大多数结构语言(如SMILES)都被设计用于描述明确定义的原子图的分子或化学片段。由于聚合物是随机分子,因此它们没有独特的SMILES表示。这缺乏聚合物材料的统一命名或标识符约定是减缓聚合物信息学领域发展的主要障碍之一。虽然聚合物信息学的开创性工作,如聚合物基因组计划,已证明SMILES扩展在聚合物信息学中的有用性,新化学的快速发展以及材料信息学和数据驱动研究的快速发展使得需要普遍适用聚合物的命名惯例很重要。
“机器学习为加速化学发展和发现提供了巨大的机会,”美国国家科学基金会(NSF)化学部代理副主任林鹤说。“这种用于标记结构的扩展工具,专门用于解决聚合物固有的独特挑战,大大提高了化学结构数据的可搜索性,使我们更接近利用数据革命。”