tyc1286太阳成集团俞汝勤院士团队在分子表示研究中取得新进展
通讯员:王童 发布时间:2024-06-21 浏览量:次
分子的有效表示是影响人工智能模型性能的最关键因素之一。近日,tyc1286太阳成集团俞汝勤院士团队在分子表征的研究中取得新进展。该研究介绍了一种可扩展的、基于片段的多尺度分子表示框架,称为 t-SMILES(基于树的 SMILES),包括三种编码算法: TSSA、TSDY和TSID。t-SMILES系统仅引入了两个不需要配对的新符号,给1988年发表的最经典分子线性表示法SMILES引入了片段结构信息,同时缩短了SMILES描述符中由于需要配对的括号和数字所带来的长期依赖问题,并因其语法的简单性使得t-SMILES非常易于学习。该研究关注自然语言处理模型协助化学家进行分子空间探索时面临的最核心也是最基础的如何编码分子的问题,为AI辅助的分子建模提供了新的研究思路,助力分子“智造”。
t-SMILES是SMILES的超集,它使用SMILES而不是字典ID表示分子片段,通过广度优先算法遍历分子树,从而形成与经典SMILES相似的线性字符串表示。
t-SMILES算法
据估计,类药化学空间中可探索的分子数高达1023~1060个,在如此巨大的化学空间中进行分子结构的智能生成和快速优化是分子设计面临的巨大挑战。系统评估表明,t-SMILES可以构建多编码混合的分子表示系统以探索更广泛的化学空间,其中各种编码相互补充,从而提高系统的整体性能,其深度生成模型超越了目前测试的最先进的基于片段、图和SMILES的基线方法。并且,基于t-SMILES的模型可以规避资源有限数据集上的过拟合问题,在保证生成的分子与训练集合理相似性的情况下具有更高的新颖性,无论深度生成模型是原始的、数据增强的还是预训练后微调的。
资源有限数据集上获得更高的性能
此外,在目标导向的分子生成任务中,基于t-SMILES的模型也显著优于目前最先进的基线模型。
目标导向的分子生成任务中获得更高的性能
6月11日,该研究成果以 “t-SMILES: A Fragment-based Molecular Representation Framework for De Novo Ligand Design” 为题发表在《Nature Communications》上,tyc1286太阳成集团为独立完成单位,博士研究生伍娟妮为第一作者,俞汝勤院士和吴海龙教授为通讯作者。该项目得到了国家自然科学基金委、tyc1286太阳成集团、化学生物传感与计量学国家重点实验室支持。
论文链接:https://www.nature.com/articles/s41467-024-49388-6