Advanced Science:清华李梢团队提出迁移学习新模型实现中药整体性、特异性、有向性的靶点预测

中药治疗强调整体观念,具有多成分、多靶点、整体调节的特点。如何通过人工智能方法说明白、讲清楚中医药的疗效是一个关键问题。目前中医药的高质量微观数据集相对缺乏,这为人工智能深度学习等数据驱动方法在中医药中的应用带来了严峻挑战,迄今尚缺少阐释中药整体性、特异性、有向性的靶点预测方法。针对这一难题,清华大学北京市中医药交叉研究所所长、欧洲科学与艺术院李梢院士团队提出了结合迁移学习和集合置换不变性的SETComp新模型,该模型能够考虑细胞特异性并进行全基因组水平的中药靶点的有向预测。模型特点在于:(1)整体性:克服了目前方法仅能预测现代药物或中药成分作用靶点的局限,实现中药整体性作用靶点的精准预测;(2)特异性:将中药所作用的细胞环境的特异性作为因素融合进预测模型;(3)有向性:能够预测中药对靶点的作用方向(促进或抑制)。相关论文以Transfer Learning and Permutation-Invariance Improving Predicting Genome-Wide, Cell-Specific and Directional Interventions Effects of Complex Systems“为题近期发表于Advanced ScienceIF=14.1

SETComp模型基于迁移学习研制,弥补了中医药微观数据资源有限和数据稀缺的不足,能够将预训练模型在大规模通用数据集上学到的特征和知识,迁移到中医药特定任务中,显著提升了模型在中医药数据上的表现。SETComp模型适用于中药在特异性细胞环境中整体性靶点的预测,且具有预测促进/抑制靶点方向的能力,从而表征中药多成分、多靶点复杂干预效应。

该模型也是李梢团队自主研制的中西医药分子网络导航系统(UNIQ系统)的重要组成部分。研究表明,随着多组学大数据分析技术和人工智能的发展,网络药理学将继续发挥关键作用,结合多层次生物网络与人工智能新算法,有望形成更加精确的药物研发和疾病治疗新策略。

undefined

1 基于迁移学习的中药作用靶点整体预测SETComp模型

SETComp模型(图1)的具体介绍:考虑到中药等具有多成分、多靶点特点的复杂系统的靶点相关数据远少于现代药物化合物小分子药物的靶点相关数据,建立了一个迁移学习模型,以有效地利用现有的海量现代药物化合物干预后的靶点表达谱。该模型从180余万现代药物化合物干预的靶点表达谱中通过预训练学习化合物-细胞-靶点的关联,再基于有限的中药干预的靶点表达谱数据对模型进行微调以学习中药-细胞-靶点的关联,从而实现全基因组水平上中药在特异性细胞环境的整体性靶点的有向预测。该基于迁移学习模型的主体架构包括三部分,分别是集合嵌入模块,注意力模块和预测模块(图2)。其中集合嵌入模块以置换不变性为核心,对化合物(视为单一元素集合)和中药(多化合物集合)进行置换不变性表征。注意力模块以自注意力机制为核心,学习集合表征、靶点表征和细胞表征间的特征关系。预测模块则利用不断缩小尺寸的深度神经网络,来实现对中药(化合物)-细胞-靶点的关联预测。而嵌入子架构由化合物嵌入模块、靶点嵌入模块和细胞嵌入模块构成。融合结构、序列、关联网络等多模态信息的化合物嵌入模块、靶点嵌入模块和细胞嵌入模块分别用于嵌入中药及中药所含有的化合物、全基因范围的靶点和中药所作用细胞的特异性。

undefined

2 SETComp模型的整体架构

在中药-细胞-靶点的关联预测中,SETComp模型的两个版本(Concat版本和Add版本)分别达到了93.86%92.70%的准确率(图3),AUC分别为0.98880.9856,相比基准机器学习模型,准确率提高了5.82%27.59%AUC提高了7.83%15.63%AUPR提高了8.20%24.4%。模型独特的架构带给SETComp更好的性能,与Vallina neural network(同规模的MLP)相比,准确率提高了10.10%,与NoSet(同规模同架构但无集合嵌入模块)版本相比,提升了5.74%,分别体现了集合嵌入模块和注意力模块的重要性。当预测模型之前未见过的中药对应的中药-细胞-靶点的关联时,模型在两个版本上的准确率分别为82.75%82.66%,相比基准机器学习模型提高了最多24.83%的准确率,比Vallina neural network提高了5.59%

undefined

3 SETComp模型的预测性能

为了进一步验证模型的预测性能,进行了实际的转录组学实验来验证模型的预测结果。在多个细胞系中,测试了黄芪、肉桂、党参等多种中药上的预测效果,并通过转录组测序获得了它们的RNA-seq计数数据进行差异表达分析以证明模型的性能。经过常规的生物信息学的差异分析,得到了每个靶点在细胞系干预后的差异表达情况。在差异基因中,模型在中药-细胞-靶点关联预测的单分类准确率最高能够达到88.65%。此外,SETComp模型还具有在中药新药研发多个关键问题的应用潜力,包括揭示中药干预机制和中药重定位预测。SETComp模型预测在一定程度上定量反映了靶点在干预后的激活/抑制强度,可以应用基因集富集分析对预测结果进行富集分析,并观察它们可能引起的潜在通路层次的变化,得到分子层次之上的中药在不同细胞条件下对不同通路的影响。同时,SETComp模型还能高精度地预测中药潜在干预的疾病,以实现中药的重定位,发现中药的潜在新适应症。上述研究表明,SETComp模型为揭示中药疗效的微观机制等问题提供了方法学支撑,具有重要的应用价值,并在中药原理阐释、中药新药研发等领域中具有很大潜力。

undefined

4 SETComp模型在中药研发多个关键问题中的应用

清华大学自动化系博士生汪博洋为该文的第一作者,李梢所长为通讯作者。该研究得到国家中医药管理局中医药多学科交叉创新团队项目、国家自然科学基金专项项目、教育部学科突破先导项目等资助。

论文网址:https://advanced.onlinelibrary.wiley.com/doi/full/10.1002/advs.202509456