当前位置：

首页

科学进展

计算毒理学

基于多任务深度学习和ToxCast生物测定的发育与生殖毒性机制预测模型

日期：2026-05-21

发育与生殖毒性测试是化学物质安全性评价中最为复杂且资源密集的领域之一。传统的发育与生殖毒性检测方法主要依赖动物实验，如经济合作与发展组织测试指南TG 414、421、422及TG 443等。这些体内研究虽然在危害识别方面不可或缺，但存在成本高、周期长、动物使用量大以及种属差异导致的转化局限性等问题。为应对这些挑战，新途径方法（NAMs）正日益受到重视，其中包括计算机模拟、化学检测及体外检测系统。美国环境保护署的ToxCast高通量筛选项目已产生了覆盖多种分子靶标和生物通路的大规模生物活性数据，为发育与生殖毒性相关机制的识别提供了重要基础。与此同时，人工智能技术(AI)的快速发展使得基于图结构的深度学习和多任务学习等方法在毒性预测领域展现出新的潜力。本文基于Ahn等人于2026年发表于《Frontiers in Toxicology》期刊的研究论文，系统介绍该团队开发的基于多任务深度学习的发育与生殖毒性预测框架及其验证结果。

1 研究目的与总体设计

（1）研究目标

该研究旨在利用23种经前期筛选确认与发育与生殖毒性机制相关的ToxCast生物测定数据，开发一种基于深度学习的预测框架。研究系统比较了多种深度学习架构与传统机器学习算法的预测性能，评估了多任务学习框架对模型稳定性的贡献，并通过外部验证数据集检验模型的泛化能力。

（2）总体设计

研究分为三个主要步骤。第一步，使用23种与发育与生殖毒性相关的ToxCast生物测定数据进行模型开发，这些测定基于机制相关性和与体内参考数据的统计关联在前期的研究中被筛选出来。第二步，生成多种分子表征（包括分子指纹、分子图及三维结构特征），构建五种机器学习模型和四种深度学习模型，分别在单任务和多任务设置下进行训练，以F1分数作为主要评价指标。第三步，利用欧洲替代方法验证联合研究中心ReProTect项目的91种参考化学品对优化后的多任务深度学习模型进行外部验证，评估其预测可靠性和泛化能力。

2 数据来源与处理方法

（1）ToxCast生物测定数据

研究使用了美国环境保护署ToxCast体外数据库v4.1版本中公开发布的23种生物测定数据。这些测定在前期的研究中基于其与发育与生殖毒性的机制相关性及与体内发育与生殖毒性结局的统计关联被筛选出来。每种测定的结果采用hit call数据，即阳性标记为活跃类别，阴性标记为非活跃类别。机制注释来自美国国家毒理学计划综合化学环境数据库，其中201种测定被映射到与发育与生殖毒性相关的机制。

（2）数据预处理与平衡

化学物质的简化分子输入行输入规范标识符来自美国环境保护署CompTox化学品数据库，并使用RDKit进行规范化处理。研究排除了含有金属、盐类或离子混合物的化合物，以避免在标准化学信息学流程中出现价态处理和图构建不稳定的问题。ToxCast hit call数据在各测定中普遍存在类别不平衡现象，非活跃样本数量远多于活跃样本。为解决这一问题，研究采用了合成少数类过采样技术来增强少数类（活跃）样本的代表性。

（3）数据划分

为确保机器学习与深度学习模型之间的公平比较，研究创建了三种基于不同随机种子的独立数据集划分。每种划分下，数据集按80%、10%、10%的比例随机分为训练集、验证集和测试集。最终性能指标以三种种子划分下结果的平均值和标准差表示。此外，研究还进行了随机标签基线分析，以验证模型性能显著优于随机水平。

3 分子表征与深度学习模型架构

（1）序列表征

基于序列的表征将分子表示为符号字符串，如简化分子输入行输入规范标识符，可复用自然语言处理架构进行学习。但这类方法难以捕捉分子的空间拓扑和几何信息。

（2）图表征

基于图的表征将分子描述为以原子为节点、化学键为边的二维图结构。图神经网络通过消息传递机制将分子图转换为紧凑的嵌入向量。研究采用了三种基于图的深度学习架构：TransFoxMol、DGCL和MolPath。TransFoxMol是一种基于Transformer的多模态模型，通过图神经网络提取局部结构特征，再利用Transformer的自注意力机制建模全局特征。DGCL是一种基于对比学习的自监督学习框架，在预训练阶段通过两个不同的图神经网络编码器（图同构网络和图注意力网络）对同一分子图进行编码，优化对比学习目标以使同一分子的不同编码对齐、不同分子的编码分离。MolPath是一种链感知的图神经网络，通过路径卷积和初始残差连接模块增强对分子结构中远程依赖关系的捕捉能力。

（3）几何表征

基于几何的表征纳入三维空间信息，包括原子坐标、原子间距离和键角。研究采用的MolFormer是一种基于三维几何Transformer的监督模型，在异质分子图上操作，同时包含原子级和模体级节点，利用异质自注意力机制建模多层级节点间的相互作用。

（4）模型适配与超参数优化

四种深度学习架构均使用各自编码器产生的分子级嵌入向量作为输入，传递给共享的多层感知机分类头进行分类。所有模型均按照各自原始论文中的实验流程和实现建议进行训练，基于验证集性能进行模型选择，并采用早停法防止过拟合。对于DGCL，对比预训练的图同构网络和图注意力网络编码器作为固定特征提取器，其图级嵌入与分子指纹拼接后传递给分类器，编码器参数保持冻结。

4 机器学习与深度学习性能比较

（1）基线机器学习模型

研究首先训练了五种机器学习算法，包括逻辑回归、决策树、随机森林、梯度提升树和极端梯度提升树，使用四种分子指纹（Morgan、MACCS、RDKit拓扑及分层指纹）和约一百种超参数组合进行网格搜索。在所有测试的生物测定中，这些机器学习模型的预测性能较为有限，F1分数范围在0.26至0.49之间。

（2）深度学习模型的性能提升

四种深度学习架构（DGCL、TransFoxMol、MolPath、MolFormer）在各测定中的最佳F1分数范围为0.32至0.61。其中，DGCL架构在大多数测定中被选为表现最佳的模型。与每种测定的最佳机器学习基线相比，DGCL的F1分数提升幅度在0.05至0.30之间。在细胞外基质相关测定（如BSK_CASM3C_uPAR）中，DGCL模型相较于最佳机器学习算法的F1分数提升了0.23。深度学习模型在ROC-AUC、精确率和召回率等其他评价指标上也取得了更高的数值，表明其分类稳健性整体增强。

（3）多任务学习的影响

为评估跨多个终点学习共享表征是否能够提升模型性能，研究比较了单任务与多任务深度学习框架的结果。以DGCL为骨干模型，两种配置的平均F1分数相近，表明多任务学习并未显著提高平均性能。在少数数据稀疏的测定中观察到小幅改进，提示共享表征学习可能对活跃样本有限的终点略有助益，但增益幅度有限。多任务框架在本研究中主要作为补充性评价而非性能提升的主要贡献因素。

5 外部验证结果

（1）验证数据集

外部验证使用了欧洲替代方法验证联合研究中心ReProTect项目筛选和验证的参考化学品集。原始数据集包含102种化学品，经排除11种无有效分子表征的化学品后，最终使用91种化学品进行验证。这些化学品针对发育毒性、雄性生育毒性和雌性生育毒性三种效应进行评估，基于ReProTect项目中综合体内证据的分类结果进行阳性或阴性标记。数据集中包含75种阳性化学品和16种阴性化学品。

（2）预测策略

对于ReProTect参考化学品，采用基于共识的方法生成总体发育与生殖毒性预测，即对23个机制终点特异性模型的预测结果进行多数投票，为每种化学品生成单一的二元结局。该聚合策略基于以下假设：在多个发育与生殖毒性相关机制上触发生物活性的化学品更可能在整体水平上诱导不良发育或生殖效应。在性能评估之前，对23个机制终点特异性模型分别进行了应用域评估，超出应用域的预测被排除在分析之外。最终有1种化学品被排除，外部验证在其余90种ReProTect化学品上进行。

（3）验证性能

混淆矩阵显示模型能够正确识别部分阳性和阴性化学品，但在阳性类别中仍存在误分类。外部验证性能指标显示模型产生了均衡的预测轮廓，F1分数维持在0.68的水平。精确率和特异性相对较高，表明模型对非毒性化学品的分类较为保守，同时仍能检测到部分毒性化学品。外部验证的F1分数与内部评估相当，但精确率-召回率的权衡有所不同。外部数据中召回率相对较低，提示模型对某些阳性化学品的敏感性仍有局限，在应用于更广泛的化学领域时需加以考虑。

6 讨论与局限性

（1）机制基础与筛选应用

研究中使用的23种生物测定并非随机选择，而是在前期研究中被映射到发育与生殖毒性中反复涉及的若干关键机制，如雌激素信号和血管生成反应。在当前的发育与生殖毒性测试框架中，这些通路分散于多个终点和物种中，难以通过单一的体内测试早期检测。整合这些机制关联的测定使模型能够捕捉与发育与生殖毒性相关通路相关的早期细胞事件，为早期筛选提供了优势，尽管模型并不直接预测发育与生殖毒性结局。

（2）模型定位

DGCL框架有效捕捉了ToxCast测定中的结构和机制关系，表现优于传统机器学习模型。外部参考集的验证结果表明，该模型在具有实验确定的发育与生殖毒性结局的化学品上能够可靠地预测。模型表现出均衡且相对保守的预测模式，即较高精确率和较低召回率。这些特征使其适合作为早期筛选工具，用于帮助优先排序化学品而非做出最终的阴性判定。因此，该预测模型可作为下一代风险评估流程中的初始组成部分，用于筛选大规模化学品库、标记潜在的发育与生殖毒性相关作用模式，并指导后续新方法学（如内分泌测定、胚体测定或斑马鱼胚胎测试）的选择。

（3）局限性

首先，数据集的大小和覆盖范围受限于经筛选的、映射到发育与生殖毒性相关机制的ToxCast测定的可获得性，这可能限制了所代表的生物过程的多样性，并可能降低模型捕捉罕见毒性机制的能力。其次，虽然多任务框架提升了稳定性，但总体性能增益有限，提示仅靠共享表征学习可能不足以弥补固有的数据不平衡问题。第三，外部验证仅在相对较小的化学品集上进行，模型在更广泛化学领域（具有不同结构、暴露途径或代谢特征）的泛化能力尚不明确。

7 结论

该研究提出了一个基于多任务深度学习的发育与生殖毒性预测框架，利用经筛选的ToxCast生物测定数据，通过先进的深度学习架构实现了超越传统机器学习方法的预测性能，并在严重数据不平衡条件下表现出更高的稳定性。使用欧洲替代方法验证联合研究中心ReProTect参考化学品进行的外部验证显示出稳健且保守的预测行为，支持该模型作为非动物安全性评价策略中筛选水平工具的可靠性。这些结果凸显了将机制生物测定数据与深度学习相结合在推进基于机制、人源相关的发育与生殖毒性评价方法方面的潜力，最终有助于在监管毒理学中减少对动物测试的依赖。

引文：Ahn S., Jung H., Hwang J., et al. (2026). Multi-task deep learning models for mechanism-based prediction of developmental and reproductive toxicity (DART) using ToxCast bioassays. Frontiers in Toxicology, 8: 1751644. https://doi.org/10.3389/ftox.2026.1751644

基于多任务深度学习和ToxCast生物测定的发育与生殖毒性机制预测模型

用户登录

解锁资源下载