logo
英维创安全科学网

数据驱动机器学习计算新途径方法在化学品风险评价危害识别中的适用性

日期:2026-05-21

化学品风险评价中的危害识别是确定某种物质是否会引起有害效应并识别其对人类健康或环境可能造成危害类型的关键环节。传统上,危害识别严重依赖经验和动物试验数据。然而,伦理关切、技术挑战、成本压力以及对更高效、更可靠风险评估方法的需求,共同推动了替代测试方法的进步。新途径方法New Approach Methodologies, NAMs)的出现代表了危害识别领域的范式转变,为传统方法提供了更科学可靠、高效、经济且符合伦理的替代方案。

NAMs涵盖了多种非动物方法,包括计算建模、高通量筛选分析和体外测试等,能够基于化学物质的结构、生物利用度和生物活性数据来预测化学危害。通过使用NAMs,监管机构和研究人员可以克服传统危害识别方法的局限性,实现对大量化学品的有效评估,并获得对化学毒性潜在机制的宝贵见解。

机器学习(Machine Learning, ML)和人工智能(Artificial Intelligence, AI)方法在化学危害识别方面具有做出更明智决策并减少动物试验的潜力。然而,由于相关知识有限、经验不足以及对使用这些方法存在不确定性,它们在化学品风险评价危害识别中的应用仍面临挑战。因此,为了促进MLAI方法在监管中的潜在接受度,需要更好的标准化、透明的报告指南、验证框架,以及能够评估其可访问性、可验证性和有用性标准的框架体系。

在这一背景下,Piir等人(2026)发表的文章对基于MLAINAMs在化学危害识别方面的可用性进行了广泛的文献回顾,重点关注人类健康终点,包括特定靶器官毒性(STOT)、遗传毒性和致癌性、内分泌干扰、皮肤致敏、发育和生殖毒性(DART)以及重复剂量或慢性毒性。本文即主要基于该文的核心内容和发现进行撰写与综述。

1 核心概念界定

1)计算新途径方法

经典化学物风险评价依赖于动物试验数据。与此同时,在每一个与化学相关的领域,终止动物试验面临着巨大压力。因此,在研究和监管领域形成了一场日益增长的运动,旨在根据3R原则减少、替代和优化动物试验。NAMs是对任何无需使用动物进行测试即可提供化学危害信息的化学测试方法的统称。不同组织对这一术语的表述各有不同,包括OECDECHAEFSAUS EPAICCVAMHealth Canada以及英国CoT&FSA等。

基于该研究内容以及欧盟资助的PARC项目中的定义建议,作者采用了以下NAMs定义:NAMs被定义为任何有效且相关的技术、方法学、方法、策略或其组合,能够提供化学物危害、暴露和风险评估信息,以减少、优化或替代动物试验。因此,NAMs可以包括或组合多种方法,如化学分析、体外方法和计算机模拟方法。后者包括可整合到特定终点的分层测试和评估工作流程中的计算方法,并可用作标准测试组合,在危害、暴露和风险评估的背景下提供毒理学信息。

计算NAMs可分为三大类:第一类是专家系统,应用现有知识和经验以模型形式识别和解释作用机制,如基于结构警报或多维类比方法的构效关系方法;第二类是所谓基于机理的系统,即从科学原理和关于基于机理的假设推导出的模型,已应用于定量有害结局通路模型、暴露和多介质归趋模型;第三类则聚焦于数据驱动的基于学习的方法,其核心是将化学物质结构与其性质联系起来,即定量构效关系方法,目前应用了整个MLAI方法体系。

2)机器学习与人工智能

在术语方面,MLAI常常互换使用,且在不同学科中缺乏明确定义。尽管两者相互关联且在某些元素上重叠,但由于目的不同,应该分别看待。AI指的是基于计算机的系统模拟人类认知功能的能力,即推理、解决问题、发现意义、概括或从以往经验中学习的能力。目前的领先方法是不同版本的神经网络。

相比之下,ML被定义为一组从训练样本中构建模型的方法,从数据中学习以创造新信息。它使用多种统计和预测分析方法及其组合,包括决策树、支持向量机、随机森林、贝叶斯网络、回归分析、神经网络等。虽然ML通常被视为AI的一个子集,但关于这一观点存在分歧,现在ML已被认为是一个独立的研究领域,具有不同的目标。尽管如此,两个领域仍然密切相关,并且具有重叠的应用。ML作为一个领域,侧重于基于训练数据创建模型的方法,而AI更侧重于模拟人类认知功能。因此,在评估不同的人工智能应用时,需要识别其究竟是AI还是ML应用。

3)机器学习方法的分类

ML算法可以有多种分组方式。该研究将ML方法分为无监督学习和监督学习方法。

无监督学习使用未标记数据,包括三种类型的方法:聚类、降维和关联规则学习。它通常用于发现数据中的隐藏模式,在构效关系研究中,常作为应用监督学习方法之前的预处理步骤。

对于监督学习方法,数据中的对象被标记或用数字描述。因此,可以执行的分析要么是分类(例如确定化学物质是否有毒),要么是回归(例如以数值方式确定化学物质的毒性程度)。化学品风险评价依赖于化学品上的此类可用信息,因此该研究聚焦于监督式ML方法。研究将算法分为六大类:神经网络、支持向量机、基于树的方法、基于实例的方法、朴素贝叶斯方法和其他方法。

每种ML方法都有其独特的优势和局限性,这些源于其基本假设和方法的复杂性。选择适当的ML方法应基于数据的性质、问题的复杂性、计算资源的可用性以及研究问题所需的可解释性。

神经网络是受生物神经系统启发的计算模型,由相互连接的神经元层组成,通过迭代训练过程建模复杂的非线性关系。其优势包括卓越的预测准确性、处理大型数据集的能力以及对不同问题的适应性。然而,神经网络需要大量训练数据,主要缺点包括高计算成本、需要大量数据以防止过拟合、对网络架构和超参数的敏感性以及解释内部模型结构的困难。

支持向量机是用于分类和回归任务的监督方法,分别确定最佳分离超平面以最大化类间间隔或最小化预测误差。其优势包括对高维数据的稳健性、在小数据集上的有效性以及通过核函数的灵活性。此外,支持向量机相比其他算法更不易过拟合,对噪声敏感性较低。然而,支持向量机由于高维变换而固有地难以直接解释,对参数调优敏感,且对大数据集计算要求高。

基于树的方法是通过构建树状结构进行预测的监督学习非参数方法。它们采用基于输入特征的二元分割对数据进行递归划分,以建模关系。其优势包括固有的特征重要性评分和对异常值的抵抗性。决策树简单且易于解释,但容易过拟合和不稳定。随机森林和XGBoost等集成方法通过聚合多棵树的结果来提高预测准确性、稳定性和稳健性。

k近邻算法是一种非参数的、基于实例的算法,通过距离度量测量特征相似性进行分类或回归任务。其优势包括简单、直观的实现,以及对底层数据分布没有明确假设。缺点是计算密集,对不相关特征和噪声敏感,以及选择合适的邻居数量k和距离度量的挑战。

朴素贝叶斯方法是基于贝叶斯定理的概率分类器,其基本朴素假设是在给定类变量值的情况下,每对特征之间条件独立。这些方法直接、计算效率高、易于扩展,特别适用于高维数据集。然而,特征独立性假设在实践中很少成立,限制了其在具有强特征相互依赖性或相关性的数据集上的性能和准确性。

2 研究方法

1)终点选择

欧盟监管框架要求针对特定安全终点提供特定的毒理学数据/信息,这由一系列法规授权,包括REACH、食品接触材料法规、植物保护产品法规、化妆品法规、CLP法规、生物杀灭剂法规,以及欧盟化学品可持续发展战略和欧洲绿色协议等战略倡议。

PARC(化学品风险评估合作伙伴关系)项目中选择的毒理学终点基于监管优先级、科学缺口和方法创新潜力。选择这些终点的理由包括:与当前监管需求的一致性、使用NAMs的潜力、公共健康相关性、科学缺口和缺乏验证方法、以及向基于机理的风险评估转变。PARC旨在通过促进从基于终点的动物试验策略转向更基于机理的NAMs测试策略,来解决关键的监管数据缺口。

2)文献检索策略

使用基于订阅的Web of Science进行了文献检索。搜索了以下终点的出版物:特定器官毒性(如肝毒性、肾毒性、心脏毒性、肺毒性和神经毒性)、遗传毒性、致癌性、内分泌干扰、皮肤致敏、发育和生殖毒性以及慢性毒性。在文献检索中,系统性地使用了终点特定术语,并与机器学习“QS*R”组合。搜索覆盖了2018年至2023年的文献。选择2018年作为起始年份是因为这一年标志着该领域中NAMs推广的开始。搜索结果经过人工核对,以找到与关注终点相对应的文章,以及使用机器学习开发的原始QSAR模型。

3)模型可访问性标准

该研究详细考察了模型的可访问性,将其分为三类:直接可用、潜在可用和不可用。模型被认为直接可用的标准是:已集成到网络服务中或作为独立软件发布。需要强调的是,只评估了模型进行预测的能力,而未评估其在不同任务中的适用性。根据模型表示的最佳实践,潜在可用的模型必须以机器可读文件格式发布,或者包含允许使用模型的所有相关信息。例如,出版物包含完整的决策树;神经网络已发布其架构、权重和激活函数;支持向量机拥有所有参数和支持向量。这些模型连同包含数据和用于重建模型的脚本的出版物,被归入第二类。然而,分析并未检查潜在可用模型是否可重现。第三类包含没有足够数据用于模型重建,也未以直接可用方式呈现模型的出版物。

3 主要研究结果

1)总体发现

针对11个毒理学终点的文献检索共获得2433条结果。由于分别检索构效关系和ML模型,结果之间存在重叠(167条)。共筛选了2266篇文章,其中1992篇被排除,原因是它们要么缺乏模型,要么侧重不同终点,或描述了不相关类型的研究。最终剩余274篇提及ML模型的文章进入最终审查。其中260篇是独特的,部分文章涉及多个终点。值得注意的是,大多数文章(236篇)专注于构建和解释分类模型。仅回归模型的论文有22篇,16篇同时涉及分类和回归。

2)模型可用性统计

从模型可用性来看,共有47篇文章中的模型直接可用,60个案例中的模型潜在可用,167个案例中的模型不可用。总体而言,超过17%的文章包含已实现在软件或网络服务中的直接可用模型,近22%的文章中的模型由于可以访问代码而潜在可用。其余61%的文章没有以可用的方式呈现ML模型。值得注意的是,在过去五年内情况已有显著改善。早期的综述显示,仅约10%的非多元线性回归模型是潜在可用的。

在所有终点中,皮肤致敏是ML-QSAR模型覆盖最好的领域,其次是内分泌干扰、遗传毒性和致癌性模型。最常见的ML-QSAR模型是基于树的模型,如随机森林及其类似方法,其次是神经网络和支持向量机模型,其他模型使用较少。

3)按终点的模型分布

特定靶器官毒性涵盖了五个搜索终点(肝毒性、心脏毒性、神经毒性、肺毒性和肾毒性),共有108篇文章,其中36篇被认为是可用的。然而,每个终点的发表文章数量差异显著。肝毒性在搜索结果中命中最多,53篇文章全部描述了肝毒性不同终点的分类模型,其中只有6篇直接可用,13篇潜在可用。超过62%的文章对模型的描述不完整,无法被认为是可用的。心脏毒性相关文章29篇,其中21篇仅开发分类模型,5篇使用纯回归模型,3篇同时使用两种模型。只有3篇提供直接可用模型,6篇提供代码。其他终点的搜索结果为25篇,神经毒性12篇,肺毒性9篇,肾毒性4篇,每个终点都有一篇直接可用的模型。

遗传毒性是所有搜索终点中模型相关文章最多的(58篇)。几乎全部为分类模型,仅两篇提出回归模型。虽然发现了许多包含ML模型的文章,但大多数(37篇)不可用。8次提供了直接预测服务访问,10次可通过外部仓库访问模型代码。致癌性的文献检索产生了16篇文章,其中7篇模型不可用。所有文章均呈现分类模型,部分文章还包含额外的回归模型。模型在软件中实现一次,另有五次模型已实现在网络服务中。

皮肤致敏的文献检索发现了24篇包含模型的文章。对于这一终点,直接可用的模型文章数量最多(10篇)。其中一篇模型在独立软件中,其他集成在网络服务中。发育和生殖毒性方面,相关数据集使用ML方法建模13次,两次模型在网络服务中,一篇包含用于重建模型的代码。慢性毒性方面识别出8篇出版物,其中大部分模型是基于树的。虽重点关注与人类健康相关的模型,但一半文章描述的是将水生生物作为模式生物的模型,另一半使用啮齿动物数据。

4ML方法分布

ML算法分为六大类:神经网络(111篇)、支持向量机(127篇)、基于树的方法(201篇)、基于实例的方法(84篇)、朴素贝叶斯方法(56篇)和其他方法(60篇)。神经网络是构成最多样化的组,包含超过15种不同的神经网络。基于树的方法(如决策树、随机森林、梯度提升和自适应提升)是最大的组。基于实例的组包括类似方法(如read-acrossk近邻)。

4 讨论

1)模型可用性问题

创建针对特定终点的机器学习模型以解释过程或进行预测并非易事。因此,关键在于发表模型时要以易于使用和验证的方式进行。遗憾的是,结果显示大多数被综述的ML模型发表时缺乏足够的细节,这使得它们本身无法使用。这一结果至少在两个层面上令人担忧:首先,无法独立验证研究结果;其次,研究结果(模型)无法被第三方(如风险评估者)使用。而且,对于作为最终用户的风险评估者来说,使用和重用ML模型还需要统计学、编程和ML技能,以及解释和理解最终预测结果的技能,而这些可能不是许多毒理学家的核心专长。基于ML的模型比传统的线性模型具有更多多样性,因此潜在使用者需要额外的技能。

2ML模型解释实践

普遍认为,越复杂的ML模型,其可解释性越差。但这并不意味着不可解释。可解释AI方法可以帮助使ML模型的结果对用户更加透明和可理解,通过展示为什么产生特定的输出,这对于在化学品风险评价中建立信任非常重要。当前的分析还考察了模型开发者提供了哪些额外信息。大部分努力集中在定义模型的适用域上,这是使用模型的重要方面。然而,对模型所用描述符的解释常常被忽略。

根据模型复杂性,出现了三种策略:第一,如果模型使用少量描述符,可以将描述符给出的关于化学结构的信息与建模终点机制联系起来;第二,对于可处理数百个描述符的现代ML算法,可以使用随机森林等方法通过置换检验估计描述符对模型的重要性,仅分析最重要的描述符;第三,可以对任何ML模型进行SHAP分析,这是一种博弈论方法,解释每个描述符如何影响预测,正SHAP值表示正向影响,负值表示负面影响。

3ML模型与监管合规差距分析

机器学习模型为毒理学评估提供了有前景的工具,但其整合到监管框架中面临若干挑战。这些障碍可概括如下:

缺乏可用性和可访问性:许多模型被开发出来,但其文档和访问性有限。一项关键要求是模型应为第三方提供可访问的格式,如PMMLONNXQSAR DataBank存储库。FAIR指导原则(可发现、可访问、可互操作、可重用)在毒理学领域变得越来越重要。

缺乏透明度和可解释性:许多ML模型,尤其是深度学习模型,被认为是黑箱。监管者需要清楚解释预测是如何作出的以及所依据的具体数据。虽然完全透明的模型更容易被监管接受,但数据隐私和知识产权问题可能会限制模型共享。

数据质量和标准化:ML模型依赖大型、高质量的数据集,但这些数据通常异质、不完整或未标准化,使模型训练、验证以及对建模毒理学终点的清晰理解变得复杂。

有限的验证和可重复性:监管接受要求在不同数据集上进行稳健性验证。ML模型可能在训练数据上表现良好,但无法泛化。这一方面应清楚报告,训练数据集的性質应明确说明。

缺乏用户友好界面:许多ML工具对没有计算专业知识的毒理学家或监管者来说难以访问。需要直观的界面和培训。

二元与连续预测:大多数ML模型预测单一二元结果,而监管决策通常需要详细的剂量-反应关系以进行危害特征描述。这源于可用于开发相应QSAR模型的实验剂量-反应数据有限。对于分类模型,类别的分界点必须与监管决策的要求一致。

虽然针对危害识别的ML方法正在努力进行文档化和标准化,但监管指南尚未适应基于AI的方法。需要协调一致的国际标准用于验证和报告。EFSAEMA最近发布了一些重要建议。EFSA强调AI工具可以支持从NAMs中提取和整合数据,但其使用必须透明且科学有效。EMA概述了使用AI的指导原则,包括治理、问责和风险监控。这两项建议虽侧重于文献筛选和数据整合任务,但确立了一些适用于AI监管环境的广泛重要原则,如透明度、专家监督和有记录的局限性。然而,它们并未直接涉及ML方法或提供ML模型验证的技术指导。

5 评估机器学习NAMs的框架

应用基于现代MLAI方法的计算NAMs来评估化学物质性质以进行危害识别具有挑战性。该领域的快速进展难以跟上,需要额外指导以更好地在监管环境中利用这些工具。模型用户和开发者都需要指导,因为上述模型可用性分析显示,只有一小部分已发表模型是可用的或潜在可用的。

该研究描述了一个框架,指导模型用户选择可能适合在监管环境中使用的模型。该框架提供了一个清单,帮助模型用户快速评估模型并确定其是否包含使用模型和报告结果所需的所有技术信息。此外,该框架可帮助模型开发者更好地理解监管环境中模型用户的期望,模型创建者可以在发表模型时使用此框架作为参考,以确保更高的透明度、与监管需求的一致性,并促进未来的接受。

该框架是对构效关系评估框架(QAF)的补充,但具有不同的范围。QAF旨在为构效关系模型、预测和基于多个预测的结果的监管评估提供系统化和协调的框架。当前框架更为通用,面向模型用户和开发者,但对风险评估者也很有帮助。它被设计为在QAF之前使用,专注于易于快速检查的技术细节。清单仅关注关键问题,所有这些都至关重要。如果某些清单项未满足,则该模型在监管环境中的适用性可能不可能实现。如果模型通过了清单,则使用QAF进行评估很可能是可能的。

1)模型可访问性

模型评估从确定其可访问性状态开始,根据以下三个问题判断模型是直接可用、潜在可用还是不可用:

    软件或网络服务可用(直接可用)

    出版物和数据可用,包括模型表示或脚本(潜在可用)

    数学表示未包含在出版物中(不可用)

这是从模型用户角度最关键的部分。已发表模型可分为三组:第一组是作为独立软件或网络服务的即用型软件;第二组是包含所有相关训练和验证数据及模型数学表示的科学出版物,如果模型用户具有经验和工具访问权限,则第二组潜在可用;第三组是只有科学出版物而缺少必要数据的,此类模型不可用。

2)模型可验证性

可验证性评估分为四个部分,每个部分聚焦于模型的特定方面。

性质部分:终点是否正确定义(如物种、测量单位)?是否提供实验活性/性质值?是否提供原始数据来源的参考文献?这部分涵盖实验数据的表示。最关键的问题是实验数据是否可用。然而,仅原始数据存在是不够的,还需要定义测量的性质并识别原始数据来源。如果数据取自来源后经过处理,必须描述所有数据操作。

化学品部分:化学品是否有名称和标识符(如CASInChI)?是否提供了用于建模的输入化学结构?这部分涵盖模型开发中使用的化学品及其分子结构的表征。正确识别能够将化学结构映射到实验测量,要求存在化学名称、CAS号、InChI代码或其他标识符。强烈建议明确提供结构预处理期间进行的所有操作,以及建模期间使用的文件格式中的化学结构。

描述符部分:是否能通过名称或缩写识别所有描述符?是否提供了描述符计算软件的名称和版本?描述符计算工作流程是否充分描述?是否提供了计算的描述符值?这部分涵盖模型中使用的描述符。描述符值的可用性对于验证描述符计算过程至关重要。识别所使用的软件版本很重要,因为描述符值可能因错误修复和底层算法改进而变化。

模型部分:模型的数学表示是否存在?是否提供了建模软件名称和版本?训练集和验证集是否提供了预测值?这部分涵盖构效关系模型的表示和模型开发过程。模型的数学表示对于执行预测和理解模型工作原理至关重要。复杂的MLAI模型必须以机器可读格式表示,或提供从训练数据重现模型的脚本。模型开发过程的描述必须包含建模软件的名称和版本,以及用于构建模型的建模技术特定的参数值。

3)预测有用性

预测有用性评估假设上述清单已经通过,此部分仅关注模型预测提供的补充信息:

    是否提供了类似化学品的预测?

    是否提供了预测质量估计?

    是否描述了模型的适用域?

    是否提供了模型文档(文章、QMRF)?

这部分聚焦于使预测结果对决策有用的要求。前两个问题涉及预测的可靠性。提供预测质量估计有助于确定与预测相关的不确定性。适用域描述和模型文档是模型及其预测的监管评估的重要要求。

6 结论与展望

数据驱动的机器学习已成为计算NAMs的重要组成部分,机器学习计算模型正成为识别化学危害的重要工具。该研究综述了科学文献,以确定CRA框架内用于危害识别的机器学习模型的可用性和适用性。研究包括了针对各种人类健康终点的最新发表的计算NAM模型。

作为研究结果,回顾了近2300篇科学文章,识别出274篇发表ML-QSAR模型的出版物,即此类模型的开发最为密集的领域。这些模型根据已发布信息被分类为直接可用、潜在可用或不可用。研究揭示,科学文献中描述的60.9%的模型是不可用的,21.9%潜在可用,17.2%可用(即有可用的软件解决方案)。按终点划分,皮肤致敏是ML-QSAR模型覆盖最好的,其次是内分泌干扰、遗传毒性和致癌性模型。覆盖最少的是特定靶器官毒性终点。最常见的ML-QSAR模型是基于树的模型,其次是神经网络和支持向量机模型。

基于现代机器学习方法的计算NAMs在评估化学物质性质以进行危害识别时的实际应用是一项具有挑战性的任务。随着该领域的快速进展,模型开发者和用户都难以跟上。因此,需要更多指导以帮助在监管环境中更好地开发和应用这些方法。为应对这些挑战,OECD最近发布了针对监管者及其利益相关者的QAF,提供了一个系统化和协调的框架用于评估预测模型和预测的有效性和可靠性。虽然该框架在不同建模方法之间是通用和灵活的,但缺乏如何将其与现代MLAI方法结合使用的知识和经验。

该文献回顾及相关工作促成了一个相对简单透明的框架的创建。该框架旨在帮助模型开发者和用户评估模型是否满足在监管应用中考虑的最低基本标准。框架提供了一个清单,使模型用户能够快速评估模型并确定其是否包含用于预测和报告的所有必要技术信息。同时,它也支持模型开发者阐明其模型在发表时应满足的基本标准,促进一致性、透明度和监管准备度。

最终,为了充分发挥MLAI在化学品风险评价中的潜力,需要学术界、工业界和监管机构之间的紧密合作,共同建立标准化的评估框架、透明的报告机制和有效的验证流程。通过这样的共同努力,可以克服当前存在的矛盾障碍,一方面增强对机器学习方法的信任并将其去神秘化,另一方面通过培训展示理解技术内容的必要性,这是更好理解的关键。

参考文献Piir G., Sild S., Tcheremenskaia O., et al. (2026). Perspective on applicability of data-driven machine learning computational new approach methodologies for hazard identification in chemicals risk assessment. Journal of Cheminformatics, 18(1): 1-23. https://doi.org/10.1186/s13321-026-01184-8

 

×