一种立即可行的前进方式是设计研究,考虑应用 ML 和过程建模来支持商业管线中的新产品或正在进行的 CMC 活动,并承诺从CMC 工作流程开始到结束,在组织中应用这种机器引导的方法。我们在下面概述了可以为此目的采用或改进此类策略的3个注意事项。
考虑1:单元操作级别的实验设计与优化
如前所述,开发有用的过程模型很有意义,这些模型可以捕获不同过程参数之间的相互作用以及对过程结果(例如滴度或回收率)的相应影响,以便它们可用于执行工艺优化、规模放大、监测和控制。然而,以最少的资源实现这种实验覆盖也很重要。文献中的一些著作建议应用强化的 DoE 方法来减少与经典 DoE 相比的实验数量。然而,来自特定机器学习领域的技术,如主动学习或强化学习可能有助于进一步减少通过耦合实验目的所需的实验数量(例如,滴度最大化,提高回收率等),目的是覆盖或表征多变量设计空间。因此,可以通过执行算法建议的顺序或迭代实验来同时处理输入和输出之间多变量相互作用的表征和实现最佳目标。这种实验设计方法已被证明可以显著减少所需的实验数量,并已被证明可以提供改进的解决方案,例如,用于反应筛选,以及在生物药配方开发中,使用贝叶斯优化。
其中许多策略本质上依赖于构建用于指导实验的系统模型。这些模型实际上是过程的数学形式化,可用于将知识从一种产品转移到另一种产品,或横跨不同的规模。另一方面,对于那些不使用模型的顺序实验设计方法(例如,无模型强化学习方法),可以在实验之后建立过程模型,从而提供一个预测框架,可以作为未来疫苗成分或生物分子的基础。
这些方法可能与疫苗开发活动有进一步的相关性,例如,在针对同一病毒或相关病毒家族的不同变异株开发疫苗产品的工艺时。可以从过去的产品中转移主要的基本原理或模式,以适应针对新变异株的疫苗成分的细微差别。与从过去的经验中应用基于启发式结论的传统方法(例如,pH 6.6,DO 小于 25% 是最好的)相比,它允许以存储在模型中的模式的形式传输所有学习。此外,将需要策略来记录这些实验的所有或计算子集的信息丰富的数据集,例如不同变量的动态演变、不同分析的配置文件、图像等。
考虑 2:遍历 CMC 活动的长度、广度和深度
第2个考虑因素涉及在 CMC 开发的所有方面和阶段有效地整合 ML 和过程建模方法,以避免不连贯或冗余的实施。通常,CMC 团队在过程的不同维度上开展活动,包括单元操作的顺序、不同规模的实验和不同的实验目标。我们可以将所有这些向量视为 CMC 开发过程的“长度、广度和深度”(图 6)。
图6 CMC开发过程的长度(不同单元操作)、广度(不同规模)、深度(不同目标)。
在生物反应器中生产的疫苗成分或其它生物制品被收获、纯化、精纯、转移到设计的配方中并包装。因此,在整体考虑整个过程时,执行实验设计、建模和优化可能是有益的,或至少,横跨工艺操作的相关子集。
在考虑特定的单元操作时,不同的规模通常用于不同的实验阶段。例如,考虑到生物制品的生产,小规模平行系统(例如,板式反应器、Ambr 系统)用于工艺开发期间的条件筛选,随后的优化和表征在实验室规模的反应器 (3–5 L) 中进行。随后,在中试规模的反应器中进行工艺验证,并进一步扩大规模,用于商业化生产。类似的策略也适用于涉及疫苗成分和生物药纯化和精纯的其它单元操作。然而,效果或观察结果通常不会跨规模线性转化,因为特定于规模的效应开始发挥作用(例如,生物反应器中的搅拌、氧气分布和浓度梯度)。规模缩放“定律”是一个需要考虑的关键方面,以确保为临床研究生产的材料可以在商业生产的产品中复制,虽然经常使用许多经验方程和模型,但基于人工智能/机器学习的预测模型可以提供帮助,如果在开发中全面考虑,则可将整个生产网络中的特定规模和设备类型联系起来。
最后,与实验相关的目标不同(例如,优化工艺,确保稳定和可控的生产),因此,在 CMC 的不同阶段建模是司空见惯的。例如,在工艺开发过程中,优化工艺的总效率成为主要在小规模和实验室规模系统中实现的关键目标。在后期阶段,能够控制工艺过程并保持一致的生产变得很重要,通常在中试规模和商业化单元操作中考虑。
在考虑过程模型的实施时(单独基于 ML 或结合物理定律),设计问题陈述和考虑 CMC 工作流所有这3个维度的解决方案可能是有益的,这样,不同的团队处理这些特定的CMC 的各个方面汇集在一起,并在如何以及在何处应用过程建模方面保持一致。这种有组织的方法可能有助于选择适当的输入、输出和算法,使其与单元操作、规模和实验目的保持一致,从而可以更有效地遍历 CMC 的长度、广度和深度。
在这方面,迁移学习方法可能是处理在不同规模收集的数据的可能解决方案,其中在小规模开发的模型可以转移到随后的大规模、以保留输入和输出之间的主要交互,同时,减少额外的数量可以进行实验来解释特定规模的相互作用。同样,通过使用过滤技术将模型预测与实时测量(通过不同的探头和光谱技术获得)相结合,筛选和工艺优化期间开发的模型可用于过程监测和控制。这种整体方法可能更稳健,因为在筛选和优化研究期间收集的数据通常信息丰富,并且捕获过程参数和相关过程结果之间的相互关系,而不是在监测和控制应用变得相关的更大规模测试条件下。
总的来说,如果在 CMC 工作流程的不同方面适当地制定战略和协调,则可以使建模方法的实施更加高效、无冗余和多用途。
考虑 3:非技术性,但关键
第3个重要的考虑因素是适当的文件记录和数据存储。由于机器必须读取和使用数据进行 ML 分析或开发模型,因此花时间和资源预先设计机器可读的数据文件是值得的。要确保的一些功能可能包括:
为相关任务选择适当的文件格式(例如,以矩阵格式存储值的电子表格、用于协议和注释的文本文档、用于分析图像的专用图像格式,如 .png 或 .jpeg);
使用描述性、精确的变量名称来反映记录的数量以及一致的单位(例如,避免使用像 property1、property2 等名称);
降低主观性水平的措施(例如,通过结合使用预定义的下拉菜单来避免电子表格中的拼写错误)
此外,存储在一个单元操作内、跨不同规模、跨多个单元操作获取的所有数据将是有益的,这样它就相应地链接并映射到一个集中存储系统中,该存储系统在不同的相应团队之间共享。正如“挑战 4:数据(和元数据)报告不一致和数据存储效率低下”一节中强调的那样,应考虑存储非结构化数据(例如,光谱采集、分析趋势)并将其适当映射到相应的导出量和相关实验条件。此要求可能会调用数据/信息的层次排序,它们都应该伴随着不同级别的同步密钥。此外,精心编写的文档可能对未来的团队成员和组织中不同团队了解存储数据的类型和内容、导航和访问数据以及随后解释数据非常有用。
为了促进结构化和非结构化数据的一些分层集中存储,其它行业的几家公司正在从数据库(完全基于多个电子表格)过渡到基于数据湖的存储架构。大部分生物制药行业公司在采用这种方法方面,仍处于采用和实施的早期阶段。
结论
疫苗是预防传染病的重要生物药物。COVID-19 大流行最近再次强调了疫苗对全球健康的重要性。疫苗的 CMC 开发对于确保安全有效的商业产品是必要的,这项工作需要花费大量时间。随着疫苗(蛋白质、病毒载体、mRNA、纳米颗粒)和一般生物制品(细胞疗法、基因疗法)的类型和形式的增加,对于固有开发能力有限的组织(可用人员和实验资源),需要更有效的方法来执行 CMC。在 CMC 工作流程中使用 ML 和 AI 进行过程建模和数据分析有望减少时间和资源需求,从而使 CMC 更加高效,最终更具可预测性。然而,我们认为,需要对数据的收集方式和实验的实施方式进行重大改变,而历史数据集虽然实用,但对于实现这些模型的全部潜力并不理想。
本文强调了所面临的一些关键挑战。首先,它带来了历史数据的局限性,这些数据往往缺乏足够的质量和分辨率,阻碍了从最佳建模方法中获得的可转移见解的深度。此外,在 CMC 的不同阶段收集的分析和数据类型不一致、数据组织不佳以及缺乏集中式数据存储也使得向新模型的过渡更加困难。最后,缺乏用于比较所有数据分析和建模方法的基准数据集被强调为需要评估新的建模方法和从中进行预测的领域。
我们概述了如何将 ML 和 AI 技术在功能上整合到 CMC 工作流程中,以完全发挥其潜力。从开发之初就将此类模型的设计和测试纳入新产品 CMC 策略的开发中,这一点很重要。对跨越 CMC 的长度、广度和深度的 ML/AI 的所需应用程序和用途进行先验规划非常重要,其实施需要整个组织的利益相关者保持一致。最后,讨论了通过改进的数据组织、报告和存储协议来补充生成和获取更好、更有效的数据的要求。多个组织(学术界、工业界、政府)之间的集体方法和对此类努力的资本投资可以为加强这些预测工具在疫苗开发和其它生物制药中的应用提供巨大的力量。与互联网和水电分配等其它行业的共享资源类似,用于加速疗法从实验室到商业规模生产的基础设施的基本投资将使许多人受益,从向接受药物的患者提供药物的公司到管理药物分发的医疗保健系统。
原文:H.Narayanan, C.Love, Process modeling in the CMC of vaccines: are we doing it right? Vaccine Insights 2022; 1(5), 299–314.