药物临床试验亚组分析、富集策略与设计和多重性问题指导原则概述

发布时间：2020-09-14 16:23:36 | 来源：南昌弘益药业研发团队 2020年9月14日

分享至：

在药物临床试验中将目标适应症人群称为总体人群，将通过入排标准纳入临床试验的人群称为全人群。

药物临床试验招募的大量受试者在很多方面具有不同的特征，包括与疾病相关的方面（如肿瘤的转移与否及分期、分型等）以及与疾病不直接相关的方面（如年龄、性别、种族等），往往具有不同程度的异质性，从而可能导致试验药物在不同患者中的疗效不同。临床试验中将具有临床意义的不同特征的患者分组，是探索不同患者人群之间疗效差异的直观方法，同时也是获益/风险评估不可或缺的一部分。

在总体人群中具有某些特征的人群称为亚组人群（简称亚群），亚群是总体人群中的一个子集。亚组分析是指对试验药物在亚组中的疗效和/安全性进行试验设计与统计分析的过程，亚组是亚群的一个样本，将亚组结果推广到亚群时需要考虑亚组对亚群的代表性问题。亚组分析的结果提示不同亚组人群可能的获益与风险，因此直接影响决策和产品使用说明书的撰写。

在药物临床试验中，我们期望试验药物在所有类型患者中观察到一致的治疗效果，但疗效往往会随着患者的特点而变化，由于患者不同程度的异质性，而导致药物疗效产生差异，此时我们就需要亚组分析来明确研究结论，即在药物临床试验中，除了将所有纳入的受试者作为一个全人群进行统计学分析外，同时对其中具有某些共同特征的部分人群进行亚组分析，其目的在于排除患者异质性对药物临床试验结果判断的干扰，准确评估药物在全人群和亚组的疗效及获益/风险，为药物研发决策提供重要的关键证据。因此，亚组和亚组分析在药物临床试验得到越来越广泛的应用。近年来，药物临床试验越来越多地运用基因组学、蛋白质组学、转录组学和生物标记物等方法，探索研究能从试验药物中获得最佳效益风险比的亚组人群。

但是不正确地运用亚组分析可能会导致错误的结论，如为开展亚组分析而实施的富集策略与设计运用不当、多重性调整方法错误、亚组的识别和定义不准确、亚组的设置和选择不正确、亚组的样本量较少而使检验效能不足等都可能使亚组分析结果产生偏倚，导致I类错误。由此可见，亚组分析除了涉及亚组的识别及选择等相关问题外，还涉及富集策略的选择与设计以及多重性等诸多问题。因此，ICH、FDA、EMA等相继发布了关于亚组分析及相关技术的指南，我国药审中心于2020年8月28日发布了《药物临床试验亚组分析指导原则》《药物临床试验富集策略与设计指导原则》《临床试验多重性问题指导原则》（征求意见稿），对于规范和正确开展亚组分析、富集策略与设计和解决临床试验中的多重性问题提供了权威性指导意见。

为了准确理解亚组分析及与之相关的技术指导原则，并在药物临床试验中正确开展亚组分析、富集策略的选择与设计以及解决临床试验中的多重性问题，对国内外相关技术指南及临床试验实践经验进行了汇编整理，供药物临床试验方案设计和实施参考。

一、药物临床试验亚组分析

（一）亚组的识别

亚组的识别一般基于早期临床试验或确证性临床试验的探索性分析，可以使用定量的方法，如交互树和递归分割树等方法；也可以根据文献报道或者医疗实践积累的知识进行识别。

亚组识别主要关注不同亚组间疗效的差异及其临床意义，应重点考虑以下几个主要方面的因素:

1、临床上的可解释性；

2、临床上的可操作性；

3、药物的作用机理；

4、定义亚组的变量个数和类型（如连续变量、分类变量）；

5、误分或漏分亚组两种情况带来的风险；

6、亚组识别模型的选择（不宜过于复杂，以避免过拟合）。

（二）亚组的定义

亚组通常由患者的一个或多个内在和/或外在因素来定义，而且应具有一定的临床意义。这些变量通常是基线变量，包括人口学特征、实验室检查指标、相关标志物、疾病的严重程度或分型、临床状况、地区和环境因素等。一般情况下，亚组通常是根据试验药物对亚组人群的有效性来定义的，但必须考虑有效性和安全性亚组分析的差异。

实际应用中，亚组大多由一到两个变量来定义，使用多于两个变量定义亚组比较少见。在抗肿瘤药物把患者按照ECOG分数和基因突变（或基因表达）水平，分成不同的亚组。抗肿瘤药物临床试验中常用的ECOG评分反应了患者自我保健、日常活动和体能状况等综合能力。

（三）亚组分析的类型

根据研究目的，亚组分析分为探索性亚组分析、支持性亚组分析和确证性亚组分析。

对于探索性亚组分析，亚组既可以在设计阶段事先定义，也可以在分析阶段事后定义。

对于支持性亚组分析，亚组一般应在临床试验的设计阶段事先定义，并在试验方案中详细描述。

对于确证性亚组分析，亚组必须在临床试验的设计阶段事先定义，并在试验方案中详细描述。

1、探索性亚组分析

探索性亚组分析主要用于早期临床试验或在确证性临床试验的探索性分析中，其目的是发现药物在不同亚组间疗效或安全性方面的差异，进而提出研究假设，以待在后续的临床试验中进行进一步探索和验证。因此，探索性亚组分析主要关注的是其结果在生物学上的合理性或临床上的可解释性，一般无须进行多重性调整。

2、支持性亚组分析

在确证性临床试验中，除了对全人群的主要终点进行分析外，还要对各亚组的疗效进行分析，目的是进一步考察试验药物在各个亚组中疗效的一致性。如果试验药物在各亚组间的疗效差异在可接受范围，可认为试验药物在亚组间的疗效一致，并为用于全人群提供进一步支持性证据。如果各亚组间的疗效差异超出了可接受的范围，特别是方向相反时，则亚组分析结果的解释可能会出现困难，需要对其做进一步的分析和研究。

3、确证性亚组分析

确证性临床试验中，按照预先规定的亚组和多重性调整方法，考察试验药物在目标亚组和/或全人群中的疗效，其结果应同时具有临床意义和统计学意义，以支持药物说明书的撰写。

确证性临床试验也可以对目标亚组进行确证性亚组分析，而对其它（非目标）亚组进行支持性或探索性亚组分析，以支持试验药物在各亚组人群或全人群中的有效性和安全性的结论，或者为为进一步的亚组研究提供线索。

（四）亚组分析的一般考虑

亚组分析一般应考虑以下几个主要方面的因素：

1、目标人群生物学上的合理性及临床意义

（1）病理生理学和遗传学的差异；

（2）最佳治疗时机与合并症；

（3）有效性和安全性亚组分析的差异。

2、目标人群的异质性

亚组分析的主要目的是为了更好地了解试验药物在各亚组人和全人群中的疗效，而是否需要和如何设计亚组分析关键在于临床试验中目标人群的异质性，这与研究方案中制定的患者入排标准有关。通常，入排标准的限制条件越严格，招募的患者异质性就越小，亚组间疗效的差异也就相对较小；反之，宽松的入排标准可能导致入组患者的异质性增加，亚组间的疗效差异也会增加，不易显示试验药物在全人群中的疗效，此时进行亚组分析就显得非常必要。

3、亚组分析的可信度

亚组分析结果的可信度评估主要包括以下几年方面：

（1）定义亚组的变量具有生物学上的合理性，即对患者预后或治疗应答的预测有科学依据；

（2）亚组分析结果的可重现性，即在相同或相似条件下的其他临床研究中，具有相同或相似的亚组效应；

（3）先验知识的可靠性，即源于外部数据和文献报告的亚组分析结果具有一定的科学依据。

研究设计阶段，有时基于先验知识指定用析的变量。这种预先指定亚组变量的方法，通常用在确证性和支持性亚组分析中,蕴含了亚组之间疗效有差异的推测，因此得到的亚组分析结果具有一定的可信度。然而，即使亚组变量不是被预先指定，也要予以重视，尤其是对在安全性亚组分析中出现的亚组之间的差异，要特别关注其生物学上的合理性和结果的可重现性。

当亚组的样本量不足、无法准确估计药物在亚组中的疗效时，应主要考察其生物学上的合理性和结果的可重现性。当亚组疗效在试验条件（如研究设计、目标人群、亚组定义、治疗方案、结局测量等）相似的一系列临床试验中一致时，即使没有明确的临床和生物学方面的解释，亚组结果也具有一定的可信度。

另外，虽然随机化可以使不同治疗组间入组患者的基线变量分布趋于平衡，但由于亚组内样本量的减少，可能会存在基线不均衡，因此必须检查药物在各亚组间疗效差异是否是由于基线分布不均衡所致。

4、主要终点指标与亚组分析

当临床试验的主要终点为复合终点时，有些情况下药物的疗效可能只反映在构成复合终点的某一或某些组成终点上，而其余的组成终点则受到试验药物以外其他因素的影响，此时，不宜用复合终点进行亚组分析。

当使用多个主要终点指标时，整体治疗效果通常是对其综合分析的结果，如果这些指标具有不同的风险因素，需要考虑这些因素在各亚组的分布，并阐述如何进行亚组分析及其结果的临床意义。

（五）确证性亚组分析

确证性亚组分析是在确证性临床试验中对事先指定的目标亚组进行假设检验的分析，目标亚组可以作为主要或共同主要分析人群。亚组分析的结果提示不同亚组人群可能的获益与风险，因此直接影响决策和产品使用说明书的撰写。

确证性亚组分析的临床试验需要考虑的关键问题主要有亚组的选择、试验设计类型（如固定样本设计、适应性设计、富集设计）、多重性、亚组分析的解释。需要注意的是，把亚组作为主要或共同主要分析人组的样本量以及是否使用分层随机等关键问题。

1、亚组的选择

确证性亚组分析应在方案中预先规定目标亚组。关于亚组的选择，如果是基于医疗知识或实践，例如按照疾病严重程度、人口学特征（性别、年龄等）或已知的能够精确分辨亚组的生物标志物（如基因突变）进行分类，通常具有一定的临床意义。另一方面，亚组的定义是否合理取决于亚组分类器（如标志物）是否能够可靠地识别最有可能从药物中获益的亚组人群。分类器的确定通常基于早期临床研究数据，由于样本量往往不足，因此分类器的性能有限，在研究设计时要考虑到这一问题。

2、试验设计

在进行确证性亚组分析的样本量估计时，除了常用的试验设计参数如期望治疗效应大小及其变异度、I类和II类错误概率之外，还必须考虑亚组分类器分辨亚组的准确度，以及亚组人群在符合入组条件的目标人群中所占的比例。

（1）固定样本量设计

如果有可靠的证据表明试验药物在不同亚组中的疗效不同，且其具有生物学上的合理性和重要的临床意义，可采用固定样本量设计，验证药物的疗效。此时，临床试验的目标人群可以是亚组人群和/或总体人群。以标记物为例，此时的确证性临床试验至少有三种设计方案：

①如果只有标志物阳性的患者才能从试验药物中获益，则入组患者可以仅限于这个亚组。

②如果标志物阳性和阴性患者都能从试验药物中获益，但阳性患者获益高于阴性患者，而试验的主要目的是验证试验药物在阳性患者中的获益，则样本量和试验药物疗效的估计可以主要针对标志物阳性的亚组，但建议标志物阴性的亚组也纳入试验，以便更好地了解试验药物在该人群中的疗效，用于获益/风险评估或后续研究设计。

③如果标志物阳性和阴性的患者都能从试验药物中获益，但不能确定哪个亚组人群的获益更大，而试验的主要目的是验证药物在总体人群中招募，也可以在两个亚组人群中进行分层随机。如果是后者，则需要注意各亚组样本量的比例应与目标人群中各亚组人群患者的比例相似，以避免由于过多纳入疗效较好的亚组人群中而夸大了药物在总体人群中的疗效。

（2）适应性和富集设计

如果没有充分的证据表明不同亚群间的疗效差异具有临床意义时，可以采用适应性设计的方法进行亚组的选择。例如，当不清楚试验药物在标志物阳性和阴性患者中的疗效时，可以考虑两阶段适应性设计阶段适应性设计（即适应性亚组选择和富集）。第一阶段试验的数据可用于估计药物在亚组中的疗效，然后据此调整第二阶段入组人群及其样本量。对于适应性设计中的亚组选择，应重点考虑试验设计和统计分析方法的有效性（如是否控制了I类错误）。

3、多重性

多重性是确证性亚组分析中需要重点关注的问题之一。对于将亚组作为共同主要分析的临床试验，由于要对全人群和亚组的疗效进行多次检验，因此如果不进行多重性调整，会增加总I类错误。为了将总I类错误控制在预设的水平，有多种多重性调整法,如Bonferroni单步检验法、逐步多重检验法重性调整方法，如Bonferroni单步检验法、逐步多重检验法和回退法等，多重性调整的方法应在临床试验方案和统计分析计划中事先指定。

（1）Bonferroni单步检验法或回退法

不同的多重性调整方法各有其优缺点。如果一个亚组和全人群作为共同主要分析人群，则可以用Bonferroni法将α分配给这两个主要分析人群，即以α1水平检验亚组，以α水平检验全人群，并且α1+α2=α。这里也可以使用回退法。

（2）逐步多重检验法

在没有足够的证据表明药物在全人群和亚组的疗效差异时，可以考虑使用逐步多重检验法（如Hochberg、Homnel和Simes法），即对多个假设按照一定的顺序进行检验。

（3）固定顺序检验法

如果没有足够的证据表明亚组的疗效优于全人群的疗效时，可以考虑使用固定顺序检验法，即先检验亚组疗效，如果有统计学意义，再检验全人群的疗效，否则停止检验。

值得注意的是，由于亚组属于全人群的一部分，使用统计量的联合分布来确定检验界值，可以提高检验效能，但由于数据有限，估计量的相关系数往往不可靠，并可能增加I类错误。因此，使用基于统计量的联合分布来确定检验界值的多重性调整方法需要特别谨慎。

4、结果的解释

亚组分析结果的解释必须具有临床意义，以支持药物的上市和说明书的撰写。例如，在一项临床试验中预先以某一目标亚组

和全人群共同作为主要的分析人群，经过多重性调整后的统计分析可以得出下述三个结论之一：与对照组相比，试验药物在全人群中的疗效差异有统计学意义而目标亚组的疗效无统计学意义；目标亚组的疗效有统计学意义而全人群学的疗效无统计学意义；全人群和目标亚组的疗效都有统计学意义。需要注意的是，如果全人群和目标亚组的疗效都有统计学意义的结论是由于药物在目标亚组中的疗效较大所致，其余亚组很少甚至不获益，此时，将其使用限定于该目标亚组可能更加合适。

（六）支持性亚组分析

一般情况下，确证性临床试验的目的是验证药物在全人群中的有效性以及各主要亚组之间疗效的一致性，后组通过支持性分析来实现。常用的支持性亚组分析方法主要有描述性分析（如疗效的点估计）和区间估计、图形显示模型法（如在主要分析模型中加入药物与定义目标亚组变量之间的交互作用）。使用何种方法应在临床试验方案及统计分析计划书中充分考虑和说明。

和说明。

需要指出的是，当各亚组的样本量较少或亚组间样本量分布不均衡时，药物与亚组变量交互作用的检验效能往往不足。为此，可以考虑选取宽松的检验水准（例如α=0.10）进行检验，同时要考虑各亚组间疗效差异的临床意义。如果交互作用显著，则提示试验药物在各亚组间的疗效可能不同。

在确证性临床试验中，如果试验药物的疗效在全人群中有统计学意义，通常需要报告亚组分析的结果，包括各亚组疗效的点估计及其置信区间。需要注意的是，如果对全人群疗效和各亚组的疗效同时进行分析，则各亚组疗效与全人群疗效的方向应当一致，否则需要进一步分析其不一致的原因。

如果各亚组间的疗效差异具有临床意义，应考虑按照以下几个步骤探索其可能的原因：

1、定义亚组的变量是否与相应的预后或预测因素有关。这些因素通常从早期临床试验、文献报告或医疗实践中获知，可以是内在因素（如遇药物代谢酶相关的基因多态性等遗传因素）、外在因素（如疾病的严重程度、吸烟状况等）或治疗（如不同剂量的合并用药）等。

2、如果定义亚组的变量与相应的预后或预测因素有关，则应进一步进行分析。如首先分析预后因素是否具有预测作用，如果有

预测作用说明该因素会影响患者对药物的应答或疗效；然后，分析预后因素在各亚组的试验组和对照组中的分布是否均衡，如果不均衡则其可能是亚组间疗效差异的原因。

3、如果通过上述分析，亚组间疗效的差异仍无法解释，则需进一步的探索性分析以识别造成此差异的其他可能因素，对试验结果给出合理的解释。

（七）其他考虑

1、非劣效试验中的亚组分析

亚组分析在只有阳性对照的双臂非劣效临床试验中要十分谨慎。当在各亚组间对试验药物疗效进行非劣效评价时，其结果依赖于阳性对照药相对于安慰剂的疗效在各亚组中的一致性。若阳性对照药相对于安慰剂的效应与亚组变量有关时，则非劣效界值的选择应考虑这些特征变量在研究人群中的分布。由于非劣效界值的确定通常使用历史数据，因此，如果亚组变量在试验人群中的分布与历史数据不同，则会影响非劣效检验结论的正确性。需要强调的是，非劣效界值的确定应当基于阳性对照药的疗效（相对于安慰剂）尽可能多的历史数据的meta分析结果，而不是基于主观选择部分试验数据或者部分亚组人群数据的分析结果。

2、安全性亚组分析

安全性亚组分析主要用于研究与药物安全性相关的风险因素，即探究具有一定特征的亚组人群可能对药物产生的不良反应。

获益/风险评估是亚组安全性分析不可或缺的一部分。安全性亚组分析与有效性亚组分析略有不同。安全性亚组分析虽然可以由预后因素（如年龄、是否有并发症等）或预测因素（如疾病分期、基因分型等）定义亚组，但前者更为常见。

亚组人群的安全性分析具有一定的挑战性，特别是对低发生或者潜伏期较长的安全性事件，由于样本量较小或随访时间较短，较难在试验期间发现和验证。如果现有数据表明试验药物在特定亚组人群中与某一严重不良事件（SAE）有潜在的关联，则可以考虑有针对性地设计一个大型的具有足够检验效能的临床试验，验证试验药物在该亚组人群中是否会引起严重的不良反应。

3、与监管机构的沟通

当临床试验设计包含确证性亚组分析时，应就临床试验设计中的关键问题与监管机构进行沟通。沟通的内容包试验设计的类型、亚组的选择、I类错误控制、一致性和可信性等方面的评价策略。

（八）亚组分析的意义

随着高质量的临床试验越来越多，亚组分析正在成为临床试验数据分析中的标配，大家也越来越青睐亚组分析，主要原因是：

1、如果试验药物在全人群有疗效，通过亚组分析可以知道试验药物在哪些特定患者中疗效会更好。

2、如果在全人群中没有观察到试验药物的预期疗效，通过亚组分析可以探索试验药物是否在某些特定患者中有效，为下一步研究提供线索。

（九）亚组分析在药物临床试验中的运用

ICH E3指出：“进行亚组分析不是试图去挽救一个非支持性的临床研究结果，而是为进一步研究提出值得检验的假说，或帮助完善药品说明书的信息（如患者人群、用药剂量的选择等）”。

评估不同亚组人群间治疗效应的一致性是药品监管当局通常关心的一个问题。可能导致疗效异质性的因素包括性别、年龄、种族、地区、基线情况、肝脏/肾脏损害、吸收或代谢差异、治疗史和合并用药等。如果某因素导致了药物疗效异质性，那么就必须运用亚组分析方法对该因素（或其不同层次）人群的药物疗效或安全性特征进行阐述，以获得药物的全面信息。

正确运用亚组分析有时可以通过缩小应用人群而帮助改变一个受试药物被彻底淘汰的命运。

亚组分析在药物临床试验中运用的意义主要体现在以下几个方面：

1、评估试验内部一致性。

2、有助于发现药物研发新线索。

3、有助于发现具有最佳效益风险比的用药患者人群。

4、有助于更加全面、深入地认识疾病和药物的效应机制。

5、帮助完善药品使用说明书的信息（如患者人群、用药剂量的选择等）。

（十）在药物临床试验中进行亚组分析需要关注的主要问题

亚组分析不是万能的，其结果更重要的是为研究结论提供支持性补充证据，或者为进一步开展研究提供线索。

事后进行的亚组分析由于可能破坏预先设定的随机分组，从而引入偏倚使结论不够稳健甚至错误，其分析结果并不能作为确证性结论用以判断疗效，而只能作为探索性分析为进一步研究提供线索，并需要确证性研究进行确认。

亚组分析常见的错误分析方法是分别检验各个亚组的差异是否有统计学意义，推断治疗措施是否有效，而这样会导致假阳性率增高。正确的做法是采用交互分析，来判断各亚组组间差异是否有统计学意义，并用森林图表示结果。

当亚组分析结果与主要研究结论冲突时，正确做法是结合生物学和临床专业知识进行解读，切忌“统计分析至上”。

1、确证性亚组分析必须在临床试验方案和统计分析计划中事先确定

亚组分析方法在临床试验中的常见运用有两种，一是在基于全体受试人群分析得到阳性结果后运用亚组分析考察试验内部一致性或探索发现最佳效益风险比人群；二是得到阴性结论后运用亚组分析以期得到部分人群的阳性应用结果。如果事先未在临床试验方案和统计分析计划中有所设计，而是事后进行亚组分析可能会导致药品管理当局和申请者得出不同结论，事后进行的亚组分析由于可能破坏预定的随机化而引入偏倚从而使所得出的结论不够稳健甚至错误，其分析结果并不能作为确证性结论用以支持申请药物注册上市，而只能作为探索性结果为进一步研发提供线索，并需要针对性的确证性研究进行确认。

2、主要结局阳性时应当考虑的问题

（1）仅有统计学意义，而无临床意义或临床意义不显著的主要结局阳性是否是支持药物申请上市的强有力证据。

（2）试验药物的获益程度。

（3）主要结局在临床上是否重要，各亚组之间是否具有一致性。

（4）次要结局是否支持研究结论。

（5）研究结论是否在重要的亚组之间保持一致。

（6）临床试验的样本量是否足够大。

（7）试验是否提前终止。

（8）试验药物的安全性问题是否抵消了治疗获益。

（9）治疗效果和安全性之间的平衡是否存在患者特异性。

（10）研究设计和执行是否有缺陷。

（11）亚组主要结局阳性结果是否能推广到亚群。

3、不同亚组分析结果的解读

（1）全人群结果阳性时不同亚组分析结果的解读

全人群结果阳性，亚组分析结果阳性或阴性时，亚组分析的意义在于验证临床试验结果内部一致性或探索最佳获益人群。

（2）全人群结果阴性时不同亚组分析结果的解读

①全人群结果阴性，亚组分析结果为阳性时，亚组分析的意义在于为下一步研究提供假设，从而有可能证实试验药物在特定亚组人群中的疗效。

②全人群结果阴性，亚组分析结果为阴性时，亚组分析的意义在于判断试验结果为阴性，试验药物不具有开发价值。

4、亚组分析报告应关注的主要问题

药物临床试验的亚组分析报告应主要关注临床试验设计和统计分析计划和亚组分析结果解释等方面的问题。

（1）亚组选择是否基于患者随机分组前的特征。

（2）患者的错误分类对亚组分析的影响。

（3）亚组分析是否使用意向性分析（ITT）。

（4）亚组是预先设定还是事后分析。

（5）亚组分析是否基于已有的临床试验或生物学数据。

（6）是否对亚组分析的预期结果进行了假设。

（7）试验设计是否保证了足够的检验效能来进行亚组分析。

（8）是否说明了亚组分析的样本量。

（9）相关汇总数据是否列表说明，例如事件发生人数/总人数等。

（10）事先计划的亚组分析和事后分析是否明确地进行了区分说明。

（11）统计学检验是否合适。

（12）异质性检验（如交互检验）是否有统计学意义。

（13）多重比较是否选择合理的检验水准进行校正。

（14）是否对主要结局有恰当的说明。

（15）是否能够用生物学知识或相似研究解释结果。

必须正确解释亚组分析结果：对于随机对照临床试验结果的解释，应当重点关注全人群的治疗效应，而不是亚组分析结果和亚组效应；应充分认识到事先定义的与事后开展的亚组分析之间的差异；不应过分解释亚组分析结果，除非有强有力的支持性证据证明，或者事先有相应的假设假定。尤其当证据表明试验药物只在一个亚组人群显示疗效时，对亚组分析结果的解释更应当慎重。

5、其他问题

因为涉及到假设检验的多重性问题，在进行确证性亚组分析时，必须充分控制试验假阳性率，可以采用Bonferroni方法调整α。

ICH E9中指出：当以协变量因素“调整后的结果数值可疑时，建议将未校正的分析结果作为主要依据，而将校正后的分析结果作为支持性依据”；“多数情况下，亚组分析和交互作用分析都是探索性的，它们都是用以探索发现总体疗效在不同情况下的一致性”。

另外，基于全人群得到的结论可靠性要远大于只基于部分人群分析的结论可靠性。亚组分析将不可避免地带来一定的试验偏差。

一般而言，如果在分析确证性临床试验结果时进行亚组分析，并期望将其结果作为上市注册的直接证据时，须考虑满足以下前提条件：

（1）事先明确定义和设计亚组；

（2）对亚组的检验效能有所考虑；

（3）根据亚组分层进行随机化；

（4）对α进行恰当的调整；

（5）对该亚组确定恰当的统计分析计划（SAP）。

二、药物临床试验富集策略与设计

临床试验的目的是在入组的受试者中验证试验药物有效性和安全性。但实际上，由于受试者病理生理学特点和药物作用机理的复杂性，不同受试者的药物治疗效果不尽相同，从而影响临床试验的效率。为了入组能够从试验药物中获益最大化的受试者，以提高临床试验的效率，富集策略的概念应运而生。

富集是指在临床试验中根据受试者的某些特征（如人口学、病理生理学、组织学、基因组和蛋白质组学等）前瞻性地精准定义从试验药物中获益最大化的目标人群。在临床试验有多种选择受试者的富集策略，例如，可以选择因具有一定特征而对研究药物最有可能应答的受试者，也可以选择那些对现有药没治疗效果不明显而可能对试验药物敏感的受试者，或者单纯选择更容易出现终点事件的受试者等。

富集策略主要是指随机对照试验中用于选择最有可能获益的受试者的方法，但也可以扩展到使用外部（历史或平行）对照的单臂试验。

广义来讲，所有临床试验设计都在运用富集的概念，这主要反映在受试者的入选和排除标准上，其目的是尽可能入选对试验药物有应答的受试者，从而提高临床试验的效率。实际上，根据疾病领域、药物作用机理以及受试者的应答情况等，可选择不同的富集策略和设计，其适用性主要从科学上的有效性、试验结果的可解释性和医疗实践中的可推广性等方面考虑。

常用的富集策略与设计的原理与方法各不相同，且各自具有优缺点。因此，采用富集策略与设计必须从实际应用和监管角度考虑相关的关键问题。

（一）常用的富集策略与设计

根据临床试验关注的主要问题和实施过程，可以选择不同的富集策略，主要包括同质化富集、预后型富集、预测型富集、复合型（预后型和预测型相结合的）富集和适应性富集五种策略类型。

实际应用中，通常依据与药物作用机理相关的标志物选择富集策略与设计。这里的“标志物”定义为与受试者预后或药物治疗应答有关的流行病学因素（如人口学）、既往病史、临床观测变量（如疾病严重程度）、实验室检查（如病理生理学、药物代谢）、基因组学和蛋白质组学等各种特征变量。根据标志物的不同作用，可分为预后型、预测型和混合型标志物。另外，在有些疾病领域，可能没有明显的标志物，这时一般根据受试者在筛选期间对治疗的应答情况，或者其他临床试的数据以及文献报道选择富集的受试者。

1、同质化富集

同质化富集是指通过减少受试者间的异质性以提高临床试验的检验效能的一种研究策略。减少异质性最简单且实用的方法就是尽量选择病情稳定的受试者，同时对入选受试者进行精准定义，并对疾病的状态和有关变量进行精确测量。

一般来说，为了更加准确地定义富集人群，除常规的入选和排除标准外，还要考虑以下几个方面的主要问题：

（1）入选标准

更仔细地定义入选标准，以确保入选者间的基线特征具有较好的一致性。

（2）排除标准

①对安慰剂过于敏感的受试者；

②基线检测结果不稳定的受试者，如在初筛期病情或症状不稳定的受试者；

③伴随某种疾病可能导致过早死亡的受试者；

④服用与试验药具有相似治疗作用的药物的受试者；

⑤可能无法耐受试验药物治疗的受试者；

⑥可能因并发症提前退出研究的受试者。

（3）依从性

应尽可能入选依从性好的受试者，即选择不会因为非医学原因（如不便前往研究地点等）而退出的受试者，以及能够坚持按照试验方案进行治疗的受试者，从而减少由于受试者过多退出或使用不同的治疗方法而导致的差异。对患者的依从性识别和选择必须在随机化分组之前进行。

（4）培训

研究人员和临床试验协调员应接受相关培训，确保严格按照方案入选和排除受试者，并按照方案进行研究。

2、预后型富集

预后型富集是指通过对预后型标志物的识别，入选更有可能观察到终点事件或疾病进展的高风险人群（特指更容易出现预后结局或疾病进展的人群），以增加检验效能的一种策略。该策略主要增加试验的绝对效应，而非相对效应。常用的预后型富集设计主要有以下两种：

（1）基于终点事件的富集设计

在以降低终点事件发生率为主要评价指标的研究中，一般认为有效的试验药物在高风险人群中能够减少或者避免发生更多的终点事件。因此，应考虑在高风险人群中招募受试者。通常，在样本量不变时，与低风险人群相比，高风险人群更容易发生终点事件，经治疗后终点事件发生率降幅较大，因此检验效能更高。

这种策略经常用在抗肿瘤和治疗心血管疾病的药物研究中。例如，在基因BRCA1/2突变的女性人群中进行乳腺癌或卵巢癌预防的研究；又如在降血脂药物的研究中，选择血液中高含量低密度脂蛋白（LDL）、低含量高密度脂蛋白（HDL）和高含量C反应蛋白（CRP）的患者试验。在有些疾病领域，如阿尔茨海默病药和各种癌症药物研究中，也可以通过基因组或蛋白质学筛选高风险的患者。

（2）基于疾病进展的富集设计

预后型富集设计也可用于研究能够减缓疾病进展的试验药物，如在对阿尔茨海默病、帕金森病、类风湿性关节炎、慢性阻塞性肺疾病和恶性肿瘤等疾病开展药物临床试验时，可以选择疾病进展可能较快的受试者。

①在类风湿性关节炎的患者中，具有以下特征的患者疾病往往进展较快：类风湿因子阳性、具有某些临床特征（如多关节受影响、关节以外的病症、皮下结节、活动受限）以及实验室指标异常（如血红蛋白降低）等。

②在慢阻肺患者中，具有近期发作史（过去一年中至少发作一次）或血浆纤维蛋白原较高的患者疾病进展较快。

③在抗肿瘤药物研究中，常见的预后标志物包括组织学分级、血管浸润、分子亚型以及转移性肿瘤结节等指标。

需要注意的是，如果预后型标志物与试验药物之间存在交互作用，即试验药物对该标志物阳性和阴性患者都有效果，但疗效不同，则该预后型标志物也可以起到预测的作用，此类标志物通常称为混合型标志物。

3、预测型富集

预测型富集是指根据受试者的生理或疾病特征选择对试验药物最可能有应答的受试者，以提高试验效率的一种研究策略。例

如在靶向治疗中，可根据药物相关的靶点基因或蛋白，或生理机能（如肾素型高血压/低血压、慢性心力衰竭时的射血分数），选择可能有应答的受试者。

采用这一策略既能增加试验药物的绝对效应，也能增加其相对效应，因此能够以较小的样本量获得较高的检验效能。当患有某种疾病的受试者中只有一小部分对试验药物有应答时（如只有部分受试者具有药物作用的受体），使用这种富集策略十分有效。在实践中,既可以基于研究者对疾病的认识（如各种标志物）选择受试者，也可以根据以往的试验数据和结果。

（1）基于病理生理学特征的富集设计

疾病的病理生理学特征可以提示对试验药物有更好应答的受试者。基于病理生理学的富集指标可以是生物标志物（如影响肿瘤生长的基因突变、基因/蛋白表达水平）、影像学特征，以及与疾病表型相关的一些人口学（如年龄、种族等）或临床特征（如疾病分期、分型等）。根据富集标志物的性质，可将其分类:

①基因或蛋白标志物

治疗肿瘤的药物通常针对肿瘤细胞表面或细胞内相关的受体、酶、激素或其他内源活性物质，对此可根据一个或多个相应的基因或蛋白标志物选择富集人群，并可用该标志物定义病理生理状态、选择最有可能获益的受试者。

当在富集设计中使用基因或蛋白标志物时，标志物检测的准确度和精确性至关重要。如果诊断检测不准确，不仅会果导致检验效能降低，而且在非劣效试验中可能会增加I类错误。同时，还要尽可能地考虑标志物与疗效之间的关系，从而有助于选择合适的受试者。

②药物代谢物

不同受试者对试验药物的代谢能力不同，入组能够产生足够

数量活性代谢物的受试者，可以提高临床试验的效率。在某些情况下，给予产生活性物质能力较弱的患者更高的剂量，有助于他们产生足够的活性物质，从而更可能观察到试验药物的疗效。然而，对于完全不能代谢出有效活性成分的患者，也应该纳入试验或事先设定的分析计划中，目的是对指定的代谢物进行验证和获益/风险分析。

③肿瘤代谢物

抗肿瘤药物试验可以通过检测组织或血液中的肿瘤代谢物含量选择受试者。例如，只入选那些代谢反应较强的受试者，或者在肿瘤患者中按代谢反应程度进行分组，并对代谢反应较强的受试者进行主要分析。

（2）基于对试验药物应答证据的富集设计

此类富集设计根据受试者在筛选期内对试验药物（或既往对似药物）的应答情况，选择可能合适的受试者。

①筛选有应答的受试者

对于在研究开始前无法根据标志物识别出可能对试验药物有应答的受试者的临床试验，需要设置合理的筛选期，将试验药物用于所有受试者。根据事先确定的主要终点或替代终点来筛选治疗有效的受试者；然后，将筛选期内对试验药物有应答的受试者进行随机分组。

采用这种先筛选、后随机的方法可以首先入选较多的受试者，对这些受试者还可以按筛选期的应答程度进行分层，将应答程度相对较好的亚组作为主要分析人群，同时可以进一步探索应答程度相对较弱的受试者。程度相对较弱的受试者。然而，这种设计并不适用停药后药物作用持续时间相对较长或停药后会对受试者造成伤害的药物研究。

选择有应答的受试者还可以使用随机撤药设计。该设计一般分为两个阶段，即第一阶段测试受试者是否对试验药物有应答（可以使用单臂开放试验或随机对照试验），第二阶对试验药物有应答的受试者，随机分到试验组（继续使用试验药物）或安慰剂组（将试验药物撤出），无应答的受试者退出试验。判断患者对试验药物是否有应答，可以根据某些替代指标如症状、体征、实验室检查和疾病复发等进行评估。

随机撤药设计由于筛选了对试验药物有应答的受试者，从而提高了临床试验的效率；同时,可利用已经入组的受试者研究药物的长期疗效或安全性，以及利用退出试验的受试者研究撤药效应。另一方面，这种设计更符合伦理学要求，即一旦治疗失败可以及时终止试验，可用于儿童药物研究。该设计的主要缺点是可能具有残留效应以及研究时间相对较长。

②基于历史数据或文献报道确定入选受试者

根据既往研究中确定的亚组特征入选受试者，即在总体人群中很少或几乎没有观察到明显的治疗效果，但通过分析特定的亚组人群可能获得显著疗效，最后仅在亚组人群中招募受试者。

（3）基于对现有药物无应答的富集设计

在富集设计中，除上述选择对试验药物有应答的受试者外，还可以考虑选择对现有药物无应答的受试者，目的是更好地显现出试验药物的治疗效果。

无应答的富集设计适用于满足一定条件临床试验，即试验药物与现有药物具有不同的作用机制，或试验药物的疗效至少略优于现有药物。如果对受试者未加选择,则需要较大的样本量才能显示出试验药物的疗效；相反，如果只选择对现有药物无应答的受试者，由于对照组的应答率很低，则可能只需较小的样本量，

就能得出试验组优于对照组的结论。必须指出的是，对某些可能危及生命、并不断进展的疾病来说，采用无应答的富集设计会将受试者随机分配到无应答的对照组，可能存在伦理问题。

4、复合型富集

复合型富集指同时使用多个标志物（如预后型和预测型标志物）以减少受试者异质性的富集策略。对有些疾病领域，疾病的发生、发展和预后机制复杂、个体异质性高，使用单一标志物不大可能富集最有可能获益的受试者，而使用复合标志物（如综合评分）进行富集可以有效地降低受试者的异质性,从而提高试验效率。

需要注意的是，使用复合标志物评分时应列出其构成的单个标志物并阐明它们之间的关系；如果对不同的单个标志物赋予不同的权重，应详细说明其生物学上的原理。

5、适应性富集

适应性富集策略是指按照预先制定的计划，根据临床试验期中分析结果，在保证试验的合理性和完整性的前提下，对临床试验方案进行修改，如改变入组标准或仅纳入一个亚组的受试者，并对样本量进行调整等。

当试验药物在标志物阳性和阴性的受试者中的疗效不确定时，试验可以同时入组标志物阳性和阴性的受试者，根据期中分析结果适应性地调整需要入选的受试者。当主要终点规定为标志物阳性受试者的疗效时，如果期中分析结果显示标志物阴性受试者的疗效远低于标志物阳性受试者，则应减少或完全停止标志物阴性的受试者入组。假定标志物阳受试者的疗效高于标志物阴性受试者的疗效，也可以考虑首先入组标志物阳性的受试者，如果期中分析结果表明试验药物在该标志物阳性的受试者中有疗效，则考虑入组标志物阴性的受试者；否则，终止试验。

一般来说，如果标志物与疗效的关系越不确定，越需要包含标志物阴性的受试者此时可以评估药物在全人群中使用时的获益与风险。当不确定一个标志物的预测性时，主要终点可以是全人群中的疗效；如果标志物阳性人群和全人群的疗效同时作为主要分析时，需要按照一定的规则将检验水准α进行分配。无论何种情况，都应事先在方案中明确规定检验假设，并需要对I类错误进行控制。

（二）富集策略与设计的相关考虑

1、标志物检测的灵敏度和特异度

当采用筛检试验选择受试者时，必须考虑检测方法的可靠性，以便能更准确地选择高风险或者对试验药物有应答的受试者。理想情况下，用于筛选受试者的检测方法应该对选择高风险或对试验药物有应答的受试者有较高的灵敏度，同时对鉴别低风险或对试验药物无应答的受试者有较高的特异度。

当利用生物标志物筛选入组受试者时，如果不能准确给出预测标志物的阈值，可以通过受试者诊断特征（ROC）分析，即对标志物不同阈值点的灵敏度和特异度进行分析，并用ROC曲线下面积衡量其筛检效果。关于预测标志物阈值的确定，一般可以先在早期研究阶段给出一个初步的阈值，然后通过较大样本的试验对其进行调整，获得更可靠的阈值。

2、是否纳入标志物阳性和阴性的受试者

富集设计既可以只纳入标志物阳性的受试者，也可以同时纳入阳性和阴性的受试者。然而，富集设计的关键问题是纳入标志物阴性受试者的比例。一般来说可以考虑如下的富集设计：

（1）只纳入生物标志物阳性的受试者

如果作用机制或已有数据表明，试验药物在标志物阳性的受试者中有明显的疗效，而在标志物阴性的受试者中疗效较小或完全没有疗效，尤其在试验药物有较大毒性的情况下，不应纳入标志物阴性的受试者。

（2）同时纳入生物标志物阳性和阴性的受试者

如果作用机制或已有数据表明，标志物阳性的受试者的疗效较阴性受试者的疗效更好，则在试验药物毒性相对较小的情况下，应同时纳入标志物阳性和阴性的受试者。这种策略的优点是能在非富集人群中提供合理的获益/风险估计。

如果在试验开始之前就能够明确标志物，则可以通过对其分组实施分层随机化，主要分析可限制在生物标志阳性的受试者中。实际中，也可以在全人群中进行主要分析，或者在全人群和标志物阳性受试者中同时进行主要分析，并适当地控制I类错误。

一般来说，如果标志物的阈值或标志物阴性的受试者应答度不确定，则有必要纳入标志物阴性的受试者。

3、入选人群和分析集

使用富集策略的主要问题是研究结果的适用性和可外推性，即采用富集设计时要重点考虑这种富集策略是否能够在医学实践中用于识别对研究药物应答的人群，以及该药在更广泛的患者人群中是否也有类似的疗效。因此，对不符合富集入选标准的患者人群进行研究同样重要。需要注意的是，试验确定的入选受试者和主要分析集可以不同（后者可以是前者的子集），但这些必须在研究方案中明确定义。在基因或其它检测结果不能立即获得而患者需要及时接受治疗时，选择以总体人群入组，以提供更多的安全性信息，但主要疗效分析可以是其中的一个子集。

4、筛选富集人群对优效和非劣效试验的不同影响

使用标志物选择受试者时，对优效和非劣效试验有着不同的影响。对于优效试验，当采用富集策略时，如果筛检方法的灵敏度不高，则需要招募更多的受试者从中进行筛选，才能获得规定

富集样本量；如果特异度不高，则需要增加富集样本量或延长试验时间才能获得足够的终点事件数。尽管如此，但不会增加优效试验的I类错误。

然而，对于非劣效试验，筛检的准确度不仅会影响研究所需的样本量或持续时间，还可能增加I类错误。例如，采用预后型富集策略进行非劣效试验，如果阳性对照的筛选方法与以往研究不同，则可能导致阳性对照组的疗效低于以往研究的疗效，从而增加I类错误。另外，对于基于预测型富集策略的非劣效试验，对I类错误的影响更为复杂，它取决于标志物是与试验药物和阳性对照药物的治疗相关，还是仅与其中一种治疗相关。因此，非劣效试验中选择受试者的检测方法最好与阳性对照以往研究筛检方法一致，或者两种筛检方法有相似的灵敏度和特异度

5、控制I类错误

对于同时入选富集人群和非富集人群的富集设计，可根据筛检方法的准确度和受试者对治疗的应答情况，选择不同的假设检验策略。如果有多个假设检验，如在标志物阳性人群和总体人群中分别进行假设检验，则需要考虑多重性调整的问题；如果仅有一个假设检验，如在标志物阳性人群中进行假设检验，则无需考虑这一问题。在不同假设下I类错误α的分配，可以根据标志物阳性人群对药物的应答程度、阳性人群在总体人群中的比例以及按照预先设定的检验效能所需要的样本量进行设置。对总体人群和富集人群进行假设检验时，进行假设检验时，可以采取独立或者序贯策略进行假设检验。

（三）实施富集策略和设计应当注意的主要问题

药物临床试验实施富集策略和设计时应当注意明确界定富集人群、关注非富集人群的疗效、预先确定研究方案、与监管机构沟通交流等主要问题。

1、明确界定需集人群

临床试验是否使用、何时使用以及使用何种富集策略，主要取决于能否准确界定富集人群，这显然会对产品说明书的撰写和后续的医疗实践产生影响。如果使用富集策略和设计无法准确界定富集人群，则可能导致在说明书中无法准确地定义对治疗有效的患者人群，进而无法准确指导临床合理用药。

2、关注非富集人群的疗效

试验药物在富集人群中的有效性和安全性得到确证后，其在非富集人群中相应的信息也应受到重视。通过在非富集人群中开展进一步研究，可以更全面地描述药物的获益/风险状况，为药物能够在更广泛的患者人群中使用提供依据。

对基于高风险人群预后型富集分析获批上市的药物，在随后的低风险人群中试验，可能会使用不同的结局指标，如在高风险人群中使用病死率，而在低风险人群中可以使用一个复合结局指标，有助于提高试验效率。

3、预先确定研究方案并与监管机构沟通

一般来说，在研究开始之前，应预先计划并确定受试者的选择方案。如果已知可用于富集的特征变量或标志物，可在筛选受试者时对其进行测量。而当特征变量或标志物在研究人群中富集效果或分布不确定时，可以考虑进行适应性富集，即在试验过程中依据积累的数据，对试验设计的要素进行调整。无论采用何种策略和设计，调整方法和过程应在研究方案中事先说明，确保其合理性和正确性，并与监管机构进行充分的沟通。

三、临床试验多重性问题

临床试验中普遍存在多重性问题，它是指在一项完整的研究中，需要经过不止一次统计推断（多重检验）对研究结果做出决策的相关问题。例如，多个终点（如主要终点和关键次要终点）、多组间比较、多阶段整体决策（如出于有效性决策为目的的期中分析）、纵向数据的多个时间点分析、亚组分析、分层分析、同一模型不同参数组合或不同数据集的分析、敏感性分析等。对于确证性临床试验，将总I类错误率α（FWER）控制在合理水平是统计学的基本准则。上述多重性问题有的可以导致FWER膨胀，有的则不会。对于前者，需要采用恰当的决策策略和分析方法将FWER在合理水平，这一过程称为多重性调整；对于后者，则无需多重性调整。

通俗地讲，I类错误导致的结果是假阳性；总I类错误率就是在一项完整的临床试验的多重统计分析检验中出现I类错误的发生率；II类错误导致的结果是假阴性。因此，在制订临床试验方案和统计分析计划时，采用恰当的决策策略和分析方法以控制FWER是非常重要的。

（一）临床试验中常见的多重性问题

临床试验中常见的多重性问题一般体现在多个终点、多组间比较、亚组分析、期中分析、纵向数据不同时间点的分析等方面。

1、多个终点

临床试验中的多个终点包括主要终点（单个或多个主要终点）、次要终点（单个或多个次要终点）、复合终点（多个临床结局合并为一个单一变量）、探索性终点、安全性终点等。

（1）主要终点

主要终点是指与临床试验所关注的主要问题（主要目的）直接相关的、能够提供最具临床意义和令人信服的证据的终点，常用于主分析、样本量估计和评价试验是否达到主要目的。确证性临床试验中，单一主要终点较为常见，但某些情况下会涉及多个主要终点的研究，对于多个主要终点的研究，通常有两类统计假设策略，即多个主要终点均要求显著和多个主要终点中至少有一个显著。

①多个主要终点均要求显著

即要求所有主要终点均显著时才认为研究药物有效（此种情况常称为共同主要终点）。在此情况下，不会导致I类错误膨胀，因为这种策略没有机会选择对研究药物最有利的某个或某几个主要终点，只有一种可能得出药物有效的结论（即两个原假设都被拒绝）。但是，这会增大II类错误和降低检验效能。检验效能降低的程度与主要终点的个数和主要终点之间的相关性有关，个数越多、相关性越弱，检验效能降低的幅度越大。因此，对于多个主要终点均要求显著的情形，无需多重性调整，但应留意对检验效能的影响。

②多个主要终点中要求至少一个终点显著

即至少一个主要终点显著时就认为研究药物有效。此种情况下需要多重性调整。由于多个主要终点中至少有一个显著的组合策略不尽相同，多重性调整策略应视具体的统计假设而定。

（2）次要终点

临床试验的次要终点通常有多个，多数情况下它们用于提供药物对主要疗效终点疗效的支持作用。但在某种情况下，有些次要终点可能用于支持药品说明书声称的获益，一般被称为关键次要终点。此时，应将关键次要终点与主要终同纳入I类错误控制。只有主要终点的检验认为整体显著后，才考虑关键次要终点的检验。

（3）复合终点

复合终点是指将多个临床相关结局合并为一个单一变量。如果将某一复合终点作为单一主要终点，将不涉及多重性问题。但是，如果同时将复合终点中某一组成部分（如某一事件或构成量表的某一维度）用于支持药品说明书声称的获益，应将其定位于主要或关键次要终点，再根据上述定位对所涉及的主要或次要终点的多重性问题予以考虑。

（4）探索性终点

探索性终点可以是预先设定、也可以是非预先设定（例如数据驱动）的终点，一般包括预期发生频率很低而无法显示治疗效果的临床重要事件，或由于其它原因被认为不太可能显示效果但被纳入探索性假设的终点，其结果可能有助设计未来新的临床试验。此类终点无需考虑多重性调整。

（5）安全性终点

如果安全性终点（事件）是确证性策略的一部分，即用于支持药品说明书声称的获益，则应事先确定，并将其与主要疗效终点所涉及的多重性问题做同样处理。此时，安全性和有效性评价均应控制各自的FWER。需注意，在临床试验的实践中，由于安全性事件具有很大的不确定性，有时难以事先规定主要安全性假设，因此，对于多个安全性终点（通常是严重的不良反应）的确证性策略可能会基于事后的多重性调整策略，此时应充分说明其合理性，并与监管机构达成共识。

2、多组间比较

临床研究中多组间的比较颇为常见，如三臂设计、剂量-反应关系研究、联合用药和复方药的评价等。

（1）三臂设计

三臂设计多用于非劣效试验，安排的三个组分别是试验组、阳性对照组和安慰剂组。此时，统计假设应该考虑三种情形：

①试验组与安慰剂组比较的优效性；

②试验组与阳性对照组比较的优效性；

③试验组与阳性对照组比较的非劣效性（和可能的优效性）。对于这一多重性问题，如果三个假设检验的结果均显著才可认为试验药物有效，无需多重性调整；或者，基于一个比较弱的研究假设，即只要满足①即可认为试验药物有效；如果采用固定顺序策略，如检验顺序为①—>②—>③，此时也无需多重性调整。但需要注意，后者这种基于较弱的研究假设需得到监管机构的认可才可实施。其它三臂设计如果不是遵循这一多重性检验策略，且不满足所有检验假设均显著的话，需根据情况考虑是否需要多重性调整。

（2）剂量—反应关系

剂量—反应关系研究对于找到安全有效的治疗剂量或剂量范围至关重要。剂量探索的方法和目的在II期和III期试验中有所不同。

在II期试验中，剂量探索研究多用于估计剂量—反应关系，通常基于统计模型证明临床效应与剂量增加总体呈正相关关系，不需要对不同剂量组和安慰剂组之间进行比较，故无需控制FWER。但是，如果剂量反应研究作为确证性策略的一部分，就需要控制FWER。

在确证性临床试验中，剂量探索通常是基于假设检验进行多剂量组间的比较，旨在选择和确证试验药物在特定患者人群中推荐使用的一个或多个剂量水平，此时必须控制FWER，如采用基于p值的多重检验，或基于参数方法的多重检验（如Dunnett检验）。

（3）联合用药和复方药

联合用药是指治疗用药同时使用两种或以上的药物，复方药是指治疗用药由两种或以上的药物组合而成。联合用药或复方药临床试验的目的主要是验证联合用药的获益/风险是否优于其中的单药，或复方药的获益/风险是否优于其组分药。

以两个单药的联合用药为例，试验设计至少会设置三个组，即联合用药组、单药A组和单药B组，后两组为阳性对照组。如果再增加一个安慰剂组，就是一个2x2的析因设计。无论是三组的设计还是四组的析因设计，其统计检验以推断联合用药组是否优于其它各组为主，这将不会导致I类错误膨胀，因为只有所有假设均显著的情况下方可证明联合治疗的疗效。

3、纵向数据不同时间点的分析

纵向数据，即基于时间点的重复测量数据，是临床试验常见的类型。此类数据与时间点相关的分析分两种情况，一种是在不同时间点进行组间比较；另一种是比较处理组内不同时间点的效应。

假设研究设计只有一个主要终点且只涉及两个处理组（多于一个主要终点或多于两个处理组的多重性问题上文已述及），如果主要终点评价被定义为在多个时间点中的某一个时间点（如最后一个访视点）进行处理组间的比较，其它时间点的组间比较被视为次要终点评价，则不涉及多重性调整；如果主要终点评价被定义为在不止一个时间点进行处理组间比较，若其所有相关时间点的组间比较达到显著才认为有效，就无需多重性调整，否则，就需多重性调整。

对于比较处理组内不同时间点效应的情形，如果目的是通过时间点之间的比较确证最佳时间点的效应，即当时间效应成为确证性策略的一部分时，就需要多重性调整；否则，无需多重性调整。

如果希望回避纵向数据的多重性调整问题，一种可能的解决方案是将不同时间点的效应转换为折线下的面积。另一种可能的解决方案是对重复测量数据用单个模型分析，如重复测量方差分析或混合效应模型。

4、亚组分析

亚组分析通常用于说明试验药物在某一特定亚组人群中的疗效、或者各亚组之间疗效的一致性。如果特定亚组的分析用于支持药品说明书声称的获益，则需要综合考虑总人群和亚组人群的多重性问题，同时还要注意保证亚组有足够的检验效能。反之，如果亚组分析不用于支持药品说明书声称的获益，则无需多重性调整。

5、期中分析

针对有效性和/或无效性进行监查的期中分析，因为在研究过程中需要进行多次决策，所以FWER的控制显得尤为重要，多重性调整的策略和方法也复杂多样。在制定临床试验方案时，应仔细考虑并预先设定恰当的多重性调整策略和相应的统计方法。

6、复杂设计

对于用于确证性目的的篮式设计、伞式设计、平台设计等涵盖多疾病领域、多种药物、跨研究的复杂设计，由于同时开展多个分题研究，涉及多重决策的问题。但由于这些分题研究多是独立的研究且回答特定的临床问题，如适用疾病、目标人群等，故一般无需多重性调整。

但是，对于复杂设计分题研究的目标人群有较大重叠时，以及对于多个分题研究使用同一个对照组时，是否需要多重性调整，应视具体情况而定。此时，应与监管机构进行充分沟通。

（二）常见的多重性调整的策略与方法

针对临床试验中普遍存在的多重性问题，所采用的多重性调整的策略与方法取决于试验的目的、设计、统计假设及其分析方法。需在试验设计时对选用的多重性调整的策略和方法进行必要的评估，并在临床试验案和统计分析计划中详细阐述。

多重性调整的策略与方法可以从决策策略、调整方法和分析方法三个层面考虑。

1、多重性问题的决策策略

临床试验的研究结论主要依据综合所有试验数据分析结果所做的推断，也是一个从局部决策到整体决策的过程。多重性问题的决策策略可分为平行策略（或称单步法）和序贯策略（或称多步法）。除了从局部决策到整体决策过程外，还有分阶段的整体决策，例如，出于有效性决策为目的的期中分析。

（1）平行策略

平行策略是指所包含的各个假设检验相互独立，平行进行，与检验顺序无关，就像一种并联关系，每个假设检验的推断结果不依赖于其它假设检验的推断结果。

（2）序贯策略

贯策略是指按一定顺序对原假设进行检验，直到满足相关条件而停止检验，就像一种串联关系，根据设定条件前一个假设检验的结果将决定是否进行后续的假设检验。序贯顺序分为固定顺序和非固定顺序两种方式。

序贯策略中假设检验的顺序以及相应的多重性调整方法的不同对整体结论的影响也不同，这一点在设计阶段尤其要注意。序贯策略的检验效能通常优于平行策略，但其置信区间的计算较为复杂甚至难以估计。

（3）整体决策策略

分阶段的整体决策策略是指将整体决策按照时间顺序分阶段进行，其典型代表是出于有效性为目的的期中分析，每个阶段都进行一次整体决策，确定试验因有效或无效提前终止还是继续。每一阶段的整体决策可以采用多重性问题决策策略中的平行策略或序贯策略。多阶段决策需要多重性调整。

2、多重性调整方法

多重性调整方法实质上是通过调整整体决策中每一个独立假设检验的名义检验水准以达到控制FWER的目的。名义检验水准的确定方法可以根据多重性问题的决策策略选择。

多重性调整方法主要有平行策略的多重性调整方法、序贯策略的多重性调整方法、期中分析常见的α分割方法等。

3、多重性分析方法

对于需要解决的多重性问题，多数是基于具体的统计检验方法结合多重性调整方法来实现的。

对于单一终点变量、同一研究阶段的多组比较，有些统计分析方法是在整体检验的基础上解决多重比较的问题，其根本思想是两两比较所涉及的标准误是整体检验的标准误，由此达到控制FWER的目的。定量结局变量基于方差分析的两两比较有LSD法、SNK法等多种方法，这些分析均可通过专业统计软件实现。对于在整体检验的基础上无法实现多重比较的统计分析方法，需要采用局部检验（两两比较）结合

α分配的方法（如Bonferroni法等）。

多变量的参数方法（如多元方差分析）是解决多重性问题的手段之一，特别是对于多终点的情况，但是此类方法一则要求满足多元正态分布，二则分析结果的解释往往不直观，限制了其应用。

重复抽样（如bootstrap法和permutation法）也是解决多重性问题的手段之一，此类方法的优点是在控制FWER的同时还能保证较高的检验效能；其不足之处在它所基于的经验分布难以验证从而导致估计的准确性不足，此外它更依赖于大样本。因此，该类方法在临床试验中少有实践，需慎重使用。

由于解决多重性问题的统计分析方法众多，每种方法都有其优势与不足，需要在临床试验方案或统计分析计划中事先规定针对多重性问题所采用的统计分析方法。

4、多重性问题的基本解决思路

临床试验的多重性问题较为普遍而且复杂，解决多重性问题的基本思路是：首先，根据研究目的和试验方案，梳理出可能的多重性问题。其次，判断哪些多重性问题需要多重性调整，哪些不需要。之后，进入多重性调整过程。先判断是做一次整体决策还是分阶段做若干次整体决策（如基于有效性决策的期中分析），对某一个整体决策而言可采用平行决策、序贯策略或平行十序贯策略，最后根据所选决策确定每一个检验假设（局部决策）所对应的统计分析方法和名义水准α的分配策略（如需要）。

（三）其它考虑

1、不需要调整的多重性问题

不需要调整的多重性问题

包括但不限于以下情形（均不包含有效性的期中分析）：

（1）针对单一主要终点的非劣效试验的标准三臂设计，所有假设检验结果均显著才被视为有效；

（2）针对单一主要终点，研究假设为试验药物的疗效至少非劣于阳性对照药，即检验假设为固定顺序，第一步验证试验药物的疗效非劣于阳性对照药的假设，第二步验证试验药物的疗效优于阳性对照药的假设（在第一步假设被拒后），每一步的检验水准与FWER水平相同；

（3）针对多个主要终点，当且仅当所有终点的假设检验结果均显著才被视为有效；

（4）针对多个均不以说明书声称的获益为目的次要终点；

（5）有效性和安全性评价应分别独立控制FWER，两者之间无需调整；

（6）对于篮式设计、伞式设计、平台设计等跨研究的复杂设计，如果分题研究多是独立的研究且回答各自的临床问题，如适用疾病、目标人群等；

（7）在统计分析过程中，对同一主要终点指标，可能会对不同的分析数据集进行分析，只要事先定义以哪个分析数据集为主要结论依据；

（8）采用不同的统计模型或同一模型采用不同的参数设置，只要事先定义主分析模型；

（9）根据不同的假设进行敏感性分析，例如采用不同的缺失数据估计方法填补后的分析，对离群值采用不同处理后的分析等。

2、多重性检验的参数估计问题

多重性调整的假设检验方法众多，有的方法较为复杂，可能难以做出相应的区间估计，此时应该考虑采用较为简单但是相对保守的方法进行区间估计，例如采用Bonferroni方法调整置信区间。

多重性调整还有可能带来点估计的选择性偏倚。例如，在含有多个剂量组的确证性临床试验中，如果多重性问题的决策策略选择了在药物说明书中标示与安慰剂差异最大化的剂量组的效应量，则有可能高估药物的疗效。类似的选择性偏倚也会因亚组的选择而产生。因此，有必要评多重性调整可能带来的选择性偏倚。

3、需要注意的事项

在临床试验方案和统计分析计划中应事先明确多重性问题和多重性调整的策略和方法。对于复杂的多重性问题，是否需要多重性调整以及如何调整，现有的策略和方法可能面临挑战，因此，在确证性临床试验设计阶段须积极与监管机构沟通，以求双方能够达成共识。在试验过程中，如果因为更改多重性调整策略和方法而使临床试验方案做出重大调整，须与监管机构充分沟通，在征得同意的情况下对方案进行修改和备案。

参考资料

1、CDE药物临床试验亚组分析指导原则（征求意见稿）

2、CDE药物临床试验富集策略与设计指导原则（征求意见稿）

3、CDE临床试验多重性问题指导原则（征求意见稿）

本文综合整理自南昌弘益药业研发团队。欢迎转发，禁止转载。转载授权请联系0791-88161315