临床试验作为一项重要的医学研究手段,旨在评估新药的安全性和疗效。但是,由于复杂的生物学系统和人体生理学变异,每一项临床试验都存在失败的可能。
临床试验是新药研发过程中不可或缺的一环,但是在实践中,也有很多试验结果并不如人意。然而,即使试验失败,也并非完全毫无价值。本文将探讨试验失败后的价值
特别是Ⅲ期注册临床试验,涉及大量受试者,耗时可能长达数年甚至十数年,花费的成本更是数以亿计;
对临床试验,各方都会期望一个成功的结果,但现实是,每年都会有成百上千起结果为阴性的临床试验,国际大药企亦不可避免。
反过来考虑,这也不一定是一件坏事,设想如果不存在失败的临床试验,那么意味着行业的标准极有可能出了问题,成功的临床试验也就失去了意义;
并且,由于新药研发中的种种未知因素,即便一项设计得尽善尽美的临床试验,也依然有失败的可能。我们应当以科学的态度看待临床试验的失败。
那么面对临床试验的失败,下一步该怎么走?2016年,发表在《新英格兰医学杂志》(NEJM)上的一篇综述以12个问题展开阐述,为我们指明思考的方向。问题如下:
- 是否有迹象表明潜在获益?
- 试验的统计学功效是否不足?
- 主要结局是否合适(或其定义是否准确)?
- 人群是否合适?
- 治疗方案是否合适?
- 试验实施过程是否有缺陷?
- 宣称非劣效性是否有意义?
- 亚组结果是否显示阳性信号?
- 次要结局是否获得阳性结果?
- 备选分析方法是否有帮助?
- 是否有更多的阳性外部证据?
- 是否有支持该疗法的强有力生物学原理?
大体上,以上这些问题可以分为两类,一类问题重点关注如何深挖试验数据价值,另一类重点关注对临床试验设计的指导价值。
一、深挖试验数据价值
Q1:是否有迹象表明潜在获益?试验的统计学功效是否不足?
虽然统计检验给出P大于0.05的阴性结果,但还能否从结果中发现潜在的获益“信号”呢?以帕博利珠单抗联合仑伐替尼(可乐组合)一线治疗晚期肝癌的Ⅲ期LEAP-002研究为例,其结果显示,可乐组合的mOS为21.2个月,而对照组为19.0个月,主要终点OS未达到预设的统计学差异(HR=0.840,95% CI 0.708-0.997,P=0.0227;预设为p<0.0185)。这里,虽然统计检验没有成功,但可乐组合相对安慰剂的HR有0.84,且统计检验P值比预设的阈值大一点,依然提示可乐组合有潜在获益的可能,有进一步研究的价值。
至于统计学功效不足,往往指研究设计的样本量偏小;同样以LEAP-002研究为例,似乎如果扩大一些样本,数据趋势不变的话,可以得到阳性结果。实际上,LEAP-002原设计的样本量是充足的,因为原假设建立在可乐组合对安慰剂的HR=0.8的基础上,但实际的HR=0.84,如果试验以HR=0.84来设计,其样本会比现在大得多;所以,其实是对核心参数的估计不准确,导致结果看起来是样本量偏小了。值得注意的是,之所以这个问题成立,是因为HR=0.84或0.8都是可获益的值,举一个反例,若这里HR实际不是0.84,而是0.95,反而不存在此问题。
Q2:宣称非劣效性是否有意义?
Ⅲ期试验一般是优效检验,在数据不支持优效成立的情况下,可以考虑试验组相对对照组的非劣效是否有价值,同时考察当前的数据是否能支持非劣效检验的成功。但是,若采用非劣效设计,则需在试验设计之初明确,行业一般不会接受试验完成之后修改为非劣效设计;并且,在非劣效设计和优效设计并行的研究中,是首先检验非劣效,成功之后再检验优效。因而,从非劣效的角度考虑,不是为了改变研究阴性的结果,更多是为了发掘是否有非劣效的可能性。
Q3:亚组结果是否显示阳性信号?次要结局是否获得阳性结果?备选分析方法是否有帮助?
不论是亚组分析、次要终点,还是其他分析方法;都是从各个角度尽量发掘当前试验数据提供的潜在获益信号。
以依维莫司联合内分泌治疗高危HR阳性乳腺癌的UNIRAD研究为例,其主要终点,依维莫司组和安慰剂组的3年DFS率未见显著差别(88% vs 89%,HR 0.95,95%CI 0.69-1.32,P=0.77)。在亚组分析中,他莫昔芬或芳香化酶抑制剂作为辅助治疗对于结果似乎有一定影响,他莫昔芬组的依维莫司获益似乎更显著。这里亚组分析的结果提示辅助治疗的不同似乎存在影响。
再以新辅助化疗加用阿替利珠单抗治疗三阴性乳腺癌患者的NeoTRIPaPDL1研究为例,目前未公布EFS结果,对pCR的分析结果发现:联合阿替利珠单抗组未能显著提升pCR(48.6% vs 44.4%,OR 1.18,95%CI 0.74-1.89,P = 0.48)。多因素分析结果:PD-L1阳性患者的pCR率更高(OR 2.08,95%CI 1.64-2.65,P < 0.0001),而治疗方案(是否联用阿替利珠单抗)和疾病程度(早期高危或局部进展)与pCR率之间的相关性较低。
需要注意的是,不论是亚组分析、次要结局还是备选分析方法的结果,若要作为证据得到结论,需提前计划,作为主要终点的主要分析之一;对于次要结局分析或事后分析,不论结果如何,可以作为潜在的信号,但不能作为证据。无论如何,这些分析对开展下一步研究的方向,提供了参考的依据;从另一个角度讲,在研究设计之初也应将亚组、次要结局等的价值和影响纳入考虑。
二、指导临床试验设计
考虑失败的临床试验对临床试验设计的价值,当然包括对本试验设计的反思,但更多的是对未来试验或同类临床试验的借鉴和提示。结合临床试验统计学指导原则增补(E9R1)的框架,当设计临床试验时,首先是明确研究待解决的问题,之后是确定研究的目的,再根据研究目的确定临床试验的估计目标,而估计目标有五大要素:人群、治疗、变量、群体层面汇总和伴发事件。结合E9R1的框架和下面的问题包含的思想是相通的。
Q1:主要结局是否合适(或其定义是否准确)?
即研究的主要终点与研究的目的是否一致,进而若研究有理想的结果,其是否能解决相应的问题。以肿瘤研究的疾病进展终点为例,我们常见到的有PFS、DFS、EFS等,他们在定义上不同,必须结合治疗领域与试验目的确定合适的终点;有时还会与总生存OS一起作为双主要终点,做出这样的选择同样要与试验目的相符。以Paxlovid用于COVID-19暴露后预防使用的几项研究为例,人群为通过家庭接触的成年人确诊和有症状的COVID-19感染成人的EPIC-PEP研究,其结果未显著降低感染风险(主要终点);标准风险人群的EPIC-SR研究,其未达到所有症状4天持续缓解的主要终点;而人群为非住院、具有发展成重症疾病的高风险成人的EPIC-HR研究,其期中分析结果显示,Paxlovid显著降低了住院或因任何原因的死亡风险89%(主要终点)。三项研究根据目的的不同,采用了不同的主要终点;主要终点的选择对试验结局的影响十分重大,回过头来看,前两项研究是否有更合适的终点?
Q2:人群是否合适?治疗方案是否合适?试验实施过程是否有缺陷?
即人群是否是试验治疗的精确目标人群,因为人群、治疗方案都会对试验治疗的效果产生重大的影响,故这两方面也必须精确的定义。同样以上面提到的Paxlovid用于COVID-19三项研究为例,三项研究的人群分别为低暴露风险人群,标准风险人群和高危人群;从结果看,高危人群中试验治疗相对对照的疗效更容易突显;前两项研究的失败是否和人群的风险较低,不易突显试验治疗疗效有关?
对于试验实施过程中的缺陷,可以分为两类:
一是不可避免的,或者可预见的会对试验治疗产生影响的事件,用E9R1的框架描述为伴发事件,比如受试者因不良事件出组,受试者因疗效不佳停止治疗等,这部分严格来说不能算作缺陷;对于伴发事件应当明确定义并提前计划相应的处理策略;从失败的临床试验中,能总结出一系列伴发事件,对未来设计同类研究十分有价值。
二是字面意义上的实施缺陷,比如数据的丢失,样本的污染等,这些问题通过投入资源,精细流程,提高关注是可以尽量避免的;从失败的临床试验中,也可以总结此部分内容,未来提高临床试验实施的质量。
Q3:是否有更多的阳性外部证据?
一个Ⅲ期临床试验的设计,是建立在一系列Ⅰ、Ⅱ期等探索性试验的基础上,其关键参数的确定,往往也参考了同类研究的文献报道;这些证据的级别和可信程度也是各不相同,一般来说,Ⅲ期注册研究的荟萃分析的证据级别最高,而单臂回顾性研究的证据级别在最低的一档。面对一个失败的临床试验,我们也需要考察其设计之初所依据的证据,其可信度如何,是否有新的外部证据,以重新确定研究的关键数据。还是以LEAP-002研究为例,其根据既往的证据,确定关键参数HR为0.8,并完成设计;但试验数据得到HR=0.84;那么若再设计同类研究,关键参数该如何选择也是一个问题。
Q4:是否有支持该疗法的强有力生物学原理?
药物的研发都有对应的临床前动物试验和早期临床试验,对药物在体内的作用机制也会有相应的理论,但一方面,人体内的各种相互作用十分混沌复杂,事情往往不像预料的一样进行(这也是必须进行临床试验的原因之一);另一方面,有些作用机制的原理本身也是假说,是可被质疑的。以皮下注射Aβ单抗Gantenerumab针对阿尔茨海默病和轻度阿尔茨海默病性痴呆症导致认知障碍(MCI)的Ⅲ期GRADUATE研究为例,其结果未达到改善认知损伤的临床主要终点,且该药物在清除β-淀粉样蛋白(Aβ)的水平方面也低于预期。再结合近年来一系列同类药物的临床试验失败,也引起了学界对β淀粉样蛋白假说的质疑。
临床试验的失败并不意味着该临床试验数据毫无价值,我们应当尽可能地深入挖掘现有数据,据此指导我们判断开展进一步研究的价值,并提示进一步研究的重点及注意事项;
从另一个角度看,在临床试验设计阶段就应当广泛、详细地评估试验药物前期及同类、同领域药物已有的信息,尽量做到全面、科学、严谨地评估待解决临床问题,进行合理的试验设计。
综上所述,虽然试验失败是一件令人失望的事情,但这并不意味着试验数据就毫无价值。通过失败的试验,可以总结经验教训、优化药物配方、提高透明度、避免重复研究等等,这些都可以为未来的药物研发提供参考和指导,提高研究效率,为研究人员和患者都带来好处。