科普分享第3季:科学驱除愚昧:检验药效的“金标准” --双盲实验
如何判断药物是否有效?
药效的判断不是靠个例,而是靠大规模的双盲实验来证明普遍的规律性。
中医粉常说:“我曾得了XX病,吃了XX中药后才好的”。
这些人都是把“前后关系”和“因果关系”混为一谈。
个案没普遍性,科学讲普适性。普适才是规律,才能推广。
个案有效很可能是人体自愈,不一定是治疗的效果。
譬如,感冒无药可治,但感冒又可以自愈。
在感冒自愈之前,如果你吃了板蓝根,等病好后你就会误以为板蓝根神效。
疗效必须经双盲法检验,举例是不完全的归纳法,没有必然性。
01安慰剂效应
首创安慰剂概念的是英国名医威廉·卡伦(1710–1790)。在他现存的讲义里,两次明确地提到了安慰剂。1785年再版的《新医学词典》正式将安慰剂一词,收录进新医学词汇,并将其定义为无特定疗效的方法或药物。
1801年,内科医生海加思做的一个非常简单的临床试验,视作人类第一次瞥见强大的安慰剂效应。
那时,有一种流行疗法,医生常用一根金属棍,缓解患者的各种痛苦,据说是因为金属棍拥有神秘的电磁现象。海加思用一根伪装成金属的木棍,他诧异地发现,金属棍和木棍,在缓解症状的效果上没什么差别。海加思由此认识到,患者的期待会对疾病产生神奇而强大的影响。
自海加思后,医生们发现,以往认为确有疗效的药物或方法,多是安慰剂效应。有些医生干脆放弃治疗,仅对患者做基本的护理和心理安慰。他们诧异地发现,许多本来认为必死无疑地疾病是可以自愈的。更让人惊诧地是,简单护理,不进行任何治疗,死亡率反而下降了。
1876年哈佛教授克拉克(Edward H.Clarke)出版了《美国百年医学1776-1876》。书中总结了许多疾病的自愈问题,强调:只护理不“瞎”治疗,患者会更快恢复或死亡率下降。这本书彻底摧毁了一个延续多年的信念——生了病就得进行某种治疗。此后,西方人开始重护理轻治疗。医生成了安慰者、观察者以及病理学家,将疾病仔细分类,统计死亡率和自愈需要的时间,研究患者的具体死因。据说,这段治疗的虚无时期是西方医学史上医患关系和谐的黄金时期。
今天,欧美医界对待治疗的态度是慎重的。以小儿腹泻发烧为例,在欧美,医生会优先让家长进行简单护理,注意观察,不会轻易进行治疗,除非真的需要。看看我国医院里壮观的小儿集体输液的景象,你就明白我国的治疗理念跟欧美有很大的不同。
安慰剂进入现代医学始于美国的H.K.Beecher医生。Beecher是二战战场的麻醉师。在攻占意大利南部海滩战斗中,镇痛剂用完了。当伤兵嚎叫着要镇痛剂时,万般无奈的护士告诉他现在给他注射的是强力镇痛剂,但实际注射的是盐水。让Beecher震惊的是,注射盐水后,伤兵真的停止了哀嚎,疼痛止住了。战后他回到哈佛,开始了一系列的测试药物疗效的实验。1955年,他在《美国医学会杂志》(JAMA)上发表了著名的论文“强大的安慰剂”,描述了数十个常规药物的效果其实是安慰剂效应。他第一次指出:**吃药本身就有一定的治疗作用,只有强于安慰剂的药物才是有效药物。**此后,临床试验中,与安慰剂组对照,成为开发新药或疗法的不二规则。1985年,Beecher在多年研究的基础上,出版了著作《强大的安慰剂》。这本书推动FDA做出规定,任何临床研究,在不违背伦理的情况下,一定要尽力排除安慰剂效应,以获得真实特定的疗效。
**安慰剂是指没任何药物作用的普通物质比如淀粉,但在实际中产生了等同于药物的临床疗效。**宽泛地讲,“假”手术或“假”的治疗,都算作安慰剂。《医学的愚蠢和谬误》一书说:“医生对治疗手段的信任,病人对医生的信赖,都会产生相互的加强作用。而就此产生的结果往往会非常强有力,常常仅此就足够确保得到疗效甚至完全治愈。”这是对安慰剂的最好解释。
安慰剂效应有多普遍?研究显示,患有慢性疼痛、抑郁,某些心脏疾病、胃溃疡,或某些胃炎以及很多功能性疾病的病人,高达50%-60%的可仅仅因安慰剂得到缓解。一个试验中,研究人员发现仅告诉哮喘患者他们正在吸入一种气管扩张剂就能有很大部分患者出现气管扩张,尽管他们实际上什么也没有吸入。另一个试验中,拔掉智齿的病人被告知他们正在接受超声波治疗缓解疼痛,尽管实际机器没有开机,病人的大多数都报告疼痛明显缓解。11个不同的临床试验都显示:结肠炎患者接受安慰剂治疗后,52%的患者出现症状缓解,其中50%患者经结肠镜检查后真的出现实际炎症消退。
2008年《新英格兰医学杂志》的一篇论文说:对679名美国内科医生或者风湿病专家做了一项调查,结果发现,大概有一半医生承认自己经常地给病人开出安慰剂。最常用的安慰剂是维生素片和止痛药,次为生理盐水和糖丸。大约13%的医生开出抗菌素和催眠药作为安慰剂。
要客观研究安慰剂效应的机制,并非易事。因为,患者一旦知晓他们吃的是安慰剂,这种强大的效应就会消失,并且安慰剂效应的强度因人因病而异。研究中发现,医生的态度、负面的表情、语言表达等都会产生强烈的干扰。医生如果知道病人吃的是安慰剂,就很容易露馅,妨碍安慰剂效应的出现,甚至还可能出现反安慰剂效应,让病人的病情异乎寻常的恶化。
因此,在临床试验中,不仅病人不知道自己吃的是药还是安慰剂,一线医生也同样不能知道。安慰剂效应的微妙之处在于,病人必须相信自己服用的是有特别效果的药物,而不是糖丸!一旦病人知晓服用的是糖丸,那就不太可能出现治疗效果。
2010年哈佛大学再做试验。他们找来80位肠激惹综合征的病人,分两组。给其中一组的药物的外包装上写着:“此为安慰剂,没有任何药物成分,类似于糖果,但是临床试验显示此安慰剂能通过思想身体自愈作用产生很好疗效”。另外一组病人则不给任何治疗。治疗开始后11天和21天,第一组明知道是安慰剂的病人仍然出现了很高比例的症状缓解,而第二组则没有显示任何缓解。
安慰剂如此有效,其原因是什么?一般的解释是心理作用,**神经医学的解释是:安慰剂效应引发大脑自身分泌地一系列内源镇痛物质,如内啡肽、强啡肽和脑啡肽等。**如果用化学药物阻断患者大脑内的内啡肽的分泌,就可以部分阻断安慰剂效应。研究显示,多巴胺的一个基因影响安慰剂的效果。携带这种基因的人群更易受安慰剂影响而获得症状缓解。2001年德国的研究人员设计了一种“假针灸”的针,证明了针灸的安慰剂效应——假针灸(不按穴位扎针)和真针灸(按针灸穴位扎针)的镇痛作用相较,结果无显著区别,这与通过吹气缓解伤痛异曲同工。
有人认为安慰剂效应被夸大了。1997年,Kienle和Kiene分析了大量的研究后,认为安慰剂组病人出现的症状缓解不是来自安慰剂效应,而是因为病程的自然缓解,症状的波动,附加的别的治疗,报告的偏差,病人为了取悦医生的礼貌汇报,诱导性的调查,或仅仅是心理现象。
2001年,一项大批量研究指出,与未治疗组比较,无论主观或者客观指标,安慰剂组并未出现显著的不同。一旦加大样本数量,安慰剂效果就会减低,提示观察到的效果可能只是观察偏差。典型的案例是外科医生J.Bruce Moseley做的一个有名的安慰剂试验。他给10个膝关节炎病人的其中8个做了假手术,切开皮肤后就缝上,但告诉病人做的是正常手术。结果所有假手术患者6个月后都出现了缓解。因此Moseley认为安慰剂手术有效。但实际上,这些患者可能根本不需要手术也会自行缓解。另外一个观点是,病人对疾病的态度或信心会对治疗结果产生影响。但事实是,安慰剂效应通常只对功能性疾病有效,而对器质性的疾病无效。比如骨折病人,肠穿孔病人安慰剂就无效了。同时,当前的研究也发现,在涉及到免疫系统和内分泌系统疾病(如糖尿病)时,安慰剂效应最弱。这或许就是中药治疗糖尿病,一定要掺入现代药物的原因。因为对于糖尿病,安慰剂效应无用。
02检验疗效的“金标准”
大样本随机双盲试验是检验疗效的“金标准”。
大样本:试验选取的样本数要尽可能多。统计学的“大数原则”指出:样本越大,统计结果越能稀释掉那些特例(例如某些人免疫系统特别强或特别弱),也就越能逼近真实情况。如果样本太少,偶然因素就无法排除,所以根据统计学原理有最低样本数的限制。
随机:指的是选择样本(病人),要随机抽取。比如说,不能清一色地选择病情较轻的病人,不能清一色地选择年轻、免疫力较好的病人,等等。这样,可有效避免病人由于病情轻重而导致的痊愈效果的差异。
样本病人的分组也是随机的。一般分为三组:第一组是对照组,不做任何治疗,用来观察病人疾病在没有治疗情况下的自愈效果。第二组是安慰剂组,给病人吃没有治疗成分的“假药”,用来观察病人的心理作用对疾病的影响。第三组是治疗组,给病人吃真药,观察这药物或疗法的真实疗效。
双盲:所有数据都要加密,病人和医生都不知道该病人是在服药还是安慰剂,而统计工作由第三方(实验技术人员)来进行。双盲的目的是为了排除主观心理暗示即安慰剂的作用影响,让实验更加客观公正。
**“双盲”**是相对于“单盲”而言的。所谓“单盲”,就是只对病人实行信息屏蔽,而不对医生实行信息屏蔽,即病人不知道自己服用的是不是新药,但医生却知道病人服用的是新药还是安慰剂。单盲的缺点在于,医生是希望被实验的新药有效。这种心理预期会自觉不自觉地引导他们努力去发现用药组病人病情好转的迹象,而忽视安慰组病人病情好转的迹象。这就无法避免研究者的心理误差。而采用了双盲,就可以避免来自医、患两方的心理干扰。
**对照:**指的是对样本随机分组,施以不同的治疗方案。比如,一组给予新药,一组给予安慰剂或其它药物。由于人体免疫系统的存在,许多病不采取任何措施也可以好转或者自愈,所以必须设立对照组来比较疗效。对照的目的是为了避免“假治”。因为:大约有一半的疾病具有自愈性,即不经过任何治疗,它也会逐步痊愈或缓解。如果在这种情况下,病人用药。表面上看,病情也会好转。但却不是药本身的真实效果。于是,就造成了“假治”效应。惟有随机分组以后,通过对照实验来排除“假治”。
程序严格:程序要求非常严格,数据要求能够溯源,记录要完整。
由此可以看出,大样本随机双盲对照临床试验是目前人类摸索出的最合理、最有效的评价方法,这种方法不仅适用于评估药品,也适用于其它领域。
03怎么评价药物有效?
有种奇葩说法,说某个药物的有效率低于50%就不应使用。这是错的。100年前,癌症的5年生存率几乎是0,后来发现叶酸抗拮药物能抑制白细胞DNA复制,于是有了第一个白血病化疗药品,延长了儿童白血病的生存期,但病人很快就会产生耐药性,就这样一个又一个癌症药品相继出现,各种组合疗法被试验出来。随着对致病机理的研究深入,相继出现了靶向药物和免疫疗法药物。如今,美国全部癌症患者的5年生存期大约66%,中国大约31%。100年来,美国癌症患者的5年生存期从0上升到66%,这是巨大的进步。
那么,怎么评价药物是否有效?
1)如果80%的某类病人吃某药物后能痊愈,就说明这药物有效吗?不一定!因为人的免疫系统很强大,许多疾病都能自愈,比如:大多数病毒性感冒都能自愈,不用吃任何药物,人体会产生抗体消灭掉病毒,所以没有对照就不能判定这个药物有效;也许不吃药,80%的该类病人也能痊愈。
2)如果80%的某类病人吃某药物后没效,是不是就说明这个药物没效?不一定!因为有些疾病无药可治,如果吃安慰剂,有效率为1%,而吃该药后,有效率为20%,并且统计学上有显著性,就说明这个药物是有效的。至于为什么这个药物只有20%的有效率,可能是因为该疾病存在多种亚型,该药物只对部分亚型有效果,但是因为目前科学认识不够,未能进一步分层。
3)要评价一个药物是否有效,首先就需要一个对照组,这个对照组可以吃安慰剂,也可以吃某种已经证明有效的药物,分组必须完全随机。另外需要试验的病人数量足够大,来避免特殊情况的干扰,确保统计学上有代表性。这还不够,为了防止医生有偏向,影响病人心理状态,可能对治疗过程和结果产生影响,需要确保医生和病人都不能知道所服用药物是安慰剂还是真的药物,这就是双盲。综合起来,这个临床试验就是大样本随机双盲对照试验。
经过上述大样本随机双盲对照试验,如果药物A比安慰剂能够延长几个月的生存期,副作用可耐受,且统计上有意义,那么药物A就是一个有效的药物;如果药物B能够比药物A再延长几个月的生存期,副作用可耐受,且统计上有意义,那么药物B就是比药物A更加有效的药物。美国癌症的5年生存率百年前是0,就是这样一点一点的进步,上升到现在的66%。
在医药界,双盲实验是验证药物疗效真实性的最起码的实验。一种药物只有通过了双盲实验,其药效才可以被科学认定。当然,并不是说一种新药只要通过了一次双盲实验,就可以万事大吉了。在管理严格的国家,它还必须通过三期临床试验。以美国为例:
I期临床试验为短期小规模。试验对象通常为20-100人,健康者或患者都可以。其主要目的是观察新药是否会出现急性毒副作用,检验合适的安全给药剂量,并初步研究人体对药物的吸收、代谢和排泄。时间持续数月。大约70%药物能成功地通过这一阶段的试验而进入II期临床试验。
II期临床试验为中期中等规模。试验对象是病人,通常为100-300人。主要目的是观察新药是否有疗效,也对短期的安全性做进一步观察。时间持续几个月到两年。大约只有33%的新药能成功通过这一阶段的试验,进入III期临床试验。
III期临床试验为长期大规模。试验对象是病人,通常为1000-3000人。目的是确认新药疗效和安全性,确定给药剂量。时间持续一到四年。
在完成III期临床试验之后,制药公司才能向药监部门提出上市申请,由药监部门组织专家鉴定。在美国,最后经食品药品管理局(FDA)批准上市的新药,只占最初申请进入临床试验的新药总数的20%。
显然,在管理严格的国家,双盲实验是需要做多次,选择大样本地做,且跟踪数年以后,才能最后认定其临床效果的。因为科学实验的基本要求就是可重复!在医药界,大样本随机双盲对照试验是药物疗效的科学检验方法。在没有更好的检验方法之前,通过了这个临床试验就算有效,否则不能算药物。
所有的中药都未通过双盲实验,所以,在美国,中药不是药物,只能以食品的名义销售。