荟萃分析（Meta-analysis）：潜能和功能

荟萃分析的案例

荟萃分析这一术语对统计学综合和分析来自独立研究的数据是恰当的，因为这个术语有其道理。Meta意指较晚出现的更为综合的事物，而且通常用于命名一个新的相关的并对原始学科进行评论的学问。而其他术语则既不具体又不确切，例如“综述”（overview）习惯上也可指传统的文献综述，而“汇总”（pooling）意指源数据合并。最近“荟萃分析”一词被列入医学主题词表和国家医学图书馆的Medline检索系统中。系统性综述是指应用避免偏差的策略的和针对资料和方法部分的任何形式的回顾。系统性回顾可以包括也可以不包括正式的荟萃分析。

回顾历史

独立的研究的合并分析并非最近才有的。统计学家Karl Pearson在1904年关于预防伤寒免疫血清的预防效果的报告，可能是运用正式的技术对合并不同样本的数据进行分析的首次报道。而Pearson提出的原理仍然是现在的荟萃分析的主要的理由之一：“若考虑其中可能存在的错误，许多观察组……样本过小，难以产生任何明确意见。”
第一个荟萃分析估计一种治疗措施的有效性，发表于1955年。有趣的是，这种治疗为一种安慰剂。对各种差异非常大的条件如术后伤口痛、咳嗽和心绞痛等应用安慰剂的有效性的平均值进行了计算，安慰剂对35%的病人有显著效果。然而，在十九世纪七十年代在社会科学，尤其在教育研究工作中发展了更成熟的统计学技术。荟萃分析这一术语由心理学家Glass在1976年杜撰。荟萃分析被心血管病、肿瘤学、围产期保健领域中的医学研究者重新发现并用于随机化临床试验研究分析。人们也倡导对观测研究的荟萃分析及“交叉设计合成”（cross design synthesis）（观测研究数据与随机化临床试验的荟萃分析结果的整合）。

后来，一个由临床医师、流行病学家和其他卫生专业人员组成的网络建立。Cochrane合作组（以医学干预评价领域的先驱Archie Cochrane的名字命名）的宗旨是准备、维护和发布医疗保健疗效的综合性系统的回顾。自从1992年Cochrane中心在牛津建立以来，这种研究便迅速发展起来，在欧洲、北美洲和拉丁美洲、非洲和澳洲建立了15个中心以，又有数以百计的遍布世界各地的个人参与合作。

不受欢迎的统计病态面孔？

尽管荟萃分析被广泛应用，但它一直是一项引起争议的技术。一些拥护者认为“一旦有可能荟萃分析就应取代传统的单主题的回顾性文章”，其他的人则把它看作是一个“新的祸根”，为一种“不受欢迎的统计病态面孔”和“应该把它扼杀在摇篮里”。这种接受性的巨大反差并不奇怪。从临床的角度来看，合并一组具体研究的结果也许并不适合，因为它生成一个群体“平均”治疗效果，而临床医师想要了解怎样才能最佳医治他或她的具体病人。对同一问题的荟萃分析可以得出截然相反的结论，如对低分子量肝素防止手术前后血栓形成的评估。及对二线抗风湿病药物治疗风湿性关节炎的评估。但事情很明显，为了从先前的研究中获得最大的收获，正确的文献回顾策略应越来越普及及予以高度重视。

叙述性综述

传统的叙述性综述有其不足之处,而荟萃分析似可克服这些缺陷。典型的综述是主观的，因此它易引起偏差和误差。因为没有正规的规则作指导，评论家们可能对一些基本问题产生分歧,如应该包括何种类型的研究,应该如何平衡所获得的定量证据。选择支持作者观点的内容非常普遍：临床实验被引用的频率与他们所得出的结果有关，与流行观点相一致的研究比观点不一致的研究被引用得更频繁。一旦收集好一组研究，传统的对研究结果综述的方法是计算从各方面支持该一论点的研究的数目，并选择得到最多认同的观点。这个步骤无疑是有缺陷的，因为它忽视了样本大小、作用大小和研究设计。因此难怪应用传统的方法的分析家们常常得出截然相反的结论，并且往往忽略了微小的,但可能有重要意义的差别。临床医学饱受相反结论之苦，而评论家似乎应有责任去平息这些争论。然而，在争论中，从同一证据实体得出的相反的结论可能与评论家的专业有关而不是数据本身。通过整合实际证据，荟萃分在被检查的总数为136个的115个试验中析可以有更客观的评价，因此当遇到原始研究、传统的综述和编辑意见相左时, 荟萃分析可能帮助解决不确定性。

单个研究的局限性

单个研究常常既不能发现也不能排除两种疗法较小的但与临床有关的的差异。一个试验可能显示无显著疗效，然而事实上疗效确实存在,因而可能产生假阴性结果。这是一种II型误差，对某一治疗效果、样本大小和显著意义水平的差异,这种误差的出现的概率可能被计算出。通常I型误差较好识别——当一个试验随机产生显著差异时，这种误差的概率反映在P值。一个对报道在试验组和对照组之间治疗无显著差异的临床试验的调查显示，在临床研究中出现II型误差相当普遍:对一个临床疗效的差异, 在被检查的总数为136个的115个试验中遗漏这一作用的先验概率（在某一样本大小）超过20%。临床试验中所包含的病人数常常不够充分，这种情况在新近的几年中几乎没有改变。在某些情况下，那些必须的样本大小仍然很难达到。例如有一种药物，它能使心肌梗塞的致死风险减少10%，而仅在英国每年就可以延长成千上万病人的生命。要想测出这种药物效应并具有90%的确定性（要求II型误差不得超过10%），那么一个治疗组就需1万多个病人。

为取代如此巨大而昂贵、逻辑解释又较困难的研究，荟萃分析看来是一个非常吸引人的选择。可利用几个较小的但具有可比性的评估相同的或类似的药物试验的数据。通过这种方法容易获得所需病人的数量，并可以按可信度发现或排除相对较小的药物效应。

同样，荟萃分析有助于估计研究结果的普遍性。某些具体研究的发现可能只有在与该研究人群具有相同特性的病人群体中才有效。如果在不同的病人群体的实验发现具有类似结果，那么可以得出结论这种干预的效果具有普遍性。通过集中所有可获得的数据，荟萃分析比单个试验能更好地回答关于一个总体研究结果是否在各个亚群中（如男性病人、女性病人或疾病的严重程度不同的对象）存在差异。随着这一系列文章的讨论的展开，这些问题将加以阐明和分析，往往可以比单纯的结合性效果评估方法获得更深的见解。

结果流行病学

荟萃分析不但包括数据结合，而且包括结果的流行病学探索和评价——结果流行病学，以原始研究的发现取代个体作为分析实体。在单个研究中未能提出的一些新的假说在荟萃分析中能得到检验。然而，尽管所包括的研究可能为对照试验，荟萃分析本身仍面临着很多观测研究的内在偏差。即使如此，荟萃分析仍然能够引导人们识别最有希望或最紧迫的研究问题，而且可以较精确地计算出今后研究所需的样本大小。一个关于比较分娩时监测胎儿的不同方法四个试验的早期荟萃分析证明了上述观点。荟萃分析推导出这样一种假说，与间歇性听诊相比连续监测胎儿的心脏能减少新生儿发生疾病的风险。后来这个假说在一个规模相当于先前的四次联合研究七倍的单个随机实验中得到证实。

更透明的评价

荟萃分析的优点之一是使文献回顾过程中某个重要部分更加透明。在传统的叙述性回顾中结论如何从被检验数据中得出往往不够清楚。在一个表述充分的荟萃分析中读者可以复制论点的有关定量部分。为此，充分提供荟萃分析所覆盖的数据或允许感兴趣的读者访问这些数据是很有价值的。

荟萃分析所需的越来越大的公开性导致用再生的数值代替一些无用的描述词，例如：“无关系”，“某趋势的一些证据”，“某种弱关系”，“某种强关系”。而且实施荟萃分析可能导致评论家们超越作者在论文摘要中提出的结论，并对实际数据进行全面检验。随着荟萃分析成为一个标准程序，可贵的客观性有望得以恢复。

累积荟萃分析（Cumulative meta-analysis）

累积荟萃分析被定义为每当一个新实验的数据发表即重复实施荟萃分析。这种累积荟萃分析能在一种治疗效果首次达到常规水平的意义时回顾性地及时地确定它。例如，Lau和同事们指出在急性心肌梗塞病人静脉注射溶栓酶的实验中，早在1973年就已经达到了总死亡率方面的一个显著的结合差异。当时2432个病人被随机地分成8个小的实验中。随后的25个研究（包括大的GISSI-1和ISIS-2试验，增加了总数为34542的病人）的结果，使有意义水平在1979年减少到P=0.001，在1986年减少到P=0.0001，而当第一个非常巨大的试验问世时，P达到0.00001，死亡风险减少20%左右这个估计本质上未变的,仅使附近的可信度区间变狭窄。有趣的是，在GISSI-1试验发表以前至少有一个国家许可将溶栓酶应用于心机梗塞中，然而许多国家当局也在等待GISSI-1试验的问世，而有一些为了等待ISIS-2试验的结果而翘首期盼了两年多之久。

类似的情形也见于β阻滞剂在心肌梗塞二级预防方面。在1981年，一个有影响的社论认为“尽管人们提出β阻滞剂能减少心律失常和心脏负担以及缩小梗塞区大小，但经过了差不多20多年的临床实验，我们仍然没有明确的证据证明他们能改善长期的生存率。”然而累积荟萃分析表明，在1977年此疗法就显示了重要效益（P=0.02），并在1981年显示了其联合效益的临床重要性及高度的显著意义（odds ratio为0.71（95%的置信区间为0.59至0.84），P=0.0001）。随后的一个13113个病人仅仅是进一步证实了这一结论。

累积的荟萃分析的另一个应用是把逐步累积的证据与专家在回顾文章和教科书中的建议关联起来。Artman和同事的研究表明，专家于1987年推荐把溶解血栓的药物作为常规使用，累积荟萃分析显示14年后这一用法的重要效益（P=0.01）就很明显。相反，尽管在荟萃分析表明利多卡因在预防心肌梗塞方面并没有显示任何效益并可能存在有害作用，但它仍被不断地推荐为预防心肌梗塞的常规应用。

所列举这些例子提示一旦对已前较小实验作荟萃分析已表明有显著的疗效，那么如果再作大量病人的实验，即使并非不道德，也是最大的奢侈和浪费。然而，有些其他的荟萃分析的例子表明，一些荟萃分析认为具有统计学重要效益和临床重要性的结论却与以后一些大的随机实验的结论发生冲突。荟萃分析作为一种临床研究和保健技术评估工具，明显优于传统的叙述性回顾，具有相当优势。然而，荟萃分析不是“永远正确”的工具，这将在此系列以后的文章中进行讨论。