警惕:对数据进行分组分析和平均分析导致的严重误判

2021-05-07 16:29

随机对照试验(RCT)是证明筛查可以拯救生命的唯一方法


关于乳腺癌筛查的主要争论之一是女性开始筛查的年龄。证明干预效果的唯一方法是通过RCT。乳腺癌筛查RCT已证明,筛查40-74岁的女性可以挽救生命(1, 2)。这是参加RCT试验的女性的年龄。40岁,是科学试验证明的,开始进行乳腺癌筛查的年龄。这并不意味着筛查更年轻女性没有临床收益,也不意味着临床收益在74岁时突然停止。这仅仅仅意味着:如果要乳腺癌筛查可以挽救生命的证据,那么已经有RCT证明对40-74岁的女性乳腺癌筛查有效。


错误的数据分析引起基本概念的混淆


多年以前,执行纽约健康保险计划(RCP)RCT研究的人员,回顾性地分析了他们的RCT数据,以了解更年期是否对他们所看到的临床收益有所影响。由于没有收集RCT参与者的绝经年龄数据,他们决定使用50岁作为更年期的替代指标,进行数据分析以查看40-49岁女性的结果,并将其与50-64女性年龄的结果进行比较。由于这项研究工作没有提前计划,因此原RCT数据中没有足够的人数(有统计学意义的)来证明40-49岁女性死亡率降低,尽管如此,研究人员还是勉强进行了分析。当数据有限,缺乏统计学意义时,仍可以对数据进行回顾性亚组分析,对于新领域进行探索。但是,用无统计学意义的分析结果来指导女性,这是根本上的错误。


然而,当HIP数据显示50-64岁的女性体现了当即的临床受益,而40-49岁的女性临床受益被“延迟”时,50岁这个年龄被赋予了无中生有的特殊地位。对于40-49岁的女性,“延迟”的临床收益也会因定期筛查得以实现。然而对于50-64岁的女性,数据所体现的“当即”临床收益却被错误解读为:乳腺癌筛查对50-64岁的女性更有效。而实际上,这个“当即”临床收益,几乎可以肯定是,在筛查试验的早期可预料的数据波动假象(3)。如果一项试验没有足够的统计学意义,其结果不应用于对女性进行建议。生物统计学家多年来对此一直发出警告(4),但在乳腺癌筛查分析中,这种警告却一再被忽略(5)。


分析人员未能记住:定期筛查,由于“采样周期偏倚”,不能中断非常快速生长的癌症。其含义是:非常快速生长的癌症,可能在一次筛查中尚未长到可被检测的程度;但在下一次筛查之前,就已经长大转移,并在不久后就导致死亡。定期筛查更有可能检测出中度和较慢生长的癌症,这些癌症如不及早发现也会致命,但致死需要更长的时间。这就是为什么,不要期待乳腺癌筛查在开始后的5-7年内就可以挽救生命。


当HIP试验的研究者回顾分析比较40-49岁女性与50-64岁女性的结果时,他们被50-64岁女性的“当即”收益所愚弄,忽略了这是几乎可以肯定的偶然性原因(试验初期的统计波动);同时忽略了40-49岁女性的筛查受益,收益虽被延迟了,但此延迟是理论上意料之中的(3)。正是由于这个对科学的理解失败的历史起点,才产生了一个错误的概念:即乳腺癌筛查的收益在50岁这个年龄点会发生神奇的“突变”。


数据分组和平均处理所导致的误解


一旦有错误的说法被提出(“40-49岁的女性与老年女性相比,乳腺癌筛查收益有所不同”),便会产生支持此说法的分析。经常被引用的一篇文章声称:癌症检出率突然从30-49岁的2/1,000跃升至50-74岁的10/1,000。此文极具误导性,甚至错误地声称:“50岁及以上女性的第一次乳腺X射线摄影筛查的癌症检出率高出五倍(10/1,000 vs 2/1,000 … 显然,乳腺X射线摄影筛查对于年长女性的效率要高得多。”(6)下图显示,如何看起来好像在50岁时癌症检测突然改变,而实际上这种改变却不存在。


1637915432183542.png

图1.参考文献6的数据。请注意,他们将30-49岁女性的癌症检出率分组,平均得出每1000名女性有2例癌症,而通过对50-70岁以上女性的检出率进行分组和平均,声称在50岁时突然跳升每1000名妇女中有10例癌症。


 1637915513750686.png


他们不仅对数据进行分组和平均以使其看起来突然跳跃,而且还将30-39岁的女性和40-49岁的女性的数据归类到一起。没有人争论说建议这些30-39岁女性接受筛查。由于30-39岁女性的乳腺癌较少,因此可以肯定的是,加入30-39岁女性的癌症数据,会拉低30-39和40-49岁女性总体的癌症检出的数字。而该论文的写作目的是,建议应该将乳腺癌筛查推迟到50岁。


 1637915530150408.png

图2.这些是相同的数据(可从论文中获得),但不是二分法的分组,而是将它们进行分组并按数十年进行平均(40-49岁女性与50-59岁女性)。数据似乎仍有突变(也是人为分组造成的),但是数字越来越接近实际(随着年龄的增长,检测率不断提高)。几十年的分组和平均结果表明,40多岁女性中癌症3/1,000,而50多岁女性中癌症6/1,000,这更接近事实,即乳腺癌的发病率每年都在随年龄稳步上升。从40岁开始,癌症的发病率从大约10例/ 10,000(我改为每10,000名女性以避免小数),之后年龄增加1岁,癌症增加1/10,000,从而在50岁时大约增至20/10,000,60岁时达到30/10,000,70岁时达到40/10,000。



 1637915578963774.png

图3a.按10年分组和平均的数据,可以更准确地证明,随着年龄的增长,癌症的检出率稳定增长。


 1637915639926415.png

图3b.将相同的数据一分为二并平均的结果。如何使癌症检出率在50岁时突然改变,而这仅仅是对50岁以上和以下年龄的数据进行不适当分组和平均的产物。


 1637915696941926.png

对于毫无戒心的读者来说,似乎在50岁时癌症检测突然发生了跳跃,而实际上并没有发生这种跳跃。这只是对数据进行分组和平均的人为产物。不过,即使是那些本应更了解的人也会被误导,并提出了错误的说法,根据这项研究:“50岁及以上女性的第一次乳腺X射线摄影筛查的癌症检出率高出五倍(10/1,000 vs 2/1,000 …显然,乳腺X射线摄影筛查对于年长女性的效率要高得多。”


这完全是错误的。在50岁或任何其他年龄,癌症检出率不会突然改变。但是,已经对数据进行了分组和平均,这使得检测率在50岁时似乎突然跳升了,而这个观察是错误的。USPSFT的10年平均数据。下面显示了如何将连续增加的变量(如乳腺癌的年发病率)随着年龄的增长而增加,而这仅仅是简单地分组和平均的结果,就可以使它看起来像跳跃一样。


7.png 8.png


图4.我制作了一个简单的表格并绘制了图表。将数据从40岁的1/1,000到74岁的/1,000(每年增加0.1/1,000)来模拟每年的按年龄分布的乳腺癌检出率。


 1637915777791770.png


图5.这些数字与图4完全相同,只是对40-49岁的女性进行了相加并取平均值,并对50-74岁的女性进行了相同的处理,用这个错误地表明,在50岁年龄本不存在突然跳跃。

 1637915819434555.png


图6.每10年的数据分组并平均。这错误地表明,癌症的检出率随着新的10年而跳跃。


底线


没有数据支持使用50岁作为乳腺癌筛查的阈值。这是一个人为设置的阈值,并被一些不科学的分析所强化。40岁是唯一基于科学的筛查开始年龄。当按个体年龄分析数据,不进行分组和平均操作时,筛查参数在50岁或任何其他年龄都不会发生突然改变(8)。

 

REFERENCES


1 Duffy SW, Tabar L, Smith RA.  The Mammographic Screening Trials:  Commentary on the Recent Work by Olsen and Gotzsche. CA A Cancer J Clin.  2002;52:68-71

2 Smith RA, DuffySW, Gabe R, Tabár L, Yen AM, Chen TH. The randomized trials of breast cancers creening: what have we learned? Radiol Clin North Am 2004;42(5):793–806

3 Kopans DB.Screening for breast cancer and mortality reduction among women 40-49 years ofage. Cancer. 1994 Jul 1;74(1 Suppl):311-22. PubMed PMID: 8004602

4 Moher D, DulbergC, Wells GA.  Statistical Power, Sample Size, and Their Reporting in Randomized Controlled Trials.  JAMA 1994;272:122-124.

5 Kopans DB,Halpern E, Hulka CA. Statistical Power in Breast Cancer Screening Trials and Mortality Reduction Among Women 40-49 with Particular Emphasis on The National Breast Screening Study of Canada.  Cancer1994;74:1196-1203.

6 Kerlikowske K, Grady D, Barclay J, Sickles EA, Eaton A,Ernster V. Positive Predictive Value of Screening Mammography by Age and Family History of Breast Cancer. JAMA 1993;270:2444-2450

7 Sox HC.  Benefit and Harm Associated with Screening for Breast Cancer.  New Engl J Med1998:338:1145-1146.

8 Kopans DB, MooreRH, McCarthy KA, Hall DA, Hulka C, Whitman GJ, Slanetz PJ, Halpern EF.  Biasing the Interpretation of Mammography Screening Data By Age Grouping:  Nothing Changes Abruptly at Age 50.  The Breast Journal 1998;4:139-145.