導讀
數字可以讓事情更有說服力,我想這就是為什么有些人使用“硬數字”這個短語,但即使是硬數字也可能具有誤導性。假設你很有興趣了解老年人中做篩查性乳腺X線攝影的價值。你碰到一個標題為“乳腺X線攝影或許會讓所有女性受益,不分年齡”的新聞故事,故事中你發現了下面的生存率統計:“在80歲及以上的女性中,乳腺癌患者的5年生存率在未使用乳腺X線攝影的人群中為82%,在使用了乳腺X線攝影的人群中為94%”
。
假設這些數字都是正確的(而且它們很有可能是正確的),上面這句話似乎很有力地說明了乳腺X線攝影對老年人是有價值的。沒做乳腺X攝影的老年乳腺癌患者中,只有82%活到了5年之后;而在做了乳腺X線攝影的患者中,94%活到了5年以后,看起來一目了然,應該去做乳腺X線攝影,但令人驚訝的是,這些數字并不能告訴你有關乳腺X線攝影對老年女性的價值的任何信息。
原始的信息是,早期診斷后出現了有利結果,而上面的這句話只是這個信息的數字版,當這些數字看起來如此令人信服的時候,就更難看出這些有利的結果并未揭露早期發現的價值,而只是說明了新發現病例的自然病程。
最基本的問題是,通常類似上述新聞故事里報道的數字都不是來源于隨機試驗,相反,這些數據是在對比接受篩查的人群和不接受是篩查的人群,這兩類人群除了關于乳腺X攝影的決定不同以外,還可能在許多重要方面都不相同。總的來說,選擇接受篩查的人更可能教育水平較高,比較有錢,而且整體上對自己的健康更加關注(如勤鍛煉,抽煙幾率低)。所以,盡管這是一種十分簡便的比較,但它卻不公平。選擇接受篩查的人們肯定會比其它人更健康,因為他們從一開始就更健康,而不是因為他們接受了篩查。
但即使這兩組女性除了在選擇乳腺X線攝影上有所不同外,在其它方面都相仿,而且即使這些數據源自隨機試驗,這兩組人群中5年生存率的差別依然無法說明乳腺X線攝影的價值。假設5年前,1000名女性被診斷為乳腺癌,如果820人活到了今天,那么5年生存率是820除以1000,即82%。如果940人活到了今天,那么5年生存率是940除以1000,即94%。但即使篩查性乳腺X線攝影將5年生存率從82%提高到94%,就像新聞報道里描述的那樣,也完全有可能是:接受篩查的人并沒有比她不接受篩查的情況多存活了哪怕一天。對這種明顯的悖論有兩種解釋,被流行病學家稱為領先時間 偏倚和過度診斷偏倚。要想理解這兩種概念,最好的方法就是完成一個簡單的思考實驗,也就是你首先假定篩查無法幫助任何人延長存活時間,最后論證在這種情況下,5年生存率為何仍有提高!
領先時間偏倚
假設一組患有乳腺癌的女性,不管她們是由乳腺X線攝影診斷的還是基于臨床癥狀診斷的,都將在90歲死于乳腺癌,如果所有這些人都在86歲時由于臨床癥狀而接受了診斷,那么他們5年生存率將是0%,因為她們都會在90歲時死亡,每個人從診斷之日起都只能活4年。現在假設同樣是這些女性做了乳腺X線攝影,乳腺X線攝影可以更早地發現癌癥,我們假設可以提前兩年發現,那么這樣所有女性都會在84歲被診斷為乳腺癌,而不是86歲。突然之間,這些女性的5年生存率就會變成100%,盡管她們所有人仍然會在90歲死亡,更早診斷永遠會增加生存率,但這并不必然意味著會延長壽命。這種被稱為領先時間偏倚,下圖中對此進行了說明:
當然,這是一種簡化了的說話。我剛才假設所有的女性在84歲得到診斷,并不是說每個人都必須被早期診斷才會出現這種效應,只要有些人被確診的時間提前了,并且提前到距離死亡時間5年以上,就會有這種偏倚。即使沒有推遲任何人的死亡時間,生存率統計的數字也會上升,更早地做出診斷通常都會使得診斷之時起算的存活時間變長,但這種情況下,“較長的存活時間”可能僅僅說明你知道自己患有癌癥的時間更長了。
過度診斷偏倚
如果存在過度診斷,那么即使沒有挽救任何人的生命,生存率統計也會在早期診斷后有所提高。如果早期發現的一些異常符合病理學上癌癥的定義,但永遠不會發展到引起癥狀或死亡,生存率統計看起來將會更讓人印象深刻。假設在某個城市中有1000名女性有乳腺癌的癥狀,這些人在胸部都被摸到一個腫塊。診斷5年后,700人還活著,300人死了。那么5年的生存率是70%。現在我們讓時光倒流,假說這個城市里每個女性都接受了篩查性乳腺X線攝影,那么或許1500名女性會被診斷為癌癥,其中1000名是一定會出現腫塊的,而另外500名是被過度診斷了。這500名女性在5年內不會死于乳腺癌(因為他們的癌癥永遠都不會生長)。但是這個城市里乳腺癌的5年生存率將上升到80%,因為在1500名被診斷的女性中,1200名存活下來了,這里面包括500名被過度診斷的女性。但是真正變化的是什么?500人不必要地被告知患有癌癥,但是死亡人數并沒有改變。不管是哪種情況,都是300名女性死于乳腺癌。這種效應被稱為過度診斷偏倚,下圖對此進行了說明!
領先時間偏倚和過度診斷偏倚通常會共同作用讓早期診斷后的生存率統計數字更大,而且二者聯合起來的效應強度可能比這里列舉的大很多,這些偏倚可能不是把生存率從70%提高到80%,而是從5%提高到90%——僅僅是領先時間偏倚和過度診斷偏倚就完全可以達到這個效果!
在這兩個思考實驗中,為了簡化數字,我都做了一個假設,就是早期診斷沒有任何利處(或者弊處)。但是你應該知道,不管早期診斷的真實效果如何,這些偏倚都會發生,如果早期診斷的真實效果確實是有一些利處,這些偏倚可以放大可以看見的效果。如果真實效果是有一些弊處(比如,人們因為不必要的治療而縮短了壽命),這些偏倚讓人看不見這些弊處,讓早期診斷看上去仍然是有益的。
最后需要指出的是,這個5年的時間間隔沒有什么特殊之處,這兩種偏倚對于診斷時間起算的任何生存率統計方式都有著相同的效應,無任是2年生存率,10年生存率,7年半生存率,還是其他。
隨機試驗:關于早期診斷價值無偏倚數據的唯一來源
由于早期發現的疾病和晚發現的疾病砸生存率方面的比較偏倚太大,用隨機試驗來測量死亡率成了獲取早期診斷價值鐵證實事的唯一可靠途徑。
大家都知道,隨機試驗這種研究方式是把所有招募到的病人隨機分配到兩個小組中,要么接受治療,要么不接受治療。但是為了讓研究人員真正了解早期診斷的價值所在,這里有一點微小的變化——要在病人被診斷之前招募。在一個關于早期診斷的隨機試驗中,完全健康的人脈被隨機分配到早期篩查組或者對照組。這里的預期是,篩查組中的一些人會被查出有一些無癥狀的異常,從而接受治療。這個實驗的設計師為了比較早期篩查組的人和不接受篩查組的人在健康方面的差異。
為了完全捕捉到早期診斷的效果,最佳方式是在診斷之前進行隨機分配。我們曾經用這種方法來研究篩查性乳腺X線攝影、大便潛血試驗,前列腺癌的前列腺特異性抗原(PSA)篩查和腹主動脈瘤篩查。我們當前也在用這種方法研究肺癌的螺旋CT篩查。這種設計的巧妙之處在于它專門研究了“更加努力查找”的效果,并可以回答一系列問題:如果人脈接受篩查,死亡率是否會降低?人們還需要承受那些檢查和手術才能夠判斷他們早起發現的異常是不是真正的問題?比起沒有接受是篩查的人來說,這些人將會忍受那些副作用或者并發癥?有多少人會因為篩查而被過度診斷。
事實上,我們對沒有任何癥狀的人們進行的各種篩查檢測中,只有很少一部分接受了這種標準的檢驗。這包括常規體格檢查,常規血項檢查和成像檢查(例如全身CT篩查)。而且沒有任何隨機試驗研究了多種癌癥早起發現的價值,例如皮膚癌,膀胱癌,腎臟癌,胰腺癌,宮頸癌,睪丸癌或者甲狀腺癌。
那么是不是就要拒絕所有早篩呢?實際上早診早篩,是要分篩查群體的,不同群體去做的風險收益比不一樣。比如以下三類群體就可以用合理的早篩技術進行篩查。