第一章 第4节:睾酮三大迷思:你被骗了几十年的医学假设#
医学史上代价最高的错误不是某种药出了问题,而是一个从未被正确验证的假说,照样被写进了治疗指南,然后不受挑战地运行了几十年——在证据悄悄朝相反方向堆积的同时,挡住了数百万人获得有效治疗的路。
三个假设主导了现代医学对睾酮的讨论。每一个都通过同样的三步流程进入医学共识:一篇有影响力的论文、一个权威机构的引用、临床指南中的一行文字。而一旦某个说法进了指南,推翻它的代价——政治上的、制度上的、职业上的——远远高于让它继续留在那里。
这不是什么阴谋论。这是学会问一个大多数患者从不会想到的简单问题:这条建议背后的证据等级是什么?
迷思一:睾酮导致前列腺癌#
1941 年,查尔斯·哈金斯观察到对转移性前列腺癌患者实施阉割后,他们的肿瘤出现了消退。他发表了研究成果,并在 1966 年获得诺贝尔奖。随后,医学界在从这项工作外推出的结论之上,建造了半个世纪的临床实践:睾酮助长前列腺癌,因此降低睾酮可以预防或治疗它。
原始研究涉及两名患者。
两名。不是两百,不是两千。两名患有晚期转移性疾病的男性,他们的肿瘤对去除雄激素信号产生了反应。观察是真实的。但那个外推——睾酮在健康男性中导致前列腺癌——是一个远远超出数据支撑范围的飞跃。
几十年后,亚伯拉罕·莫根塔勒的饱和模型提供了一个真正与临床证据吻合的框架。前列腺组织中的雄激素受体在相对较低的睾酮浓度下就达到饱和。在饱和点以下,睾酮的变化确实影响前列腺组织。在饱和点以上,这种关系趋于平坦。更多睾酮不等于更多刺激——受体已经被完全占满了。
大规模试验——REDUCE 试验、前列腺癌预防试验以及涉及数万名男性的多项荟萃分析——始终未能证明较高的睾酮水平会增加前列腺癌发病率。与此同时,越来越多的证据表明,睾酮处于最低四分位的男性可能面临更高的侵袭性高级别前列腺癌风险。
这个假说从未被证实。它只是被假定了。
迷思二:睾酮替代治疗增加心血管风险#
2010 年,一项名为 TOM(老年行动受限男性睾酮试验)的临床试验因睾酮组中心血管事件明显增加而提前终止。新闻标题铺天盖地。FDA 发出警告。医生们开始不愿开具睾酮替代治疗处方。
大多数报道没有提到的是:该研究入组的男性平均年龄七十四岁,大部分已有显著的心血管疾病或多重风险因素。样本量很小。相对于这个人群的基线水平,睾酮剂量偏高。而且该研究的设计初衷并非评估心血管安全性。
一个明确的答案花了十多年才到来。2023 年发表的 TRAVERSE 试验专门为评估睾酮替代的心血管安全性而设计,入组了五千多名已确诊或高风险心血管疾病的男性。结果是:与安慰剂相比,睾酮替代治疗并未增加主要不良心血管事件的发生率。
一项设计不佳的研究制造了全球恐慌。一项设计精良的研究花了十三年才修复这个损害。制度性的机器不会自我快速纠偏。
迷思三:激素下降是自然现象,不需要干预#
“你的睾酮在下降是因为你在变老。这很自然。”
这句话的正确程度,和说龋齿、视力下降、骨密度降低是衰老的自然结果一样。没有人会说我们应该不治疗白内障,因为视力衰退是变老的自然部分。没有人会告诉骨质疏松症患者坦然接受脆弱的骨骼,因为这是身体的预定轨迹。
然而当涉及激素下降时,医学界却适用了不同的标准。假设是:因为大多数男性的睾酮会随年龄下降,这种下降不仅是预期中的,而且是可以接受的——甚至不治疗也无妨。这是常态化偏误:把一种普遍现象当作本质上正常的,因此不值得处理。
“常见"和"最优"不是一回事。一个七十岁的男性拥有健康五十岁男性的睾酮水平,在医学上并不异常,而是医学上的幸运。问题不在于下降是否发生——确实在发生。问题在于这种下降是否产生症状、降低生活质量、增加疾病风险。在相当大比例的老年男性中,三个问题的答案都是"是”。
相关性陷阱#
冰淇淋销量和溺水死亡高度相关。没有人因此得出冰淇淋导致溺水的结论。混杂变量——夏季高温——同时驱动了两者。
这种推理在日常生活中显而易见。在医学研究中,同样的逻辑错误不断发生,后果却严重得多。
当一项研究报告"低睾酮与心血管疾病相关"时,这种关联是真实的。但因果方向并不明显。低睾酮男性往往更超重、更久坐、压力更大、睡眠更少。这些混杂变量各自独立地与心血管风险相关。低睾酮是原因、结果,还是仅仅和真正的元凶同行的旅伴?
反向因果增加了又一层复杂性。也许不是低睾酮导致肥胖——也许是肥胖导致低睾酮,通过脂肪组织中增加的芳香化酶活性将睾酮转化为雌二醇。你假定的方向决定了你选择的干预方案。搞反了,你治的就是错误的东西。
将相关性与因果性分离,需要对照实验、足够的样本量和独立重复验证。关于睾酮的那些耸人听闻的标题,大多基于根本无法建立因果关系的观察性研究。它们可以产生假说,但无法证实假说。
证据金字塔#
并非所有研究都是平等的。病例报告——一个医生描述一个患者的经历——位于证据层级的最底层,它本质上是带着医学学位的轶事。观察性研究高一级,但无法控制混杂变量。随机对照试验隔离了感兴趣的变量。系统综述或荟萃分析汇集多项试验的数据,从噪声中找出信号。
当有人告诉你"一项研究发现睾酮增加心脏病发作风险",第一个问题不是"真的吗?“而是"什么类型的研究?“一个病例报告和一个拥有五千名参与者的多中心随机试验都叫"研究”。但两者在证据强度上的差距,就像一个人的日记和一次全国人口普查之间的差距。
医学指南应该建立在金字塔的顶端。然而太多时候,它们建立在中层甚至底层——然后被当作来自顶层一样被捍卫。
媒体失真机器#
在一篇发表的论文和你读到的标题之间,存在多层扭曲。原始论文报告了一个温和的、有条件的发现,附带适当的保留意见。新闻稿简化了它。记者简化了新闻稿。编辑写了一个旨在获取点击而非追求准确的标题。
“睾酮治疗可能与患有基础疾病的老年男性亚群中心血管事件的非显著性上升趋势相关"变成了"睾酮治疗与心脏病发作有关”。同一项研究,完全不同的信息。
健康新闻准确性研究一致发现,大多数医学新闻报道未能充分讨论证据质量、风险和收益的绝对量级,或替代解释的存在。你读的不是科学,而是在科学家、公关部门、记者和为互动率优化的算法之间玩的一场传话游戏。
而这种失真并非没有代价。近年来,男性对精子质量和睾酮水平的关注度正在急剧攀升,保健品市场借势野蛮生长——澎湃新闻最近的一篇调查报道揭示,部分商家利用男性的健康焦虑大肆营销,产品定价暴利,但实际功效缺乏严格临床验证。这恰恰是媒体失真与商业利益合谋的产物:耸动标题制造恐慌,恐慌催生焦虑,焦虑变成冲动消费。当你不具备区分证据等级的能力时,你就成了这条链条上最容易收割的环节。
改变一切的三个问题#
独立思考不是成为阴谋论者或全盘否定医学建议。它是建立一个过滤器——一小组问题,将有充分支撑的结论与制度惯性区分开来。
问题一:证据等级是什么? 这是基于病例报告、观察性研究还是随机对照试验?答案决定了这个结论应该获得多少重视。
问题二:样本量有多大? 两名患者不是证据。两百名是初步的。两千名开始有意义。两万名加上多中心重复验证才是可靠的。
问题三:是否被独立重复验证过? 任何一项单独的研究,无论设计多精良,在别人重现结果之前都只是假说。重复验证是把发现和偶然区分开来的东西。
把这三个问题应用到上面的迷思上。哈金斯的前列腺癌假说:证据等级——病例报告;样本量——两人;重复验证——被后续大型试验反驳。TOM 心血管恐慌:证据等级——一项提前终止的试验,不是为所讨论的终点而设计的;被专门建造的 TRAVERSE 试验反驳。
你不需要医学学位来问这些问题。你需要的是养成问这些问题的习惯。这个习惯是认知主权的基础——拒绝把你的理解外包给从未被正确验证过的假设。
别再接受从未发生过的审判所下的判决了。