理解与使用数据

科学写作指导手册

当医生声称发现了“大有可为”的新疗法,这样的论断是否可信?会不会是基于有偏差甚至不可信的数据得出的结论?当环保主义者认为废物堆积站会致癌,但工厂主愤然驳斥时,该听谁的?

与此同时,营养专家们不停地变更着健康食谱,而谈及恐龙灭绝的原因,学者们依旧喋喋不休。你究竟该相信哪些科学研究?

本章讨论数据的使用(以及偶尔的误用)。不要一看到“数”这个字就觉得头大,其实,成为一个优秀的科学作者并不需要多深的数学造诣,而只要求具备一点健康的怀疑精神,以及提出涉及研究关键点的问题的能力。为了分辨出可能的真理与可能的垃圾,你先得回答以下问题:

1. 研究是否已结束?以及论断所基于的观测数据是否全面?研究是如何设计与实现的?

2. 数字都是多少?研究样本是否足够大(如是否有足够的病例、 实验,抑或其他数据),从而让结论令人信服?结论是不是统计显著的?这个词的意义很简单:基于科学的标准,最终的数据结论不太可能通过纯粹的概率产生。

3. 对研究的结论是否有其它可能的解释?

4. 是否存在有意或无意的偏差影响了研究结论?

5. 有没有别的专家对实验结果进行检验?实验结果与其它研究的理论或理念是否吻合?

探索研究的原则

为了回答上面的问题,我们首先要了解科学分析的五个原则:

1. 不确定事物的确定性

专家们不但对我们该吃什么没个定论,连我们生了病该怎么办也不断改口;越来越多的药物和疗法被废弃,因为最新的研究质疑它们的效力和安全性。甚至连宇宙的形状(更准确的说,是天文学家想出的形态)也是众说纷纭。

在某种程度上,类似的反复无常影响了科学的声誉。但作为科学发展常态的一部分,这些其实也都在情理之中。

科学着眼于所谓真理的可能性。结论的得出都基于强而有力的证据,而不是指望那难以琢磨的证明过程。自然的复杂性和研究过程本身都带来了不确定性。

但科学可以承受这种不确定并继续前进,因为科学本身就是不断进化的,如同一段可在中途调整罗盘的漫长旅程。从医学到天文学,从地理学到心理学,过去的结论总是不断的被重新检验——并在必要时被修正(甚至被舍弃)。我们应该向自己的编辑和新闻主管说明以上观点。当社会大众理解了为什么绝大多数科学家 充其量只会说:“这些强力的证据说明某某某某论断可能是正确的。还请期待我们更新的研究成果。”那些许的不确定性就丝毫不会在关键问题上造成妨害。

在我们继续下面的话题之前,请记住:并非所有的研究都是在求等号。

2. 概率、功效,和大数

你听过那个小白鼠药物实验的笑话吗?“33%治愈,33%死亡——第三只逃走了。”这个故事提醒我们数字对于评价研究的意义之重。

研究时病例越多越好;新疗法的成功率越高越好;气象观察越多,气象学家预测下周下雨情况的准确率就越高。下面我们来看看统计概率上是如何定义某件事为真的:

为了度量结论为真的概率,一个被广泛接受的准则是 P(即概率,probability)值,它的计算依赖于被研究的病例(或其他任何事物)的数量。当 P 小于或等于 0.05 时,研究结论通常被认为是统计显著的。它意味着,如果结果只是因为巧合,那么 100 次实验中只有 5 次或更少的次数会得到这个结果。 P 值越小,则结果单纯源于巧合的可能性越小。

换句话说,病例(或其他对象)的数量越大,所得的 P 值就越是可靠。

还有两个相关的概念可以用于度量结论的统计价值。首先是功效,它代表了我们发现一个现象的可能性——比如说,长期工作于某化学品环境中的工人罹患癌症案例的增加。如果这种化学物质确实致癌,研究的工人越多,观察的越多,我们发现这一点的可能性就越大。一种新药是否会造成罕见但致命的副作用可能要等到它推广上市,被上万、甚至上百万的患者服用后才能判断。

其次是统计强度。如果某污染物可造成高于背景值10%的患病率,那么两者间可能有相关性,但也可能没有;如果患病率高出 10倍(比如抽烟者和不抽烟者患肺癌的可能性),两者有关的可能性就非常大。

作为科学作者,用不着自己去计算。他们只需要对研究者说:让我看看数据。

需要提出的关键问题还有:你的所有结论都是基于统计显著的研究结果么?(如果不是的话你就要注意提醒你的读者了)P 值——研究结果仅仅由巧合造成的可能性——是多少?如果某种现象存在,你的实验样本量是否足够大以发现它?有其它数据与你的结论矛盾么?有没有扩大样本量再次实验的计划?

然而,即使研究结果是统计显著的并且有足够的功效,也不能说明它就是正确的或是重要的。所以我们还有下面的原则。

3. 有没有别的解释?

仅仅有相关性并不能代表有因果关系。太阳升起并不是因为公鸡打鸣;患者体内发现的病毒也许只是个无辜的旁观者,而并非致病元凶;城镇供水系统中的化学物质也不一定要对镇上的病患负责。只有更深入的研究才能揭示因果关系。

举个例子:有些科学家(以及很多新闻报道)猜测儿童疫苗接种可能会导致自闭症。而绝大多数专家认为这仅仅是巧合,因为所谓的相关性其实只是因为自闭症一般就在孩子们接受预防接种的年纪开始发作。现在的问题是,由于错误的担心孩子会因接种得上自闭症,一些家长可能会推迟孩子接受麻疹或其他危险疾病疫苗注射的时间。但新闻报道却没有告诉他们因为没有打疫苗而染病去世的案例数量。

研究的时间跨度也十分重要。气象研究必须基于许多年的数据,这样才能避免正常气候循环的干扰;某种疗法可能会减轻癌症患者的症状,但只有时间能验证这种疗法能否最终治愈并延长患者的生命。有些患者可能在长期研究过程中退出。 但如果他们是因为疗效不佳而退出的,那么也许就会使实验的数据变得不真实。

然后是所谓的健康工人效应:一个研究者在研究长期工作在危险化学品环境下的工人时发现,他们竟然比普通人更加健康,但这并不能说明这种化学品对健康无害——不健康的工人根本就无法获得并长期保有这份工作。

同时,还要考虑到正常波动。人是复杂的,同一个人可能每天都会有一些生理上的变化,人群之间更是如此。仅仅因为正常波动或其它研究条件限制,相似的研究就可能得出略有不同的结果,有时甚至会有显著的差别。

诸如此类的问题我们可以继续说上很多,但广泛的提问可以保证我们不误入歧途。问问研究者(还有你自己):你能想到别的原因来解释实验的数据和结论吗?实验时间是否足够长,以支撑最后的结论?

在科学中,偏差这个术语专指错误地忽略了其它可能解释。但作为科学作者,你还应该探讨另一类偏差发生的可能性: 你的研究由谁赞助?很多诚实的研究者会告诉你,他的研究由某个对这项研究有兴趣的公司赞助。你应该询问这类联系,并告诉读者。

4. 研究的等级

由于成本和其它原因,不是所有研究的方法和过程都完全一样。因此,某些类型的研究更值得我们相信。

在生物医学研究中,我们应该谨慎对待实验室和动物实验结果(即使实验使用了远多于三只老鼠)。而它们可以为人体实验提供重要线索。

很多流行病学和医学使用回溯的方法进行研究,即使用过去的数据或者回忆的事实。这种方法常常是必要的,但往往又是不太可靠的。 因为记忆会淡忘,而记录经常是不完整的。 较好的办法是进行前瞻研究,选择一群人并长时间追踪观察——有时候要观察好几十年。

临床研究的“黄金准则”是双盲实验,即将患者随机分配到治疗组或控制(对照)组,并对控制组的患者使用安慰剂。所谓的双盲是指患者和研究者都不知道自己所在的组,直到整个实验完成。这避免了人为意愿干扰实验结果。而对患者随机分组更可以防止研究者下意识地将可能表现得更好的患者放入治疗组。

并不那么严格的研究也可能很重要——有时甚至很必要。但我们更应该信任那些严谨的实验。

我们可以对所有领域的研究者提这样的问题:你为何如此设计你的实验?大家参考你的结论时应该注意些什么?还经常会追问:现在有没有必要做一个更权威的实验?

5. 同业审查的力量

对于出现在经过同业审查的期刊中的研究,我们可以大大加分,因为这意味着这项研究通过了其他专家的审核。但这并不能保证该研究一定正确,审查者也是人,也可能会犯错。好的科学故事还可能来自科学会议,这时它们还没有被出版甚至研究才刚刚开始。但报道这些科学故事时需要格外的谨慎,并且多请教其他专家的意见。

问问研究者:还有谁不同意你的结论?为什么?你的发现和结论与其它科学实验以及理论吻合吗?

想改变科学教条的研究者有提供证据的责任。同时,科学界一向乐于验证彼此的实验。科学作者应当在最杰出的研究之间找到一致的结论。

在《新闻和数字》一书中,我们给出的最终建议是:“聪明的作者 经常 使用 ‘ 可 能( may ) ’ 、 ‘ 有 迹 象 表 明 ( evidence indicates,)’,而极少用‘证实(proof)’这样的词。”阐明你的报道中的不确定因素,提供恰如其分的提醒和说明,会大大增加报的可信度。

成本和平均数

留意成本。改变小行星运行轨迹以避免与地球相撞的计划确实很有意思,但这要花多少钱呢?我们可以承受吗?大众对新疗法的成本也极其关注,所以你应当问研究者:你的应用方案会不会太贵,导致没法普及?如果研究者没有做成本预估,嗯,这可又是一段新闻。

不要被平均数误导。即使是平均 4 英尺深的湖也能淹死人的,因为湖的中部足有 9 英尺深。某项研究中样本人群平均每周锻炼三小时,没有提到的是,大部分人压根儿就不运动,而其他人是狂热的运动爱好者。总是询问,平均数背后的真相是什么?广播里说如果每天锻炼并且控制饮食将“更加长寿”,事实上只是这样做的人们平均活得更长了,而作为个体的“你”只是增加了活得更长的可能性。

比率和风险

避免比率的混淆。《华盛顿邮报》 曾有一篇报道以“飞机事故率创 13 年新高”为题,而其实它和其它很多文章一样误用了“率”这个字,整篇报道围绕着事故数量和死亡人数作文章,完全没有提及“率”的概念。事后他们不得不发表勘误,证实事故率——每十万次飞行中发生事故数量的比率,“多少分之多少”——实际上在逐年下降。(如果当初报道标题是“飞机事故创 13 年新高”的话就没有问题了。但是对比这个例子和许多其它情况,我认为比率能更客观的反映事实。)

小心风险数字。有人引用每吨危险物质释放到空气中致死的人数,或者每一万个暴露在该物质中的人里死亡的人数,也有人引用每年死亡的人数,或者十年内的死亡总数。有很多选择可以让事情看起来更好或更糟。确保自己全面客观地理解了整件事。

当你遇到相对风险或绝对风险时,要注意它们的区别。相对风险度量了染病风险的增加程度。举例来讲,某研究指出暴露在某种化学物(比如说某种假想的紫色药剂)中的人罹患某种癌症的几率是其他人的两倍,则相对风险为 2。

但从影响面来说,比起罕见疾病的大幅风险增长,常见疾病的风险增长更加重要,哪怕只是微小的增长。绝对风险即考虑到这一点,它计算“每年每几千人中某事件的数量”。相对风险对于发现潜在的威胁非常重要,而绝对风险则对于公共卫生和临床治疗更有意义。

谨慎的看待群集现象。当你听说邻近的社区或城镇中癌症患病率极高时,这也许有待更多的研究,但别恐慌。在我们的国家里有如此多的社区,总有些地方的癌症病例(或先天缺陷或别的什么原因)比正常数量要多。这就是所谓的小概率事件原理。

让正确的人承担责任。有人会质疑:“他们怎么知道这玩意儿无害呢?”抱歉,科学不能举反证。谁主张有害,谁就有举证的义务。

民意调查中潜藏的危险

民意调查不仅仅关乎政治,它可以帮助我们知道人们做(以及不做)什么来保持身体健康;知道公众是否支持花更多预算进行太空探索,等等。但要让结果可信,调查方法必须科学。

受访人群必须是从我们的目标人群(例如中西部的登记选民,或二十岁以下的烟民)中随机抽样而得的。要注意的是:脱口秀节目经常通过电话采访调查民意,但只有该节目的观众会打热线进来,而且只有那些有强烈意见要表达的观众才会打电话,因此样本并不是随机的,不能算是一个科学的调查。

受调查的人越多,抽样误差的影响就越小。例如,统计误差可能是“正负三个百分点”,意思是如果进行二十次调查,有十九次(即统计显著水平)的结果会落在本次结果正负三个百分点的范围内——前提是除了抽样外其它程序也都正确。

调查的问题也需要精心设计,消除一切可能的误导和诱导因素。你需要问设计者:你是怎么提问被访者的?这次调查是谁赞助的?

需要注意的是,民意调查只能反映人们在特定时间对问题的判断,而这种判断可能会因时而变。

总结一下,报道民意调查和科学研究的底线是:观察数字,记着数字越大越好;不断问自己有没有其他方法可以解释研究或民意调查的结果;考虑所有可能的有意无意的偏差;记着不确定事物的确定性原则;

发表评论

填写昵称和邮箱即可发表评论(邮箱不会公开)

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

分享按钮