第8期科学报道工作坊:别让数字吓到你2.0(下)

工作坊第8期网络海报

上接 第八期:别让数字吓到你2.0(上)

道听“图”说

讲者:李舰

本 小节讲者李舰,中国人民大学学士(统计学),北京大学硕士(软件工程)。具有6年的数据分析从业经验,涉足的分析领域包括制药、医疗、金融、财务、互联 网、交通、能源等行业以及商业智能、文本挖掘、模拟仿真、优化决策、图形分析等应用领域。现任Mango Solutions中国区首席数据分析师,主要负责行业数据的分析建模以及分析系统的设计开发。微博:lijian001这段演讲,文字将退居二线,图片成为绝对主角。

新闻中的可视化方法

clip_image012[6]

左 上角是前段时间英国媒体分析的英国女王对衣服颜色喜好的统计,虽然没有用任何数字,但大家却可以非常直观的看出女王最喜好蓝色系的衣服,浅蓝和深蓝都深受 女王青睐。这就是数据可视化的方法之一。右上漫画反映了前段时间毒胶囊事件。右下角是把所有品牌Logo按照颜色归类,用图表展示的方式做出来一个很炫的 展现,大家可以很直观的对比各个品牌logo的色系差异。另外一个就是用一个图展现一个数据。所有的图,都是新闻可视化的方法。 新闻中的数字可视化,是基于数据的可视化图形或统计图形。

clip_image014[6]

图形的特点,就是简洁、直观。这是facebook的图,任何两个用户之间的联系,会有一个线,联系的量越多这个线就越亮,从这个图可以看出一个世界地图的轮廓。

clip_image015[6]

近 段时间大家都很关注地震的情况,比如四川大地震之后的余震,大家也会关注自己是否处于地震带。如果把所有的历史数据在新闻报道中展示出来,可能会很乱。但 看上图,这是中国地图,数据是国家地震局的数据。地震的能级用红色的来表示,红色面积越大表示震级越强。同时,软件也把地震频繁的地区(即红点密集区)自 动的统计出来,用蓝色表示。虽然只有半年的数据,但还是可以大体看出地震爆发的强度和分布。比如四川附近有一个地震带,江浙这边比较好,这一图形展现了大 量信息,而且理解起来也不困难,是很好的数据可视化的方式。

clip_image017[6]

宋 词大概有2万多首,2千多个词人,词牌名也是不胜枚举。我们有两个很关心的问题:哪些词牌被使用的频率最高?又有哪些词人的词作最为丰盛?这两个问题并不 困难,只需要对他们进行频率统计然后排序即可。可是,要想把这些数据展示出来,恐怕要耗掉无数版本。这也难不倒优秀的数据可视化分析师。比如上面的这幅 “星云”图,就很好的解答了这两个问题。在这个极坐标系中,一个大圆被许许多多的半径等角度切分为一片片的小扇形,每一个扇形代表一个词牌名,而每一位词 人则分散于半径上以一定距离间隔的一个个同心圆。这样,词人与词牌相交后就产生亮点(即某词人写过某词牌),相交的数量越多,就越亮。半径亮,就表示某个 词牌是高频词牌,很多词人都写过它;而周长亮,则表示某词人是高产词人,写过很多词牌。 像这种词、文本的信息其实也是能用统计表示出来的。此案例同样试图说明,数据并不一定是数字,还可以是文本,只要是能够在统计中应用到的或者在图形中能用 到的元素,都算数据。

clip_image019[6]

这 幅图,在统计界和新闻界都非常有名,介绍了拿坡仑远征时的过程,每个位置有一个时间和地点坐标,线的粗细程度就代表军队人数。拿坡仑一路率军到莫斯科之 后,人员锐减,在那边打完仗,回来基本就全军覆没了。每个地方,什么地方有战争,人的情况怎么样,一目了然。图虽不大,但谁都看得出拿坡仑败得多惨,是 “一图胜千言”的经典诠释。

clip_image021[6]

完 美的统计图形是不是一定适合新闻领域呢?其实不一定。上图左侧研究的是某一个区域一种野驴的身高、体重和腹围之间的关系。如果放在报纸上给读者看,读者不 会有兴趣,一点意思都没有,甚至还会说不如直接放右边的图,加一点文字。但这幅图在学统计的人看来则是美极了!该图的好处在于在驴的身高、体重和心周长度 这三个变量的任意两个中画一条线,第三个变量我们就知道了。这图虽然一般读者看得云里雾里,但对统计的人来说却很直观。所以说,有时候有些完美的统计图形 不一定适合新闻报道。

统计图形造成的误导

clip_image023[6]

当类别特别多的时候,大家喜欢用饼图。但上图是个失败的案例。甚至不如画一个表,排一个序,从头到尾读者看起来更清楚。图形的目的就是更直观、方便。如果图形比看表格更复杂,这个图形一定不好。 clip_image024[6]

做图时,用软件拉伸,就会对趋势的理解产生很大的偏差。上面右图是自改革开放以来GDP的增长情况。但左边这个图,就是一个急剧上升的曲线。这就是有意识的想夸大某些趋势。 clip_image025[6]

上图左右都是对五个元素做同样的比较。注意看这个纵坐标轴,起点是0到20,这边是10到20,这个图就是把这个图从中间截了一段,这个图就是有问题的,会让读者领会完全不同的信息。 clip_image027[6]

前 段时间有网络报道谈到中国的收费站特别多,直接上了一个图,很简单,百度地图检索收费站,结果密密麻麻全是收费站。给人感觉就是政府太坑爹了!文章中提到 很多高速公路其实早已收回成本,不该再收钱了,佐以左边的配图,非常泄愤。这篇文章说的问题没错,但图用对了吗?首先从图形上看,确实能给大家一个感觉, 到处都是收费站,但实际的情况呢?这么小一个中国地图,中国城市这么多,不管画什么东西都是密密麻麻的。同样的尺度,在百度上搜火车站,火车站是好东西, 没人嫌多,结果一对比,发现其实火车站密度更大。在密集的比例尺下,原图其实不能真实的反映出收费站在中国地图上的密集程度。在这个角度上看,如何利用数 据选图就已经不再是统计、做图的问题了,其实更多的跟平时大家写稿子自己的构思、角度是一体的。

clip_image029[6]

当 年挑战者号航天飞机失事,失事原因很多种。调查出来的结果显示一个O形环在低温的时候坏了,燃料泄露,燃烧爆炸。这是事故直接原因。但O形环之前为什么没 有人追查到?现在有人提出来,失事背后另有原因,那就是当时科学家给决策者汇报时使用的图形不直观。航天飞机发射前,科学家发现发射当天温度较低,发射失 败风险很大。但是他们是怎么跟决策者表达这一忧虑的呢?来看左图,每一个装备,O形环的状态是用五种等级表示的,每一次试验温度是有记载的,但在左侧的图 表中很不明显。实际上,事后用今天的方法画出来的,横轴表示发射时的华氏温度,纵轴是发射失败的次数,在一次温度比较低的时候,发射失败次数随温度降低而 升高这一趋势已经十分明显。当时如果用右图来直观的展现温度对航天飞机发射的影响,也许悲剧就能幸免。

优秀的图形展现案例

clip_image031[6]

上图来源于网络,针对商业应用。一般来说,数据类型大体分为四类:比较、分布、构成和联系。每一种类型都对应一些比较直观的图形展示方法,在媒体报道中,如果能试着用以上方法来展现图形,会加分不少。

联系型的图形

clip_image032[6]

散 点图适合用来展现两个变量之间的关系。比如上图,横轴代表汽车的行驶速度,纵轴是制动所需距离,直观的印象肯定是驾车速度越高,制动所需距离越长。得到这 个图所需的数据也不难,每一个点对应一个速度和汽车制动所需的距离,做几十次试验,把结果画出即可。最后得出一个往上升的趋势,然后拟合一条线,就可以看 出速度越高,制动所需距离越大。

clip_image034[6]

三 个变量之间的关系光靠散点图无法全面的展示,这时该怎么办? 上图表示的是一棵黑樱桃树,高度、横截面面积和体积之间的关系。横坐标是高度,树越高,体积越大,一般也会越粗,但图片中怎么表示树的横截面这个变量? 这时可以用气泡图,泡泡的面积就可以表示樱桃树的截面积。

分布型的图形

数据有很多类型,上面说完了联系型,下面来谈分布型数据如何展示。 clip_image036[6]

美 国一个公园有一个泉,每隔一段时间就会喷,但每次喷水的时间有多长?想研究一下规律,就可以用柱状图。我们可以统计它每一次喷发持续的时间,比如第一次3 分钟,第二次3.5分钟,后面是5分钟,记录1000次,这样做一个直方图,就可以一目了然的看清楚。横轴就是说两分钟的时候是出现了多少次,比如出现 50次,4分钟出现了80次,3分钟出现了10次。这样就可以看出时间分布的规律。

 

clip_image040[6]

两变量的分布还可以使用热图。比如上图就可以表示火山喷发的地点和频率的关系。颜色深的地方表示喷发频率较高,而且可以根据区域所在的位置看出哪些地方火山喷发较多。

比较型图形

数据之间的比较也非常常见,以下就谈谈怎么用图形来展示比较型的数据。

clip_image042[6]

这 个例子是假想的。横轴表示一个学生每天的学习时间,根据学习时间的长短我们把学习时间分为四组,第一组是是0到2小时,第二组是2到4小时,第三组是4到 6小时,第四组是6到8小时。纵轴是学生们语文、英语、数学的考试得分。 这幅图其实告诉了我们很多信息。首先,我们看出第二组和第三组同学的考分明显要比第一组和第四组高。这告诉我们学习时间适度也许能得到最好的效果,物极必 反。然后,我们再看如果花一样的时间学习,效果会有何差异。我们看出,第二组同学语文最好,英语最差,而第三组则正好相反。我们再看,随着学习时间从 2-4个小时变为4-6小时,语文和数学的成绩有所下降,而英语的成绩则有所上升。 看来,小小一幅条形图,展现的信息还真不少。如果比较项目很多,假如有7、8个类别,那么用条形图可能会很复杂。这时我们可以用更简单直观的方式来展现。 如以下的背靠背图。

clip_image044[6] 纵轴表示年龄分布,每一格代表一个类别。条形图左右边分别表示男、女的年龄分布。男、女不同的期望寿命的分布一目了然,既能看出各自的分布规律,又能看出各个年龄组的情况。 clip_image048[6]

再 看基于时间的比较。举个例子,我们想比较有工作的人和失业的人一个星期每天的情绪变化,这也可以用条形图来展现。横轴表示一周7天,星期一到星期天;纵轴 则表示人们的快乐程度,要说明的是快乐程度是不好客观衡量的,只能是一个很主观的指标。每天早上9点,被测人员在非常快乐、有点快乐或者很不爽,直接选择 一个选项来表示自己的心情好坏。橙色的是有工作的人,蓝色是失业者。如果仅仅看快乐程度跟时间的关系,就会发现失业者的心情总体来说比就业者差,波动也比 就业者低。星期五的反差尤为大,周五几乎是就业者最快乐的日子,可却是失业者最难捱的时光。总的来说,这个图直观,而且反映出来的信息挺丰富。

clip_image053[6]

南 丁格尔发明了一个图,玫瑰图,这个图很优雅,而且用的人也很多。很多人谈到统计图的鼻祖都会谈到南丁格尔。一次战争的时候她搜集了士兵死亡的数据,拿到了 一年的数据。玫瑰花瓣越大,死亡人数越多,红色是疾病而死,绿色是其他原因而死,蓝色是真正战争受到创伤而死的。随着时间的流逝,到底哪些占的比例大?可 以很清楚的知道,是感染和疾病。当时南丁格尔这幅图促使英国成立了皇家陆军卫生协会,开始把护士的重要性提升到一个很重要的高度。这幅图向决策者传达了一 个很有力的信息:战死的只是少数,太多数士兵是死于受伤后的感染和护理的缺乏。

clip_image055[6]

隆 重推荐箱线图。大家知道平均数有缺陷,也知道中位数是实用的,那在图形中要如何结合中位数的优势呢?在业界使用箱线图比较多。这是研究维生素对于天竺鼠牙 齿生长影响的图形,分为三个组,每个组对应不同的剂量。图中可以看出三个组中橙汁和维生素对天竺鼠牙齿生长的不同影响。这就局限于平均数的比较了,而是整 个分布的比较。上下两条横线划定了95%这一数值分布的范围,而箱子部分表示排序处于25%-75%之间的数值分步,中间的横线则是中位数。箱线图能让不 同数值分布之间的比较更客观,更系统。

clip_image056[6]

星 形图。大家买车时肯定会考虑到很多因素,气缸数、油耗、马力、重量、加速性能,在图中分别用不同颜色代表。每一个星形,代表一款车。如果我现在关心排量, 找黄色的图,这三个的排量都很大。这是一个克莱斯勒,这是一个林肯,这边是凯迪拉克,三款车排量都很大。看油耗,是红色,很明显这几个很有优势,一个是本 田思域,一个是丰田卡罗拉。再看排量。而且还可以简单的看出哪些车是一类的。

构成型的图形

clip_image062[6]

这 个是分割条形图。在不同区域,区域市场有大有小,市场大画大一点,市场小画小一点。时间没有大小概念,每个时间点,五种商品各自占的比例是多少,全部在一 张图上。也是比较直观的。可以看出它的大概构成。首先商品之间的构成、商品在区域之间的构成、时间上的关系,都可以看出来。

clip_image064[6]

最 后是一种更加复杂的,马赛克图。这个就是泰坦尼克号获救的情况,媒体报道过很多,泰坦尼克号的船员很伟大,把生的机会给了别人,老人、小孩优先逃生。很多 种逃法。所有都是通过媒体文字描述。如果想要真实的反映情况,怎么办?船员、性别、成年人,很多种因素在一起的时候,怎么反映?马赛克图除了能展现不同的 比例构成,还能用统计学里的列员表分析,颜色越淡,说明模拟出来的结果跟实际结果一致。不看颜色,看面积,每一个面积表示每一个群体的人数的情况。首先左 边这一块是头等舱,这个是二等舱,这个是三等舱,这个是船员。头等舱的成年人,细的线就是小孩,从纵向看就是性别,下面这一块是女性,这一块是男性,这边 是获救和死亡的。举例说明如何从该图挖掘信息。首先从性别上看,明显的一等舱女性获救的多,男性获救的比较少。再看二等舱女性获救面积、小孩获救面积。不 管是二等舱还是一等舱,小孩比例都是最高,但总数很少。因为这里很窄。三等舱女性获救比例比男性低。再到船员,女性获救的极其少,这可能是因为总数人少。 然后男性船员基本没有活下来的,非常少。总体上看,面积最大的还是头等舱,不管男女。

 

可视化的技术

本部分主要讲解了利用谷歌气泡图等工具绘制动态的图标,相信随着网络新媒体的发展。动态图将会得到越来越多的重视。附件中大家可以看几个具体案例。详细内容可以参见李舰的ppt。
 

发表评论

填写昵称和邮箱即可发表评论(邮箱不会公开)

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

分享按钮