白白色小明看看首页蚂蚁邦2015年三月汇实录:让你的数据会讲故事
我们通过什么方式呢?我们通过的方式就是,我们引入了大量的互动的特性。首先第一个特性,拖拽重计算,这个图描述的是浏览器的占比,大家可以看到传统的饼状图我们可能看到的就是一些数据怎么分布,比如这个图我们想知道它的占比是多少,我可能打开一个计算器再加一下。在ECharts我们可以很简单的拖拽一下,这两个就合并在一块了,这是拖拽重计算。
其实刚才我们介绍了有很多图表,其实真正使用的时候可以根据你实际的需求,我们可以把这样的一些图表,按照你这种需求去做这种混搭。
给大家介绍几个工具,跟数据可视化有关的工具。这里头首先要说就是ECharts,这常好用的可视化工具,非常方便,我们是它最早的用户之一,因为它刚刚做我们就拿来做数据新闻了,我们一直都有合作和沟通,非常好做的工具。还有一个基础的工具是什么,我想大家都认得出来,Excel,常非常好用的工具,我们绝大部分用Excel的人用不到1/3,因为功能太强大了,不管你做什么Excel都必须精通,它可以帮助你做数据的筛选、分析等等。还有Tableau,是美国的可视化工具,它的功能比ECharts要强,但是更笨重一些,因为里头还有对数据库的接口,还有一些数据分析的功能,不仅仅是画图。ECharts是在画图上非常强的工具,Tableau例如说你把一些数据直接往里一填,就可以做成非常丰富的图表了。所以这三个是值得我们了解的工具。
我们还是回到刚刚的图,这个图大家看特别的复杂,眼花缭乱的,我们提供的一种东西就是图例开关,很简单,左边有这样的图例,你点掉哪个就消失,再点就打开。
乔宇:感谢祖明,我就不拿给我准备好的串词了,因为我刚才在准备PPT里面看到一页,应该算是ECharts的客户名单、合作伙伴名单,正好有新浪新闻LOGO出现,因为下一环就是新浪新闻的同事还有小朋友一起来出现,为什么叫小朋友?确实年轻,我在新浪是一个老人了,我在新浪有差不多10年了,非常有幸我了新浪新闻在追求快速、追求准确、追求客观上的能力,这些年新浪新闻实际上也在数据新闻做了很多探索,现在有请我的同事新浪新闻主编卢旭宁同学上台来给大家分享一些。
卢旭宁 新浪新闻主编
第三个,叫可视化分析。什么算可视化分析呢?还是大家很熟的,K线图,把每天的股票交易数据变成一根曲线,体现它的最高价、最低价、成交量等等,这是一个K线图,一个有经验的股民一看就能猜出来明天会涨还是会跌,这就是可视化分析。所以数据可视化这种东西听起来好像没有什么听过,实际上我们每天都接触无处不在。如果我们把可视化和新闻结合在一起就成了数据新闻。数据新闻我们又有两种表现形式,一种是信息图,信息图其实这个我们看了很多了,我们经常在网上看到说一张图告诉你什么什么,这种东西最典型的信息图了,信息图至少有100多年的历史,包括以前的报刊上大量有信息图,包括我们小时候上学,这个教科书里头也有大量的信息图。另外一块是我今天重点要讲的,就是这个互动图表,互动图表是用代码在网页上呈现数据新闻或者各种数据可视化的内容,这个我们成为互动图表。
右边的是漏斗图,传统的漏斗图是外面的这一层,加上比较浅的颜色,传统的漏斗图有一个问题就是说,可以很形象的表现从上游到下游数据的关系,但是没有办法很准确地表达出是真实的一个数据是怎么样变化的,所以我们这里面做了一个创新就是,我们用了两层的,最外层我们还是用形象的方式,但是里层我们通过这种实际数据是多少我们就做出多少这么一个方式,来真实的表达数据。
这个混搭非常有意思,这不是我们自己做的,是我们的一个用户做的,他做完这个图以后我们觉得很有意思,我们从来没想到我们这种饼图可以这么用,我们也给它起了一个名字虫洞,就是一个很科幻的东西。
我们做这个项目一共就做了半天的时间,一共就那么两三个人分享出去,也没怎么做推广,第一天有3千的访问量,第二天有5千的访问量,第三天突然就变成了30万的访问量,第四天就变成50万的访问量,就爆炸了,这一个星期下来总的访问量是150万,所以我就觉得这个非常有意思。这个是我们6月份做的,后来也有更多的人就发现了这个规律,所以后来各种朋友圈游戏你就发现很多了,像神经猫,就各种刷屏。也有人就尝试说,用游戏的方式去推一些东西。
大家看到了,按照2014年的预算,中央92个部门它的整个三公消费的金额是多少呢?大概61个亿,这个数字非常非常准确,因为所有的数字我们都是从网站上抄下来的,并且所有数据的精度是跟一模一样的,这个是数据库。我想关心哪块呢?我把鼠标挪上去都可以看得出来,哪个部门花了多少钱,可以每一年的去看,他是属于哪一类的,底下我们分了好多类的部门,都有很大的分类。一直以来,国家税务总局都常大的部门,因为他是负责挣钱的部门。
现在是我们做的用可视化交互工具,就是刚才祖明老师讲的ECharts这个工具做的交互化数据,比如说还是反腐的问题,这些官员他们落马究竟是在哪儿,他们当时落马的时候职位是什么东西,比如他们分布在、政协,他们在哪个省是最多的、哪个省是最少的,这都是可读性比较强又有意思的东西。
刘叶 新华网数据新闻部首席前端工程师
另外一个是中国新阵容,是2013年的时候推的东西,2013年正好面临我们换届。大家知道国家官员常多的,中央官员更是很多,有很多部委大家可能都数不过来,但是如何能让网友轻轻松松的了解这个情况,从习总、李总开始,一直到最底层的比如说副部长之类的官员,把他呈现出来,我们采用了这种交互可视化的模式,呈现的效果还是很好的。其实中国我们在国内做这种时政报道,可能很多传统的同事也知道,你做了一个很好的报道,紧接着就是急电下来了把你搞掉或者删掉或者IP屏掉。但是我们做的是另外一个情况,我们做的这个东西,监管部门是很高兴的,觉得这是我们做时政新闻应该有的方式,这也是挺奇妙的东西。
除了这个以外,他还促进了我们的新闻工作流程的变化,我们后来改了一个规矩,就是说你做重大报道的时候,这个报道组里头必须有程序员参加,程序员在里头起两个作用,第一个,他会跟你一起去制作数据新闻,第二个,特可以给你提供一些技术上的指导,能帮助你提升效率,这些都是我们做这个报道所获得的收获,这是大概一年半以前的事,之后我们不断的在这里头获得各种好处。
另外我们也提到了,刚刚展示过了力导向图复杂关系的呈现。这个力导向图我们和百度的另外一个互联网数据库做了合作,做了百度人物的知识图谱这么一个产品,比如大家在百度搜《小时代》,搜比较火的明星郭敬明之类的,会出现这样一个关系图,里面就是把比如《小时代》里所有的演员之间的关系呈现出来。
乔宇:各位新朋友、老朋友,今天有很多熟悉的面孔在这里,欢迎来到蚂蚁邦三月汇的传媒沙龙,我是乔宇。老朋友我就不多介绍了,新朋友我说一下,我现在是新浪市场与战略合作部的总监,很多朋友在私下里戏称我为乔帮主我不知道为什么,有可能跟大侠有关系?我身为一帮之主深感压力,我觉得应该做点事以感谢大家的支持。
举个例子,比如我现在点周滨这个,周滨是他的小儿子,周涵是他的大儿子,黄婉是周滨的妻子。这边4个有紫色线连过去代表什么呢?这4个人都是代表他出面捣腾生意的人,我们称为白手套。周滨名下其实他直接能看出关系的只有两个,一个叫兴鼎电力,一个是中旭阳光能源,中旭阳光光能下面有两个,一个是子公司,还有一个是中国石油加油站的项目,这是的线,说明这个项目不是他的,他从这里头挣钱。这个项目是谁的呢?我们点一下这边看一下,我们可以看一下,这个项目是中石油的,中石油当时蒋洁敏是董事长,他从这个项目里面挣钱。这家公司的股东还包括黄渝生、还有周敏利。
下一个就是我们的PC端交互可视化。这个PC端交互可视化我们也是从2013年初的时候开始做,我觉得大型报道也是一个不可或缺的重要报道手段,比如我们普通页面就通过手写JS和页面填充完成的交互可视化产品,可视化交互就是用刚才祖明讲的ECharts来做。
这个是当天晚上我们的记者潜入到现场拍下来的照片,可以看到包括说半圆形的楼是哪个呢?就是这个楼,都可以对照着看。
所以这样的话,我就把整个大面给它体现出来了。但是还会有人说,但是你这样不行,这样眼睛很花,根本看不清楚,我该怎么办呢?我们这里头就要涉及到互动了。涉及到互动的操作,你看第一个,我把鼠标放在任何一个人的名字,你们看右上角,就会出现他的照片、名字,还有他的文字报道等等,会出现在右上角。第二个,我关心谁,我就点一下他的名字,那么我就只把跟他有关的事情突出出来,而其他的东西我可以暂时就忽略掉。
(播放短片)
这个项目是去年我们做的一个比较成功的项目,最后这个项目也拿了不少,我们拿到美国去参,SND,摄影师协会我们在那儿拿到了优秀,在腾讯那边拿了一个年度数据新闻,在网易那边拿了一个年度多报道,其他的一些项其实现在还没公布。这个是我们去年做的一个比较满意的作品,是关于的这个。
乔宇:刚刚在黄总的可视化实验室里头转了一圈,我也深受震撼,在朋友圈里分享了两组图,分享完了我看点赞和评论的,每一组图大概有30多个,一瞬间就出来了,所以大家对这块东西还是蛮感兴趣的。
这是林峰同学在我们ECharts女生过生日的时候,拿图说做了一个比较程序员范儿的贺卡,说你越来越有钱、越来越漂亮。
第二个,内容挖掘的问题,如何挖掘、从哪里挖掘,我觉得我们现在的那个挖掘的视野可能还不够宽,还比较窄。举个例子来讲,像这两天那个飞机失逝,纽约时报他们做的新闻,按他去展示这个的时候,他就直接找了他们的地形图,再加上那个飞行轨迹,给组了一个可视化新闻出来。我觉得像纽约时报这种做法,说实话它数量跟产量、跟质量都是有的,都确实比较高,确实是我们学习的对象。举个例子来讲,这个做法我没有想到,或者我有想到来不及做。
这个互动图表其实还有一个展示的途径,一个在电脑上展示,一个手机上展示,我先给大家演示说我们怎么在电脑上展示这个东西。
可视化还有很多其他的应用,例如说什么呢?给大家举个例子,这个东西是去年12月31日晚上上海的外滩。我们都知道,那天晚上的上海外滩发生了一个,有很多人不幸遇难。这个图展示的是什么?这个图展示的是那天晚上这个地方的人口密度,这个称为什么?这个称为密度图,前面这张是另外一个时间点的人口密度,我们看这个东西就可以很容易的理解说,都不用解释,就能本能的感觉到黑的地方人不多,越亮的地方人越多,黄的、红的表示人口密度更高,如果说里头还有一块红的发黑的,那表示人口最密集的地方。这个地方是“陈毅广场”,你看这个地方人口密度是不是最高?事故最后就发生在这个地方。这个数据从哪儿来的?这个数据是从运营商来的,我们每个人我们每天带的手机,运营商知道你这部手机在任何一个,误差不超过几米。所以其实运营商有最详细的数据,知道所有人分布在哪里。
接下来我会跟大家分享一些资源,大家可以看一下,其实做数据可视化也会有很多的案例了,我给大家看一下这些的案例,大家可以试一下,这个是我那天随便在网上找的图,大家可以试试,看看这种东西里头什么地方做得好、什么地方做得不好,或者就找什么地方做得不好,这面没有什么做得好的。
第一本《用幻灯片全世界》,有的人会讲说,你明明讲的是可视化,为什么扯到幻灯片上去了,PPT就是一个最常见的可视化作品。什么样是烂的PPT,就是把Word文档直接往上贴,好的PPT是给一个提纲帮助理解。
这边我所讲的数据,数据不仅仅是只有数字才是数据,地理信息、文字、音频、视频等等,这些都是数据。所以我们就把这些数据抽出来,抽出来以后我们做成了这么一个作品,它怎么看呢?第一部分是人,展示人跟人之间的关系,第二部分,第二排跟第三排是公司,展示公司之间的关系,第一跟第二排之间展示的是人跟公司之间的关系,我们用这样的方式把这种东西楚。
所以我们现在比较注意的一点就是说,我们积极从外部去挖掘一些数据源,例如说分享了一个像NASA,有一个数据是全球的地面地貌图,每16天更新一遍,放在服务器免费使用的,这个其实很多人不知道。这种如果我们要做新闻时候,知道这些数据都可以调出来用的,我觉得我们对这种东西还不够熟,如果更熟的话,例如我们都没有跑去国图,你们已经跑到国图了。例如像现在国外很多大学,像哈佛,很多学校他们图书馆大量的在线数据,我们也还没有挖掘出来,所以可以用。
最后我们都编辑好以后我们可以把它做分享,你是要公开的,还是私密的,公开的话就可以是有很多方式,比如说第一个,我们是给你一个链接,你通过这个链接直接发给别人,别人就可以看到你做的这个可视化。然后你可以向,比如大家做某个网站,里希望把这个图表嵌入到自己网站,可以通过这种代码的形式嵌入进去,也可以根据我们的方式更新到微博、朋友圈或者什么地方。你也可以是这种私密的,我们像网盘一样提供一个码,别人有了这个码之后才能看。
当然我为什么这边一直强调说数据新闻呢?大家现在有些时候会把H5的东西跟数据新闻混在一起,说实话做H5,H5是HTML5的简称,不难,很简单,现在会做的人少,大家觉得挺稀奇的,物以稀为贵,但是过几年就没有什么稀奇了,满街都是了,这个时候就得比创意、比设计,跟网页设计其实没有什么区别。我们只要把住数据可视化这一块,我知道怎么用最准确的形式去表现这个数据,怎么能帮助你迅速的理解数据,和你怎么帮助你把枯燥的数据传递出去,这是我们把握这件事情的核心,所以我们也是这么做的。
下一个项目,这个项目叫做“星空彩绘诺贝尔”,这个项目是我们把这100年来的诺贝尔获者的数据变成一个彩色的图形,一个很漂亮的图案,让大家看的比较舒服。我们怎么来设计这个东西呢?我们先看最外面这圈是年份,再往里头,从东往西是这些获的国家。国家的名称旁边有一道杠杠,这条杠杠就是国家获人的总数。再往里头这一圈,标的是人的分布,获人的分布,年龄,每个年龄段从里到外是分了几个年龄段,颜色代表他获的种类,这有图例,这个也代表获种类。这个圆圈大小代表获人数的多少,这是一个统计图。然后他还可以自动播放,我们点一下自动播放,我们就可以看到他一年一年的往前走,展示每一年的获者名单,我们可以看到很详细的获者名单,包括是男、是女,分布在什么国家,是什么项等等。其实我们可以看到就是说,在一战以前基本上获的人都集中在欧洲的,尤其是英、法、德这几个国家,我们可以看的非常明白。
这是我们跟百度人气合作的一个案例,大家可以访问,亮的越多的地方使用的定位越多,我们看广东、、上海这三个地方是使用人群最大的。
第二方面,我觉得数据新闻和数据可视化也是我们进行内容生产的一个方式。说实话,我们可能做的家都知道,对于门户网站来讲,国家的管制是比较严格的,就是说不能原创,但是如何在这方面寻找自己内容生产的渠道呢,数字化新闻就是一个可供选择最好的渠道之一了。因为我们很多内容其实存在于数据当中的,刚才黄志敏老师也说了,很多数据是零散的,没有经过整理的,如果我们把这些数据整理出来,用一个大家能接受的方式给它呈现出来,这就是一个非常好的内容,我下面会接着继续讲这个问题。
接下来我们要讲数据新闻这一块。数据新闻它有一个大概的基本概念我希望跟大家分享。第一个,可视化,可以分为三块,第一块,科学可视化;第二块,信息可视化;第三块,可视化分析。实际上这些东西我们都特别常见,虽然说这个名词和陌生,但是我跟你们一讲就知道了,什么是科学可视化像这个地图就是科学可视化,到医院拍CT也是科学可视化,他在地理领域、医疗领域应用是比较多的。什么是信息可视化呢?信息可视化背后这个地方有块牌子,亮的牌子写着安全出口,一看都知道了,这就叫信息可视化。厕所门口那块牌子也叫信息可视化,包括太多了,数不完了,这都是信息可视化,所以这个信息可视化也常常见的东西。
国家反腐战役,这是2014年推出的东西,当时反腐也形成一定的阵势了,落马的官员非常多。
这是地图跟饼图的混搭。
所以我们现在一个原则叫移动优先,就是说当项目我尽可能的话是电脑也做一个、手机上也做一个,但是如果我顾不过来的话怎么办,我电脑宁可不做了,手机是一定要做的,这是我们所谓叫移动优先的原则。
这里头唯一一个,后面有一个过人,应该没有事情。现场工作人员里头唯一一个幸存的可能是这个挖掘机里头的驾驶员,因为后来据记者采访他说,他就说,他当时的感觉,是感觉突然间轰的一声,感觉自己像坐在井底一样。为什么像坐在井底呢?觉得四周围都是黑的,只也有一块是光亮的,就是坐在井底的感觉,因为都是黑烟嘛,他突然间摔下来,觉得自己还没有死,赶紧撒腿就跑,躲过一劫。但是听说这个人后来也被关起来了,因为他们要事故责任,所以这个事情貌似到现在也没有一个最后的处理结果。
这个项目,做数据新闻有一个特点,跟原来的新闻不一样,它是的,每年都可以往里补数据,一年一年往里补就完了,三公消费也是类似的情况,随时可以往里补,一直都有用。这个项目我们是参加了英国的叫做“信息之美——信息可视化设计大赛”,是入围了,没有拿到,但是我们入围了,我们去参加这种国际比赛的目的是说,要去跟世界最强的团体去比赛、去竞争,然后来逼着我们去提升自己。
再给大家分享一下资源,这个是我建的一个群,是财新数据可视化分享的群,这个群里头有300多人,基本上有几种人。第一种,主要是业界跟数据新闻有关的,有很多的人。第二种,就是学校的老师,主要以教新闻、教可视化的老师为主。第三种,相关专业的学生。300多人,现在自己加不进去了,只能找里面的人加进去。这个群的特点,大家在里头做一些案例的分享、资源的分享,还有一些业务的讨论等等。
我们为什么要在数据新闻里引入度的概念,这样我想先阐述一下我的观点,首先说新闻本身它就是的,如果我们把它想象成一个多面体,它本身具有非常丰富的多面性,这个多面性的组合和关系就区别于新闻事件和另外一个事件的特点,同时受周围的影响,同时这个新闻事件发生之后又会对周围的产生反作用力,所以我们说新闻本身就是的。
我就想引入之前我看的一个非常好的叫“Embrace Complexity”这个文章提到的,我们不要回避复杂。
我想现场做个小调查,咱们现场多少人见过这个作品? 大概有一小半见过这个小作品,简单说这个作品叫“的人与财”,主要在这个案子里里头涉及到的很多的人和很多公司的这些关系。在这里头我们可以看到就是说,我分为三部分,我为什么要做这个东西呢,因为当时是7月29日那天受贿调查,这是晚上6点的事情,半小时以后6点半的时候我们就发布了一个6万字的调查报告,叫“的红与黑”,半个小时以后访问量涨了10倍,整个带宽就全部挤满了。那天晚上大概11点多的时候,我们发布了“的人与财”这样的新闻,引起了非常大的关注。
大家都知道,包括刚才黄老师也提了百度祖明先生他们做的ECharts这个产品,我就不班门弄斧了,因为我看了一下,来之前我准备了一下搜了一下ECharts这个产品,虽然我是学理工科的,但是研究起来我觉得还是有点难度,我就不班门弄斧了,下面有请百度复合搜索部前端团队经理祖明为我们带来分享。
我今天的分享就这么多。谢谢大家!
基本上像我们这两年做的比较多的是反腐题材,基本上是这么做的,可能一有一个公布出来,晚上6点纪委说抓谁了,基本上几分钟之内我们就会发一个快讯发到微博上,说谁谁被逮了,10分钟之内我们会有一篇新闻出来,这篇新闻除了快讯里头的简单内容以外,我们会补上被抓的这个人的简历。我们会补上去,并且如果说我们对这个人被抓的原因有一些可能的推测的话,那么我们在这个新闻里面基本上会跟着一个大概1千字以内的网稿。可能再过几个小时,在当天之内我们会有一篇详细的发出来,来楚他的一些相关的事情和可能牵扯到这里头的一些背景资料,可能会有几千字的。之后如果说这个人还得再深挖的话,我们会有一个大几千字、上万件的调查,后续会发出来,那个时候有可能发在网站上,也有可能是发在上,或者说都发,我们基本上是这么一个流程。所以我们现在基本上就是,其实完全是一个新的做法,并且我们追求说,手机上比电脑上还要再快一些,这都是我们现在做的。当然之所以说我们能够按照这样的速度去做事情,也在于说我们平时的积累,平时像这些官员的数据库、人物数据库其实我们都是准备的很齐备的,所以很多这么去做。所以这是我们财新传媒现在大概的一个情况。
关于这个,也是我们去年,应该是去年在诞辰110周年的时候做的一个东西。这个人是很特别的一个人,谈中国的当代史,谈80年代之后的历史,一直到现在,已经是绕不过去的。在中国,谈所谓的进一步深化,都绕不过这个人,但是怎么呈现这个人物背后的一些东西呢,谈他的生平大家都知道,他是怎么怎么着,连篇累牍的在解读这个东西,没什么意思。他背后的生涯是怎么样的,他的情况是怎么样的,他背后有几起几浮的情况究竟用什么方式呈现出来,我们发现一个特别好的呈现形式就是说,他在上出现的次数。我们发现从1949年到2014年,他在上出现的次数是有规律可循的,而这些都折射出中国整个生态的变化,比如说我们在1966年到70年代的时候,我们会发现在上出现的次数会急剧减少,到最后干脆不提了。到1975年的时候这个人又出现,就是折射出当时的状态。
今天的沙龙主题是“如何让你的数据会讲故事”,那些看似高冷的数据新闻到底怎么玩,再过一会儿几位潜伏已久的业界大牛就会浮出水面,和亲们分享解读数据运营和思,看看如何让数据自己会说话、自己讲故事。
ECharts其实在百度里面基本上所有的产品线都覆盖了,包括大家可能接触的比较多的,像迁徙,像百度统计这样的产品,其实ECharts我们觉得最成功的地方是在于说有很多的朋友在使用,比如说有很多很多的我们想象不到的,其实我们并没有做用户统计,都是突然间有一天我们看到有阿里或者腾讯邮件的询问就过来,我们才知道这个公司在使用我们的产品。
给大家介绍三个网站。第一个是我们的网站,我们的所有作品,其实我们做的作品这两年我们得做了一两个作品,都放在“数字说”这个网站,大家可以上去看。另外一个网站,是我们实验室的网站,实验室的网站其实更多的是放这种资源,例如说我们对可视化项目是怎么设计的,设计思是什么,还有其他或者其他别的包括国外的一些成功案例,案例分享,还有一些工具,还有数据库等等,我们都会放在,还有很多学习资源。第三个,“数据新闻网”,是几个年轻人,他们都是又对新闻感兴趣,又对设计或者说对代码感兴趣的人,有的在美国留学,有的在,有的在欧洲,他们一起做了这么一个公益性的网站,有非常多的跟数据新闻有关的资讯跟资料的分享,大家有兴趣可以看。
ECharts除了刚才所谈到的各种交互特性以外,其实ECharts还有和其他竞品特别大的区别,就是我们大数据的能力。我们知道因为像浏览器的这种性能所限,像传统的图表,包括目前可视化领域最牛的,他们都是用这样的方式去实现的,他们可能在使用数据的时候有能力,一般4万个数据的时候就扛不住了,但是ECharts是用另外的数据,这是ECharts和其他竞品相比脱颖而出的特性。
现在我们看一下现场照片,看事故现场照片其实这个事情不新奇,但关键在于说你用这种方式去看的时候,你对现场有一个很直观的认识和了解,例如说我们看到这个楼被炸的破破烂烂底下都成这样了,本来是什么样子呢?就是这个楼,本来挺好的一个楼,现在被炸成这个样子,所以这个我们就可以有非常非常直观的感受。
如果说我们在做产品的过程中把更多的考虑进去的话,举个例子像我们做摇车号那种,做的时候已经考虑进去如果它能的比较广,我们就觉得比较划算。其实我也看到你们有在做这方面的工作,我认为大家都下意识的会做这种事情。但是没办法吧,成本这件事情可能真的是没有什么太好的事情,但是我现在用的方式就是说,我会控制总的成本。举个例子来说,像我们实验室大概10个人左右,但是专门做这个事情的,专门投在数据新闻里头的,应该来讲就是4个人,其他人还会兼顾干别的。所以基本上我的成本封顶算得出来的,就这么多,我只是从内部去挖掘它的产量,我觉得这是第一个。
我们可以看一下这张照片,这张照片是唯一一张不是我们拍的照片,是在事故发生前3个小时拍的一个照片,他们就在这里修补,拍照片的人拍完照片以后他们离开这个工地,其他的还继续工作,后来照片里的人差不多全部都遇难了,所以这是他们最后一张照片。
想说数据可视化其实有三门基本功课,说白了很简单,HTML5、CSS3、JS。
这个看看问题在哪儿?有人说百分比应该用饼状图。这个不一定,这种东西用柱形图是可以的。有人说看着乱,这是一个总体感觉嘛,问题在哪儿。您说到颜色,为什么一个红、一个黑呢?通常你区分两个颜色就一定要说明说,红的是一种含义,黑的是一种含义,但是你发现红的和黑的就没有任何含义,就为了所谓的好看把它隔开。还有数据相加不是百分之百,这个我还没有加过,这就是大问题了。
给大家推荐几本书,这几本书不是说好书只有这几本,而是这几本书我都看过,并且我认为说它即使零基础的人都可以看,非常有用。
刚才还说到的变迁,我们可以看到比如在70年代之前或者干脆80年代之前很少讲到这个事,但是到80年代之后发现这个事突然热起来了,说明我们国家的整个生态发生了很大的变化。
这个作品在两天之内获得了20万的访问量,大家也都知道,其实这是一个商业作品,你如果说作为广告你要想获得20万的点击的话,差不多按一个点击10块钱的话,你得花200万,他做的投入显然小的多得多,对阿里来讲也常划算的。所以后来我们还帮,除了一直帮阿里做,也帮别的客户做了类似的项目。还有企业,因为他们想做年报,他们就找我们,因为他们觉得说我们做这块是比较擅长的。
理论上来讲,基本上这种东西很少不能做,但是更容易出现的情况是什么,开发成本太高,可能时间上来不及或者不划算等等。这种情况底下怎么办呢?这种情况底下咱们改设计呗,调的怎么样更好做一些,就是一个互动的过程。等到这个方案确定了,反过来有可能就是说回去得去要求这个记者说你去补充更多的数据和资料,他有可能是得这么做,所以本身是一个互动的互推的过程。这三个合作以后,他最后出来一个数据可视化的一个作品,接下来给大家做一个具体案例的介绍。
在我们ECharts刚推出的时候很多人问我们,市面上已经有很多的图表库,包括全球最流行的,当然也有华人做的一些,为什么你们还做这个东西呢?我们做ECharts其实最大的动力是说,我们想做不一样的东西,业界所有的图表库大家可以发现在Web看到的图表,大家看到的图表都是很单一的,把一些数据用我们传统的柱状图、饼状图表现出来,可能我一个鼠标点上去一个文字,仅此而已,这是大部分图表做的事情。其实我们想大数据时代这种不仅是呈现,而是通过可视化的方式让大家更多去解读数据、阅读数据的方式,所以我们定位说,我们要让可视化成为辅助人们进行视觉化思考。
图说这个产品其实上一段时间了,我们可以看一些案例,这是线上的,比如说这个是新浪新闻曾经有图说做过的一个专题,他这里面就用到了我们的像陀螺一样的图,也用到了这种堆积的折线图,这样就不用你写代码,你只需要在图说里面做好图表嵌入到自己的页面就行了。
我们就从时间、年龄、省份、通报单位、原因和单位类别、人物关系的维度,全面梳理了从2013年1月至2014年,全国厅局级以上落马的官员,当时数据量很大,但是现在数据量更大,你通过看这一个表,整个当时的情况就能得到一个比较感官的认识。
我们同时还支持在一个图里面我们去做这种度堆积,比如这是一个访问来源,我们可以把搜索引擎的,比如说这个紫色搜索引擎这块,然后我们把一些其他的广告类的,营销带来的,但是这里面又可以细分成是邮件还是联盟广告、还是视频广告,通过这样的方式能够把数据信息展现的更加直观一些。
这是2013年的一个作品,也就是说我们的实验室成立后不久就做了这个作品,大概介绍一下背景,2013年的10月23日、22日,那天早上10点多,在青岛那边发生了一次管道爆炸,它的起因是什么呢?它的起因是这样的,就是说这个输油管道从居民区的底下穿过,发生漏油了,漏油以后这个油漏到了污水管道里面,变成了油气混合物,遇到了明火,爆炸了,导致了62人死亡。
推荐几个公号,分享一些跟可视化数据有关的内容,第一个是我们实验室的公号,第二个是全球深度报道网,是港大的公号,第三个大数据新闻,是武汉大学的公号,复旦新是复旦大学的公号,下面是腾讯ISUX和IXDC。
这也是百度迁徙的例子,我们用到值域漫游的东西,我们通过调值域贡献,只是看到一些我们想聚焦的区域。
我们还看到说周滨往这边还有一点线,我们看一下兴鼎电力,兴鼎电力是周滨卖出来的卖给汉龙集团,汉龙集团是刘汉的。汉龙集团底下有一个叫做四川阿坝州九鼎山的旅游项目,这个旅游项目是什么情况呢?它是一家叫四川超越的公司卖给它的,这个四川超越公司是谁的?是黄婉的,周滨妻子的,通过这个我们就反反复复的把细节梳理清楚。
乔宇:谢谢旭宁,谢谢黄老师。
大家看比例,哪个部门,你看我把最多几个部门突出出来,什么部门在用车比例最高,例如国家事物管理局,利用率最高,因为主要负责领导用车的。出国哪个部门最高呢,商务部、国家体育总局。接待,哪个部门比例最高,宋庆龄基金会、对外友好协会,如果你在这里上班的话可能每天就得忙着请客吃饭,我认为这个其实也是工作范围嘛,你从名字看就是干这个的。但是你如果不做平均的话,你光看总量不见得准确,我们再看平均,每辆车花了多少喊,还是事务管理局,花的钱最高,这个可以理解。还有看人均的情况,人均出国的费用最高的居然是国家局,我也很了解,我就去了解,他们说把2012年有些钱漏了就挪到了2013年去了,造成2013年特别高,比别人高几倍,这也算一个原因,万事都有因。当我们做这些事情的时候我们不会预设一个结论,他应该是什么样的,我们会看事实,然后我们才知道到底是什么,而且不同的人能够从这些数据里面看到不同的东西。
我们先介绍一下财新传媒,我来自财新传媒。财新传媒是一个公司,包括了财新网还有4本,我们现在说财新网,当然除了PC上的网站以外还有手机上的网站、还有APP、还有公号、还有微信账号等等,这些我们会通过不同的渠道去发布东西。之后我们是有4本,《财新周刊》、《中国》、《比较》,还有一本英文刊。有些人对我们稍微了解一点,又不太了解的话,会以为我们这时一个传统公司,但实际上是这样的,最早这个团队确实是做传统的,实际上我们已经在新的上走了很久了,现在我们每天80%都是原创内容,可以说我们网站上所有的内容都是原创的,其中80%的内容都是发表在网站,只有20%的内容是发布在平媒。
第二个特性是数据视图。我们在做很多图表的时候,大家在网页上看到很多图表的时候,其实我们看到的是这样一些表格,其实对于前端工程师来说,我们在看这个表格的时候拿到的是所有的数据,有的用户看到这个图表的时候可能希望把这个图表背后的数据到自己的Excel或者怎么样再去加工,传统的图表没有这种能力,但是ECharts提供了数据视图的能力,我们可以把数据展示出来,就可以把数据拷下去自己用。
这个是今年我们的时候做的一个KPI,KPI这个词可能在互联网公司很经常用,我们讲了一下李克强的KPI,其实这个话题是很难讲的,比如事实上考察李克强只能由全国负责,但是我们从普通的角度也可以给李克强去年的工作打一个分,从这个角度出发做了一个他的KPI,比如去年P完成的情况怎么样,比如土地污染、污染是什么情况,用这种方式呈现了一下,还是有一个简单明了的效果。
接下来有一个作品,给大家举一个例子,关于摇车号的作品,我们这个作品是去年6月份做的,当时6月份摇车号的命中率是1/137,你把它作为新闻报道其实没有什么可说的,一句话就说完了,这个事怎么办呢?我们就要把这个展示给大家。说到1/137大家就这么一点,如果我再形象一点,1/137,就意味着麻将你把麻将扔掉三张花牌,然后你摸吧,把其他的花牌看谁摸掉。还有,把这个代码放进去,让你试一下哪年哪月能摇到,大家就试了一下,1/137一年摇6遍,意味着你得摇22年,在座的各位22年摇到车号就算好运了,这才是。得让大家去体验啊,大家就去体验吧,真的去摇吧,有人很开心摇完了,我明年就中了,虽然说瞎过瘾,很高兴,他会往外分享。有的人一摇,50年都摇不中,非常的沮丧,也很高兴,也要往外分享,所以这个事就分享出去了。
除了这个我们可以看费用榜,我是把这几十个,把这90多个部门的所有数据全部给你排出来,再拿一个图形让你去看,这样你看起来会很方便,否则它就常枯燥的数据,然后我再按分类走,按照用车、出国、接待等等,然后可以看每一年,这样的话你可以非常方便的查询。这个依然是一个数据库,只不过说我是用可视化的方式来呈现这个数据。
现在国际国内都是大势所趋,相信在座的所有亲们都跟我或者我的小伙伴们一样,面临着转型的压力。我就想,我们能不能和所有朋友们一起,集合大家的力量、顺势而为、不断的尝试和不断的改变,聚小而形大,一起向着风口前进,一起去争当那只猪吧。
下一个特性叫动态类型切换。我们知道在这种可视化里面有很多很多的数据图表,柱状图、折线图、饼状图,不同的图表类型其实它对数据的表达是不一样的,比如折线图表达的是一种趋势,柱状图表达的是一种对比。我们有的时候,特别是做可视化设计的时候会很头疼的一件事情,我有一块数据,我到底用什么形式来表达呢?有的时候我特别想表达一种趋势,但我觉得这里面也有对比的关系,那怎么办呢?可能我们要画两个图,但是我们的这个界面是有限的,装不下两个图,所以ECharts可以做到的一点就是动态类型切换。我虽然只有一份图,我可以做的事情是,这里我们可以把它切换成折线图,从刚才的柱状图看到的可能是周一到周日,可能周一我们能够知道它的异向会多一些,慢慢变化,但这个趋势当你用折线图的时候会更加的清晰。同时我们还可以做一件事情是说,堆集,我们可以切换成堆集的图,能够看到它所有的变化趋势。这是第一种。
这种做有什么好处呢?他还有一个,其实好多人真的也没有那么多的耐心去把整个都看完,但是当他看到这么一个图的时候很惊讶,原来这个案子是这样的,其实就已经达到非常好的效果。
这本书《最简单的图形与最复杂的信息》,它的作者是华尔街日报的图表设计总监,华尔街日报是在,因为他一直都在做财经,所以他在图表这方面是积累了非常多的经验,也常的准确,这里头会告诉你,很多事情应该怎么做。
还有一个拖拽重计算很厉害,比如说刚才志敏也提到“双十一”这个东西,这可能就是某家“双十一”的数据报告,11月的,因为有“双十一”在,所以我很难看到,除了“双十一”这一天其他时候的数据表现。这个时候如果你用ECharts做的话,你可以很方便的把“双十一”这天的数据拖出来,就可以看到其他天的趋势了,这是我们的第一个特性,拖拽重计算。
我刚才给大家演示了4个PC上的作品,接下来我们来给大家介绍其他的。接下来我要讲在手机上呈现数据新闻,它跟在PC上的数据新闻是有一些区别的,就是说,第一,我们要看理由,为什么我们要在手机上去做数据新闻?因为第一,它受众广。这个很好理解,现在大家都把钱花在手机上了。第二个,是易。因为在电脑上做这个东西很麻烦,你必须把它分享出去,你只能通过邮件、微信之类的方式,但是你如果在手机朋友圈一分享就出去了,所以起来就很方便,这个非常非常重要。
主题:让你的数据会讲故事
刘叶:大家好!我是新华网的刘叶,首先要感谢在我前面的三位老师给我们介绍的精彩的观点和经验。今天我想给大家分享的是新华网在做数据新闻的时候我们经常遵循的一个原则和我们在这方面的一个思考,就是度的数据视角下的新闻的表现。
但是移动公司只有移动手机的分布,电信只有电信手机的分布,而联通也只有联通手机的分布。如果说我们的部门,由部门来出面,从那三个运营商的手里把这些数据都归拢到手里,实时的话,其实它能够起到非常大的作用,就是说它可以知道随时什么地方人最多,如果早知道的话这个是可以避免的,就不会发生了。所以这个是一个可视化的案例,同时这也是个大数据的案例。为什么呢?这里头这张看起来不复杂的图,它其实里头包含了几万个人的坐标,那么我们也都知道,如果我把几万个人的坐标,我们把它打成一张表格打印出来,其实我们什么都看不懂,我不知道任何规律,但是我把它变成这么一个热力图的方式以后,是个人都能看懂说哪里的人多、哪里的人少,所以这个数据可视化是大数据分析里头的一个很重要的手段,这也是为什么今天大数据跟数据可视化会被混在一起的原因,大数据跟数据可视化根本不是一回事,不要把它混在一起讲。大数据讲的是我们怎么用大量的巨量的数据怎么去搜集利用和分析它,而可视化是其中的一个分析方式,和数据挖掘方式是怎么去展现这些数据,所以它是两回事,这个我们可以分清楚。
互动图表跟信息图最大的区别是什么呢?信息图有两种人就可以完成,一个文案、一个设计就可以完成,但是如果是互动图表的话,它还缺一种人,写代码的人,程序员,这个是最大的区别,他需要去完成。互动图表它的发展其实是最近这四五年的事情,09年大概这个点开始,为什么呢?为什么这些年才能这样发展呢?几个原因,一个,因为这个万亿它得借助于网络,所以以前比如说网速不够快,什么都不太好办,这是第一个。第二个,因为它里头需要用到很多绘图什么之类的功能,这个必须是要HTML5才会支持的比较好,有的HTML4就可以。原来计算机运算能力也比较差,所以很多东西画不出来,这几年技术比较成熟,网速也快了,这个东西就可以画出来了,所以这也就是为什么这个互动图表这几年会发展比较快的原因,也引起了很多的关注,这是互动图表,所以这是一个基本的概念。
首先我们新浪新闻目前在做的数据可视化的一些东西是这么一种情况,40%是所谓静态的信息图,大家目前可以看到我们的图解天下,是我们的一个品牌栏目,当然我们图解天下从2014年开始也推出了一个自己的系列人物,叫小明,但是现在我们用了小明之后就发现各大都开始用小明了,我觉得小明太累了,30%是PC交互,30%是移动交互,就是我们针对移动端的产品。
黄志敏:我简单说一下,我是这么看这几个问题。第一个,成本。成本确实是,做可视化的东西成本会稍微高一些,我觉得这个没办法,但是成本高一点,如果你处理得好,当然回报也会高一些,就是引起关注度会大一些,但是确实有平衡的问题,就是说我们也做了很多作品,但是我确实也不是说每个作品都会引起很多关注。有的作品我们可能自己预期也很好,接下来也会失望,所以我觉得这个好像也没有什么特别好的办法。而且这个东西怎么说呢,其实可视化它是解决了一个展现的问题,其实还有一个问题是的问题。
这也是一个力导向图的例子。
我们就以比如“中的”看信息制作过程。首先前期是一个编辑参与的过程,我们要设定主题,我们究竟要做什么,为什么要做这个,设定角度,就是这个人我们能怎么去做,下一步就是编辑去做数据挖掘,其实这个我们还属于比较原始的状态,其实就是编辑可能去国图,国图是一个非常好的宝藏,其实好多编辑可能都忘了挖掘这块了,但是它常好的东西,里面有特别全的数据,基本上你无论查什么,不管是图书、或者是其他的,只要建国之后有的东西它都会有,当然建国之前的它也有。把数据整理出来,设计师进行可视化加工,这个优点是以编辑参与为主,易操作,编辑主导性会比较强,他的选题、判断力都会发挥的比较好。缺点就是太简单了,这种东西确实比较简单,我们也在思考这个问题,呈现形式上确实比较单一。
嘉宾:
这个看有什么问题?反了吧,一眼看出来了。还有呢?这个到底说的是什么数不知道,阅读量是什么阅读量,讨论量是什么,粉丝是谁的粉丝,都没有吧,数据来源是从哪儿来的,也没有吧。反正我还没学会做,但我学会看,我就看那些图我知道什么是烂图。
这个是ECharts,其实在介绍ECharts可能大家更多的是了解ECharts有什么样的能力,真正让各位去用ECharts是不现实的,可能你们也需要在公司内部像黄总一样可能建立一个这样的实验室或者这样一个流程,也有前端工程师去做。但是这是一个问题,不能说什么东西都指着程序员,特别是前端程序员可能如果没有招聘过不了解,招一个前端工程师是特别困难的事情,我去年招了,我面试面了160多个人,最后只招了3个人,这个市场常困难的事情。
还有一个图表,这份数据是财新网报道的一个数据,是美国包括一些中东国家他们的一些关系,这个图,从理解上可能有人不太容易理解,它表述的比如说,我看沙特,我可以看到沙特跟一些国家他们有什么样的关系。通过这个图,我们可以慢慢的去了解谁跟谁的关系,其实同样一份数据我们可以换一种解读,我们可以看到在这个关系网里面,谁可能在这个关系网里面它更复杂,跟更多的国家有一些关系。这是动态类型切换,同样的数据用不同的类型来呈现。
这个是我们图说的程序员给他爸爸自己做的一个血小板的变化情况记录,也可以用来记录自己家人的一些东西,这个就是图说,就是希望用图说和ECharts分别给会写程序的人以及不会写程序的人都带来做可视化的能力和工具。
不仅仅这样,如果我看到这个图表的时候,我会假设,比如说这个地方利润、支出、收入,如果这个数据在画图的时候写错了怎么办,可以在数据视图里点,把这个地方做一个修改,刷新,我们可以看到,你可以在图表中做的数据马上被调整。
刚才简单介绍了一下我们新浪新闻做的尝试,下面也讲几个困惑的问题,其实也是给黄志敏老师提个问。其实我们讲数据可视化这块的东西,说一个非常实际的问题就是成本,包括人力和时间上,我觉得这个东西它跟普通人,跟我们原来意义上讲编辑做一个东西,编辑可能需要几分钟就完成了,但是这个花费成本多,比如它需要用设计师,需要前端,需要编辑也要参加,人力和实际成本是一个问题。另外,内容如何挖掘,如何挖掘、从哪儿挖掘这些我们可以做的角度、可以做的点。第三,复用性。现在发现我们做一个东西,可能的情况下只针对这个特定的事件有效,但是如何复制到另外一个事件上,如何复制到另外一个报道上,这是一个问题。第四,工具。这个问题不用讲了,大家都说了一些应用的数据可视化的工具。主要是前三个问题,请黄老师给简单解答一下。
我们在去年也发布了一个2.0的时间我们增加的时间轴,并且是支持这样的动画的一个效果。时间轴其实也可以跟不同的一些图表去百搭,比如像这里我们用了人均P这么一个地图,各个省份的人均P是时间轴在一起,我们就可以看到一些东西,比如说我们通过值域漫游,我们只显示把我们要看的数据聚焦在这个区域,我们播放时间轴,我们可以看到的中国所谓拖频的轨迹。先从沿海地区,慢慢的往里面。
大家可以试试看,就像大家都会写影评一样,我不会看,但是我会写。大家看这里面,不知道什么是热词,这个是和相关的,还有呢?每张图上可以找到很多问题,Y轴很奇怪,这些数我理解应该标在边上的,Y轴的指标单位也没有,这个随便能找出几个毛病来。
先讲一下度是什么,我想引入两个在艺术表现上的概念来向大家介绍度。首先是我们可能现在在新闻表现上有一个经常用的,就是说我们在新闻事件里头最具特点的一个切面,从这个入口来表现新闻。这个是我觉得像埃及的方法,因为我们看埃及的壁画,这个人常扭曲的,她的眼是正面的,脸是侧面的,肩膀是正面的,但是两臂和双腿都是侧面的。因为埃及人觉得,通过这样的组合能更加表面他们心目确的世界的这样一个看法。
之前林峰做ECharts的时候特别给大家的动力就是说,他知道他要的ECharts做成什么样子,他发现用户用ECharts的时候,用出来的场景远远超出他的想象,用户的创意常牛逼的,所以说我也希望大家在用ECharts的时候,不用局限在我们所提供的那些图表,你可以发挥你自己的想象力,去做你需要的可视化的一些案例。
所以说除了ECharts我们还做了另外一个东西,叫图说,不知道有多少人听说过这个东西,还是有一点,非常少。为什么要做图说呢?其实我们是基于这么一个分析,就是很多人都有这种数据的分享,今天到场的各位可能大部分是的朋友,所以说大家的基本上是在那个部分,就是我们有很多公开的这种数据,然后我们要做这种分享,可能在我们公司内部我们会经常接触到这样的用户,比如说我们有个部门叫销售监察部,他们要做的事情要给老大汇报每个月公司的一些销售监察的数据,他们不会写代码,但是他们又不希望用PPT、Excel的形式,他们找到我们怎么办。后来我们图说做了以后他们是我们最的用户之一,他们每次用图说做了发给老大。
我觉得是我们发现的一个比较好的数据库,尤其是做新闻来讲,新闻我们在中国空间很大,当然我们财新网的老师是很厉害的,关于或者是很多新闻挖掘都是很厉害的,我们一般的大众是达不到这种情况的,一方面是没有人给你料,第二方面,你也是拿不到这些料,这造成了就是说,你要做新闻你有很大的来源不足的问题,但是能给我们补充好多这个东西,它是一个特别大的数据库。比如说从1948年、1947年刚刚建立时候一直到现在,每天的数据都有,我们都可以查到,每天发了多少篇文章,文章里面是什么内容,通过一个整体形成非常好的解读中国的图表。
我们想创作这样的新闻作品一定要遵循两个原则,一个是它的准确性,就是我们想尽量准确的,这也是我们官媒一向的立场,一定要准确的而且全面的来阐述这个新闻事件。另外就是说,我们希望能够使读者,不光是更轻松的获得这个新闻的信息,而且能让他们获得更深入的知识,这样无论是从刚才我讲的正确性方面,还是说在深方面,来说度的数据新闻我们觉得都是必要的。
我们在去年也根据用户的反馈支持了一些这种商业BI用到的图表,左边是一个汽车上的仪表盘这么一个东西,一开始我们没想到为什么会有这样的需求,后来我们发现就是可视化的一个案例,就是说同样85%,如果你只是用了数据或者用一个什么柱状图,人们感觉不到这种急迫感,但是当你用仪表盘的时候,当你到85%,就像踩油门上的比较猛的时候,会有心跳得感觉,就是可视化的力量。
黄志敏:大家好!这星期不知道为什么分享比较多,这是我这星期分享第六场,今天早上还有另外一场,不知道为什么。我就把我这边的一些经验之类的跟大家分享一下,有经验、有教训、有收获,跟大家分享一下,希望对大家有帮助。
希腊式,希腊时代的时候通过短缩法,人们终于可以通过立体的方式来展界,可以通过各种视角来观察,就像我们观察真实世界一样,我们可以引申出一个观点说,在数据新闻表现力,我们可以把不同视角的数据、不同维度的数据有选择的组合起来说明不同的新闻事件或者不同的新闻问题。
我们先看第一排,这几十个人我把它分成几组,刘汉不好分组,放在外面,这是的两个儿子,包括的妻子等等,周家。第二个是石油气被调查的官员。第三个这部分是俞刚和谈红,还有的秘书。还有四川调查了很多人,还有一部分。我把它分开了,用红色的线条表示之间的关系,这里有红色的线条,红色的线条表示说他们之间是直系亲属,我把直系亲属连起来。紫色的线条表示什么呢?谁是谁的下属。白点出发的方向,白点往那个方向走,就说明他是他的下属。第三个情况是秘书,六根橙色的线表示周永的秘书,我用点跟线就把他们之间的关系表现出来了。
这是一个人员组成的情况。我们是2013年的6月份开始介入这个领域,然后我们开始学习请人来讲课等等,然后到10月份的时候,我们成立了我们的数据可视化实验室。这个实验室分布在不同的部门,它有三种人组成,记者、编辑,还有设计师,还有程序员,由这三种人组成,这三种人分布在不同的部门,我们这个实验室是一个虚拟的实验室。大家跨部门工作,然后根据不同的需要把他组合在一起。记者、编辑负责这个文字的处理和数据的搜集,设计师来设计这个内容,程序员来写代码。实际上这里头还有一个角色,我们要把它标出来,是由这些人轮流担当的,就是它还必须有一个类似产品经理的角色,去决定说这个产品最后会做成什么样子。
时间:2015年3月27日(下午)
我们可以看一下下一个案例,下一个案例其实这个不是一个新闻,这是一个商业作品,是我们帮阿里那边做的一个可视化作品,简单来讲,它当时去年“双十一”业绩非常不错,他们提前就知道很不错了,所以就提前找我们说,你们到时候帮我们做一个,把这些数据传去,我说好啊,我们就帮你们做吧。所以我们就帮他做了一个,我把它录成了视频可以给大家看一下。
我们也做了一些,除了传统刚刚提到的图表,我们做了一些吸引眼球的,首先第一个就是,百度迁徙,相信大家都看到过,去年和今年央视都有报道,这就是我们基于ECharts做的一个在地图上做的比较炫的一些效果。
祖明:大家好!我其实做过很多分享,但是关于ECharts的分享还是第一次做。为什么呢?因为之前所有ECharts的分享都是由我们ECharts的创造者林峰,大家可能对他熟悉一些,因为他前段时间追求梦想去创业了。ECharts团队当然我们会继续做下去,今天志敏也跟我交流,接下来ECharts怎么办,我们会加大力度,会招更多的工程师加大我们产品的迭代速度,也请大家放心,ECharts会继续的免费开源给大家提供更好的服务。
基于这个想法和大家的努力,我们的蚂蚁邦终于在2015年的春天诞生了,这是一个专注于传媒创新和传媒人创业的一个平台。从今天起我们将在蚂蚁邦这个平台和大伙分享各种前瞻性的、有价值的行业知识和信息,互通最有利的行业资源,针对传媒业的创新项目和传媒人,我相信在座的小伙伴们一定有的这种创业项目,我们逐步会提供展示平台和指导服务。
当时出于两个考虑,第一,让网友更容易、更方便、更可靠的接触到信息,因为说实话,时政新闻,我们现在说反腐新闻,甚至哪怕一些新闻,是很枯燥无聊的,大家谁会每天去看看比如说习总干了点什么、李总干了点什么,大家对这些信息接受起来是很困难的。还有一些数据,比如P,比如说投资。我在2008年第一次听到4万亿这个数字的时候,我当时反应半天,我说4万亿是一个什么数,我到今天才反应过来。但是我觉得如果有一个很简单的图示或者一个图解能告诉大家,4万亿比如说相当于某一个国家的几倍的P,比如相当于英国的几倍、美国的几倍,我们就能很明显的了解到4万亿投资是多么巨大的规模,这是让信息更通畅的流动、让网友更容易接受。
我们看到这有5个APP,这5个APP都是我们自己开发的,我们现在有30多个人的研发团队,分为几个部门,一个移动部,一个网站部,一个创意部,创意部主要做设计,还有一个叫数据可视化实验室,这个实验室是一伙今天我要重点分享的内容,这些APP也都是我们自己开发的。
第三个复用性的问题,我们尽可能的,我相信你们也会这么干,你做一个事情尽可能的变成一个模块,像我们做青岛的项目,我们也把它模块化,后来是在好几个类似项目里头,地震什么的,我们都反复用,我认为这件事情复用性大家都会尽量去做。但总的来讲你要做成可视化,成本比文字肯定会稍微高一些。
接下来我们整个2015年我们对可视化这块的投入力度会加大,也希望,永远我们毕竟是程序员,加上百度,它其实不是一个行业,它是做互联网的,做搜索的,做技术的,也希望更多的听到大家的需求,大家希望在可视化领域得到满足的话可以联系我们,我也加入那个群里了,大家可以加我微信,也可以关注我们ECharts的官微,也可以直接发邮件,然后联系到我们,谢谢大家!
我们快速的跳到一战以后,到30年代以后,因为随着欧洲那边的局势变得紧张,越来越多的获者出现在美国,我们可以看到美国的这根线变得突出了,这是一个非常非常明显的迹象在这里。1939年二战爆发,我们可以看到1940年到1942年这三年是没有做评选的。到二战以后我们发现一个新的现象,整个科技的中心从欧洲挪到了美国,非常明显,二战以后美国的获者非常非常多,同时也有一些第三世界国家的,包括亚洲、南美等等一些国家,都开始有人获。所以从这个我们就可以看到整个获者分布的情况,这其实也是一种数据挖掘,就找出这里头的获者的规律。
所以这个项目里面看这么一个页面,这里头包含了大概3万字的信息量,非常丰富的信息量都包含在这么一个页面里头。我们做这个项目的时候,还有一点就是说,我们做这个项目,如果我只放在财新网,我财新网的访问量没那么高,所以我做这个没有那么多人会看到,这种情况怎么办呢?我拿来跟门户网站合作,就包括说像跟新浪合作,包括跟网易合作,把这个项目拿来跟大家合作。合作的话怎么办,因为原来这个文字合作就不太好办,我把稿子授权给你,大家就不来我们这儿看了,我给你高价你又不愿意给,这个不好谈。这个比较好谈的是什么?我把这个代码给到门户网站上,用户看这个东西的时候他是在门户网站上看的,所以他在消耗了大量的时间,后来我看了数据,用户在门户网站上平均每个人在这个项目上消耗半个小时看这个东西。但是我也先说清楚,这是有我的推广资源的,这有我的LOGO,文字介绍前面也有我网站的名字,还有我的域名,这个是我的回报。
我需要跟大家分享的东西就这么多,这里头是我的联系方式,大家扫一下是可以把我的联系方式存下来。如果大家有问题的话可以跟我微信联系,加我微信的同学就麻烦说把你们的全名还有你们的工作单位都写到里头,这样我才能方便标注。
我们再看下一个作品,做数据新闻其实有些时候不一定是一个需要讲故事的东西,我们看一下这个作品叫“三公消费”,三公消费是我们经常在提的事情,但是三公到底是哪三公,三公消费金额到底多大,其实我们很多人不是很了解,包括现在控制的到底好还是不好。
接下来我们进入沙龙的第二个环节,叫“百家争鸣”环节我们希望通过这个环节,引入百家之言,以及更多有代表性的创新型的传媒产品。
下一个就是移动的交互,从2014年下半年开始,基本上各个门户也开始推出了以HTML5为交互的可视化产品,其中有相当一部分是数据类。大家比如从地图上,从柱状图上,从整体的情况,了解一下我们国家的钱到底去了哪儿,投资到底在哪个国家。
我们也可以支持这种实时的展现数据变化,如果你是要展现一种,它会实时变化,比如你网站实时PV的变化或者一些股票的实时变化,我们可以支持这样实时的图。
这本书叫《图解力》,这本书是一个日本人写的,因为他是做了几十年的信息图,一个老头,从画地图那时候开始,他们当时都是没有电脑,是直接用手绘的,他会告诉你说怎么样准确的用图形去表现你要展示的内容,这都常好的书,都非常好看。
他们有什么区别?第一,显示面积不一样。决定有些项目没法在手机上做,例如这个项目在手机上做不上去。还有,操作方式不一样。咱们在电脑上我可以用鼠标做非常精准的操作,但是如果是在手机上只能是用手指头这么去点,所以没办法点的特别精细,但是它也有不一样的就是说,它除了单击,可能还可以双击,然后可以放大、缩小,可以滑动,甚至可以摇动,操作方式就有很大不一样,所以产品设计时就要求必须不一样了。另外,它接口也不一样,在手机上我们除了这个操作接口以外我们还可以调动什么?我可以记录你的,用GPS记录你的,我可以录你的声音,我可以拍照片、拍视频等等,很多接口不太一样,所以能做的事情也不一样,这都决定了我们产品的设计需要完全不同。
图解新闻这个栏目我们是从2012年底开始创立,到现在更新了200多期,是主要的可视化形式,其实这个图解也算是在门户网站当中做的比较早的一批,之前也尝试很多形式,比如我们做的数读,的,中国的小伙伴是友邦还是敌人,这些东西,比如说官员,我们每天都可以看到比如今天有一个官员了,明天又报出来一个,这些都了,当我们把这些数据整合起来发现,比如在各个省、各个年龄段、各个时间段都是有一个比较好的呈现形式,大家都比较了解现在比如说官员他的一种生活状态、他的一种状态是什么。
从这儿到这儿,谁持有哪家公司的股份,我用线把它连起来,一看一目了然。这边有一根蓝色的线,还有白点,表示这个是他的子公司。这边这么一连,底下是的子公司,关系就全部楚了。这里面有一个的线条,的有两种情况,这个是别人的项目他从这里头挣钱,另外一个,这里边是他的公司卖掉了,我都用来表示,说明他只有利益的归属,而没有占有的关系、没有所有权的关系。你看这两排,这100多家公司里头,所有的这些蓝色的都是周家直接或者间接持有的公司和获利的项目,蓝色的全部都是,而白色的是什么呢?白色的是在这里头有一些相关交易的。
我们来举一个例子,我们每个人都在用手机,我们手机上有多少东西是可视化的呢?假设我现在打开一个APP,我们看一下,手机信号这是可视化的,WIFI的信号是可视化的,这个电量是可视化的,这个图本身也都是可视化的。例如说我们在生活中不会觉得说一条,如果畅通就都是绿色,堵塞就都是红色,不是这种感觉,但是我们看地图看多了以后我们自然而然就获得了这个概念,说我要前面走这条是绿的,那就说明它的很通畅的。实际上这里头还有很多别的,例如说它的运营商的标志灯等,这些其实都是信息可视化。所以我们还是这么说,就是说可视化这种东西无处不在的。
我今天主要讲两块,一块是我们的尝试,我会把以前我们做的东西跟大家汇报一下,接着讲我们目前做这些东西面临的一些困惑。
接下来是值域漫游。值域漫游什么意思呢?其实我一操作大家就懂了,我现在鼠标在左边,有这么一个条,我把它拖一下,我还可以反复拖,其实这个交互很简单,通过这样的交互大家可以去解读数据里背后的一些东西。这个就是大家比较常见的,就是像这种数据区域的收放,比如这个时间连线可以变短、变长,这个大家见的比较多一些。还有像多图联动,我可以把K线图和其他的数据放在同一张图里,通过他们彼此之间的关系去挖掘数据背后的一些事情。
地点:言几又咖啡厅
我们线下的沙龙,至少每月有一次;每天我们有微信群里的内容分享和互动讨论;每年我们还有至少一场的大型峰会。现在我就想朋友们一起来做一件事,看看你手中的邀请函或者是台上的这个大屏幕,动动手指微信扫码加入我们这个群,叫“蚂蚁邦-创新训练营”,入群后创新创业方面您有任何需求、想法和,欢迎在这个群里面发言,我们的管理员曹兢和小花将为大家提供服务。这就是我们群的两个管理员。当然作为帮主我最最希望看到的情况是,帮内的朋友们可以互为知己,亲密的像一家人一样,蚂蚁邦就是大伙的家,在这个家里您可以尽情的发言、拍砖、秀实力,让我们有品的任性吧。今天的沙龙就是让各位亲们,让最愉悦的心情体验最有价值的分享。
下面进入本期沙龙的第一个环节“真知灼见”,首先登场的这位大牛他有着17年的互联网和移动互联网的工作经验,17年,一会儿可以问问多大岁数了,他带领的10个人组成的财新数据可视化实验室团队,至今已发表作品50多件。像“参与摇号小游戏”这样的产品,仅仅用半天时间就制作完成,在朋友圈一星期内获得150万次访问。目前他正致力于用大数据和可视化推动新闻业的发展。接下来有请财新传媒CTO、数据新闻与可视化实验室创始人黄志敏。
它的三种人怎么去合作呢?过去在里头,设计师跟程序员都处于新闻生产下游,稿子做成什么样是由编辑、记者决定的,记者写一遍,编辑把它编出来,已经成为了,再由美编设计师配图,再由技术人员发布出去,这是一个上下游的关系。所以在新闻的生产里头,其实这个设计师也好、这个程序员也好,其实他的参与感非常低,或者说最后这个新闻就算引起了很大的轰动、甚至获,都会觉得这个事其实跟他没有太大的关系,是这种状况的。但是自从我们做了数据新闻,这个情况就变了,因为数据新闻本身的特点决定什么,需要这三种一开始大家就一起做深度的合作。
其实我在大概两个礼拜前接到这个邀请时候准备了很久的PPT,但是后来觉得再怎么准备其实没有我们之前林峰同学做的这份PPT的内容最完善。
这页其实讲的是刚才黄总也介绍了一些工具,比如说Excel,像ECharts这样的东西,其实使用场景是不一样的,我们可能在图表支持上更多一些,这两个是完全不同的领域,一个是在本地的文案做,一个是在Web上做,我们可能更实际的比较,跟我们现在业界最流行的商业图表库Highcharts比较,他们有的图表我们都有。最核心的能力,在于我们的拖拽重计算、数据视图包括大数据能力,最重要的一点我们是免费的,Highcharts是商业是付费的。
我今天讲的标题就是“和数据可视化不得不说的那些事”,讲讲我们新浪新闻目前在数据可视化方面做的一些工作,刚才像祖明老师他们也引用了一些我们做的东西,黄志敏老师也讲了财新网的东西,我们新浪新闻为什么做数据可视化这块的东西。
这个是我们做的几个PC端交互可视化的一个产品,像解读薄式江湖,我们现在印象中可能只有,当时出来的时候可能是从2011年,2011年、2012年、2013年是最引人关注的案子,他引人关注不亚于现在这个案子,而且人物关系、戏剧性,还有整个我可以用四个字来形容“波澜壮阔”,比如说一个耳光、一个茶杯、一个、一个官员的多马,他跟王立军的关系、跟薄谷开来的关系等等。
我们大概的流程是这样的。首先我们会定一个选题,大家一起商量一个选题,说值得不值得做,有没有新闻价值。之后我们会看说,如果这个选题值得做还有一点,看它有没有足够的数据来做,没有数据没得可做。如果选题定了,数据没有问题,我们就大家坐在一块商量说,我们用什么形式去表现这个新闻比较好。这个商量的事情商量得差不多了,这个设计师就会去画出一个图形、一个造型之类的来展示这个,这个时候他画完以后就得问这个程序员说,这个能不能做,或者说这个开发成本有多高。
很多人用可视化数据写一些故事、写一些新闻,或者他想向老板汇报图表数据,想用更高效的方式,因为他不会写代码,也不想用Excel,他也想做一些可视化的数据,他想做这样的东西,但是像ECharts这样的图表背后是什么东西呢?比如大家我看到都很头晕,每次收到ECharts的问题邮件我头都很大,我们做“零编程的数据可视化实现+便捷的分享平台”。
这个我们是不是一个晚上做出来呢?显然不是,这个我们做了大概三个月的时间,为什么做这个东西,为什么做成这个样子?我给大家解释一下。因为我当时就在想就是说,一个6万字的调查报道,一个是,很少有人耐心的看完。从我们的统计数据就可以看得出来说,越往后的章节看的人越少,这很正常,我们希望有更好的形式去展示。第二个,这个报道里头有大量的关于人物之间的关系,还有公司之间的股权关系,还有人跟公司之间的持股关系,等等很多很复杂的关系。这种东西说白了对我们来讲,就包含了大量的数据。
图说大家如果注册以后能看到界面,域名很简单,就是tushuo.baidu.com,这就是我之前做的案例,操作什么样的,很简单,比如我现在要创建一个折线图,我们这里有很多图表,折线、柱状、饼图,点了以后就到这么一个界面,一个图表就出来了,我现在想编辑数据,可以直接导入Excel,我可以随便改数据,我也可以调整很多参数,这也是我们需要优化的地方,这里面太多的东西,名词比较技术,大家可能在理解上得一边试一遍才能知道什么东西。比如我们可以去设置一下,比如说Y轴的,比如现在是下,我们可以把它放到去,就跑到去了,也可以设置很多文本的颜色,比如说现在是黑色,我们把它设置变成红色,应该改成那个颜色。还有包括图例、工具等等,说实话,我觉得目前这个产品的应用性不是太好,但是相对于写代码来说要好很多。当然我们也可以继续插入一些图表,我们甚至可以添加一些文字,你可以是标题、还是正文等等方式。
三公消费控制的到底好还是不好,我们从这些数据就可以看出来,这5年下来三公消费压缩还是不少的,至少中央这一级,用车这块、招待这块基本上压到了1/3,出国涨了一点点,我们应该看到,这里头工作其实还是做了很多,也是有效果的。这是一个“三公消费龙虎榜”这么一个项目。
这就是一个混搭的例子,把这个饼图、折线图、柱状图放在一张图里面。把这种饼图放在散点图可以去描述,假设这是什么人群分布,比如在不同的X轴、Y轴上有个人群,人群里面可能还可以分男女或者其他的数据。
ECharts这个产品是我们从2012年的8月份开始做,立项,怀胎9个月,在2013年的6月份发布了1.0,然后在2014年的6月份,去年6月份发布了2.0。在发布2.0以后,ECharts这个发展速度非常迅速,我们在全球的开源社区关注度持续的攀升,大概在2012年的第三季度、第四季度的时候,我们当时又超过了全球其实是最流行的一个图表的关注度,我们到去年2014年的11月份我们发布了国际版、海外版,发布之后我们的用户数直接就超过了五六千。
现在我其实还没有去过青岛,但是我对这个地形实际上熟的非常要命,非常清楚什么情况,闭着眼睛都会走,这个是我们当时做的新闻报道这种情况。做这个新闻我们花了多长时间呢?我们花了大概一天的时间,里头有半天在写代码,又有半天时间上传数据、上传图片,还有做一些数据的修正之类的,用一天时间把它发布出去了。
黄志敏 财新传媒CTO
我用数据可视化可以展示大数据,我也可以展示小数据,我后面给大家分析的这些案例基本上都属于小数据,不是大数据。
当时做这个报道的时候,我们是有一个30多人的报道组在做这个事情,这30多人的报道组,有3个在青岛,大部分人在,还有人在上海、有在广州,我们怎么协作呢?就靠微信群,大家就在微信群里头协作,微信群是一个非常好的效率工具,我们做到什么样呢?除了做正常信息沟通以外,我们做到说,我们的记者在前面赶,他用语音把他要写的事情说了传回来,我们后方的人赶紧就把他敲成文字,再编辑审查以后上网,这样我们基本这个事情在10分钟之内就能报出来了,就能报出现场的情况。包括像我们的记者在前面赶,跟我们说你到了哪里,我说你不用说,你扔一个给我们就可以,然后我们就可以给他指。这个不仅是新闻展示用的,还是一个工具,非常好用的工具。
这是一个国外的数据,就是国外用户的手机他的APP的安装率。这个图相当于是环形图和饼状图,描述的就是有多少用户装了这样的APP,当然这个图你也能看到这种趋势,比如说谷歌地图装的比较多,其他的装的比较少。我们用可视化的方式可以换一种形式的话,可以看到是更明显的一个变化。
这底下的文字报道,最后全部都是移到,还是在连回我财新网,这样我也获得了回报。后来我测算了一下,这部分的点击率,就是他的大概能达到1/5。我觉得挺好,这个回报还是蛮高的,所以基本上是,我们是用这样一个方式达到了双赢,就是很多人也看到了这个项目,然后门户网站也获得了好处,我们也获得了好处,当然我们自己的网站也有自己的访问量。所以这样的网站我们统计下来,大概一周多的时间有400万的访问量,并且获得了很大的一个关注。当时微博有人转发这个,结果微博被转发了5万次,被评论了4千多条,而且评论非常好。
在国外他们还有这么一种说法,因为这种东西没有一个绝对的定义,国外他们有的,例如说英国卫报。为什么我订英国卫报呢?就是说数据新闻这块国外谁最领先,纽约时报、英国卫报还有美国的公共MPR,等等这些是比较领先的。例如说卫报,他们认为说这个只要是从数据里头挖掘出来的新闻,就算写成文字报道那也叫数据新闻,它有这样一个定义。如果按这种定义的话,以前像那种说,我看财报,然后挖人要做假账,这种事你也可以说是数据新闻,这是他们的定义,而我的定义是这样的,我认为这个必须用可视化的手段展示出来才叫数据新闻。
你们看一下,这个17.74,这个8.76,你们有没有发现它高度有点问题,正常它大致应该是它的一半,现在显然不是嘛,这种都常低级的错误,因为低级的错误会导致你产生错误的理解。包括在这种图里头箭头是不需要的,没必要用箭头的,如果为了好看,甚至这个轴都可以不画的,如果我要好看,这个应该宽一点,它的间距应该是这个柱子宽度的一半。后面这种好不好看的东西,见仁见智,有的东西硬伤是不能犯的,犯了这个东西做的就不对,会导致你,或者你产生错觉,这是一个的案例。
祖明 百度复合搜索部前端团队经理
我们再看下一个,这个图有什么问题呢?有人说没有排序,看起来这边好像排序了。这些东西里头,百分比到底是什么意思?是这个省份发议论的人数占全国的百分比呢,还是说这个省份发议论的人数占他们省的人口的百分比,没人看得出来吧。如果说我们讲的是山东占全国的8.16%的话,那种意思其实我们可能该用一个饼图会比较好理解,但如果我们讲的是山东有8.16%的人关注,而有13.26%,如果这样的话我们用一个柱形图会比较准确。这样的话其实你是没有办解的,最后还莫名其妙弄了这么一个东西,又没有关系,最后还导致了摆了遍。我们做数据可视化,一张图拿出来所有的符号、颜色、数字、大小等等都必须是有含义的,任何一个东西没有含义都不行。
做这个项目给我们带来了几个非常好的收获?第一个,这个报道,连同其他相关的报道,帮助我们网站当天是创下了财新网访问量的高点跟历史纪录。第二个好处,这个报道我们在去年获得了亚洲新闻,就是这个作品。并且我们的程序员因此获得了新闻,这个在中国新闻史上我认为是第一次,因为以前拿新闻都是记者的事,最多就是摄影师的事,从来没有程序员拿过新闻,我们这是第一次,第一次有程序员可以拿新闻,是一个没有受过任何新闻教育和培训的程序员拿到的。
卢旭宁:大家好!也谢谢刚才黄老师、祖明老师的分享,也谢谢刚刚乔宇的介绍。她叫我小朋友,但是面相看她很明显要比我小很多。
我们的记者当天赶到了现场,并且拍回来大量的现场照片,我们就把这些照片放到了Google地图上,做到了这则新闻报道。前面我会把这个新闻从大到下,让大家了解山东在中国的哪个,青岛又在哪个,最后爆炸点又在青岛市的哪个。我们可以切到卫星图,我们可以看到说,这个红色地方大致就是爆炸的中心点,底下这一片都是居民区,而这块密密麻麻白色的东西都是油罐子。所以我们直接就能看出来就是说,你想当地有多不安全,那些人就生活在火药桶边上,这根蓝色的就是输油管道。这个地方其实1989年的时候就已经发生过一次大火。的就是被掀开的污水管道。我们现在能看到一些红色的小球,标了一些数字,就表示我们在这个地方拍了一些新闻照片,并且拍了多少张。
说到官媒,大家习惯认为,官媒有很多资源、有很多优势,内容都OK,都很好,但是可能会意识到,官媒在数据呈现上、内容呈现上,比我们这样子的门户网站或者财经这样的后起之秀差一些。最近半年我们看到了一个比较有特色的官媒,那就是新华网,他们实际上在数据新闻做了很多的探索和努力,据说他们做的数据新闻的条数应该有上千条还是数千条我忘记了,量还是蛮大的,下面有请新华网的刘叶上台为我们大家分享。