对话:数据新闻:数据缺失怎么办

2014-08-15 00:49
中国传媒科技 2014年1期
关键词:数据源选题社交

巧妇难为无米之炊,在前面解读了数据新闻的发展方向、选题策划、可视化技术,甚至商业模式之后,回到本源问题上,数据缺失怎么办?

目前数据来源主要有五个渠道:官方数据门户、企业创建的数据平台、社交媒体平台采集的数据、时空和气象数据,以及搜索引擎。

自2009年美国数据门户网站data.gov上线以来,开放数据运动在全球范围内迅速兴起。英国,2010年创建数据开放网站data.gov.uk。2011年,巴西、印度尼西亚、墨西哥、挪威、菲律宾、南非、英国、美国等八个国家联合签署《开放数据声明》,成立开放政府合作伙伴(OGP,Open Government Partnership)。截至2014年2月10日,全球已有63个国家加入开放政府合作伙伴。国际组织欧盟、经济合作与发展组织(OECD)、联合国(UN)、世界银行(WB)也加入到了开放数据运动,建立了数据开放门户网站。

另外,很多企业尤其是互联网企业建立了自己的数据发布平台,比如国外有Google public data、DataMarket、Guardian Data Store,国内有数据堂、阿里研究院、百度指数等。但是,目前国内的数据平台仍然偏少,公开数据非常有限,数据缺失成为数据新闻发展的最大阻碍。

为此,本刊记者与沈阳、杨溟、张亚彬和任远展开对话,请他们谈一下对这一问题的见解。

就此问题,清华大学教授沈阳、新华网融媒体未来研究院院长杨溟、网易数读编辑张亚彬,以及财新网数据可视化设计师任远各抒己见。

沈阳:数据缺失是在做数据分析时非常常见的现象,大部分情况下,我们都不太可能拿到所有的数据。比如在做一个30年普法教育的选题时,需要知道互联网出现之前,人们对普法教育的认识,那么收集这部分数据就非常困难,那个时代只有报纸的数据或者一些读者来信上的数据。

数据缺失是一种常态,那么我们需要做的就是根据现有的数据,来比较精准地做分析和表达,不要把范围无限地扩大,而是有多大范围的数据就说多大范围的事。

比如我们要分析北京地区不同地点的百姓消费水平,换个思路,我们或许就可以通过大众点评网上各地店铺的平均消费额来进行分析。但考虑到餐饮消费者流动性的问题,我们也可以考虑通过各地区房屋租赁的数据来分析,租房子的数据是本地居民的实际消费情况。当然,这个数据并不一定百分之百精准,所以我个人认为,在缺失数据的情况下,一定要标注准确数据来源、数据集,以及得到结论的限制条件等,这样会更加严谨些。

另外,数据源单一也是比较普遍的问题,目前来说,社交媒体这块,从微博抓取数据较为普遍,微信朋友圈和微信群的数据基本上是不可获得的。社交网络中有非常大一块是社交的暗网络,比如陌陌的数据肯定一般人都没有。

在数据源单一的情况下,分析的某种网络言论并不能真正地代表中国整体的情况,而且还涉及我一直强调的三个一致性问题:一是言行的一致性,分析到的结论都是一种言论,但真实情况是否如此,并不能保证,因为言行不一的行为非常多;二是公开网络传播和私密网络传播中的一致性;三是某个人或群体的前后言论的一致性。

所以在采集数据时,需要选择性地选择一些典型代表,如果数据源单一或某些数据是缺失的,可以找一些替代数据。比如现在有微博的数据了,微信的数据就可以用搜狗或“新媒体指数”等微信公众号提供的微信数据,或者用一些贴吧的数据,这样多种信息源的交叉有利于弥补一些缺陷。

未来应该会有更多的数据平台,及更多的社交媒体数据挖掘、收集处理与分析的工具出现。

杨溟:现在我们看到的数据新闻的实践中运用的数据,严格来说,都是小数据,没有大数据。

我们在做大数据实践时,发现最大的问题就是,真正基于社会公众需要的数据是严重短缺的。现在在网络或社交网络中看到的数据只是很小的一部分,其实各个部门垄断的这些信息,在有些国家可能是公共资源,是可以被作为大数据收集和分析的。但在国内,这部分信息很难获得,所以在一些公共利益或公共信息资源的分析上存在问题。从这方面来说,数据源缺失,影响最大的倒不是数据新闻,而是数据的应用和数据的服务。

但反过来想,正因为政府部门对信息的垄断造成数据缺失,这种缺失才给媒体创造了机会。比如在新加坡这样政府服务非常到位和充分的社会,媒体服务的空间相对就会变小许多。

另外,目前通过搜索引擎获取数据的方式还停留在对关键词的搜索上,图像和影像如人脸识别技术还有较大的发展空间,而对人的生理数据的挖掘和分析则是另一层意义上的“大数据”,是对人的了解的深入。

张亚彬:我们在搜集数据时,关于中国的数据我们是很希望能够从国内渠道获得,但是国内很多政府机构在垄断信息资源以后没有进行足够的开放,所以在做一些国内专题时,我们还是会通过一些国外的网站或是从联合国相关组织的一些报告中收集数据。

现在英国和美国是在数据开放领域做得最好的两个国家,在英国的数据开放网站上,可以以公民的身份提交数据开放申请,只要要求是合理的,这个信息没有涉及到国家安全等问题,网站承诺会在一定的时间之内开放数据。

我们曾经打算做一个中国城市自行车租赁状况的选题,杭州、北京等城市在08年前后,上马了很多这样的公共事业,我们想看看这些自行车的利用率有多少。最终,我们只在国外一个NGO网站上看到了中国少数几个城市的相关数据,而国内只有零星的媒体报道,比如杭州有多少辆,利用率是多少等极少的干巴巴的数字,但这不是一个系统的、全国范围的数据。

另外,对于国家统计局等公布的一些数据,我们也保持怀疑态度,不会完全相信或完全不相信。举一个简单的例子,中国失业率的数据,众所周知,国家统计局公布的是“登记失业率”,这个数字常年都维持在4%上下浮动,数字本身就是不科学不可信的。西方国家一般都是采用“调查失业率”,由调查咨询公司或者政府机构通过调查得到数据,这样的数据才更可信。所以,在做相关专题时,我们不可能用国家统计局上的这类数据。

考虑到开放程度和数据的可信程度,我们会采纳自己认为过硬的数据来源去做选题,并且我们会将数据来源标注在相关选题的信息图上。如果数据不过硬,我们宁可放弃选题。

任远:有时候,数据缺失也属于数据。我们需要寻找缺失数据的原因,在寻找过程中或许会发现新的有新闻价值的信息。比如我们之前做过一个关于诺贝尔奖的数据新闻,制作了1901—2013年所有诺贝尔奖及获奖人的信息图,收集数据时,我们发现二战期间1940—1942的数据是没有的。所以其实数据缺失可能是会有历史意义的,它也是有价值的。■

猜你喜欢
数据源选题社交
社交牛人症该怎么治
聪明人 往往很少社交
社交距离
本刊诚征“独唱团”选题
谈诗词的选题
本刊诚征“独唱团”选题
本刊诚征“独唱团”选题
你回避社交,真不是因为内向
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究