胡佩
关键词:数据新闻;数据采集;伦理问题;应对策略
随着信息的快速发展,大数据也随之出现,在大数据背景之下,数据新闻的所采集的数据量已经远远不只是几个数据库或者是若干个图表这么简单,而是基于社交网络和移动互联网终端的海量信息采集[1]。在此情况下,在数据新闻生产与制作过程中,对于数据新闻中过的数据采集来说,也面临着数据采集来源的片面性、对用户数据隐私的失范、数据新闻从业者的数据采集技能不足等问题。
依据数据新闻中数据的来源进行分类,数据新闻可以分成自我采集数据型和现有数据再利用型 [2]。由于自我采集型数据对新闻从业人员素质的要求和投入的时间、资金较高,因而带来了一定的操作风险,所以自我采集型的数据新闻在目前媒体的数据新闻实践中所占的比例并不高。但在使用频率较高的现有数据再利用型的数据采集中,由于部分数据的采集属于二手数据,而非原创的一手数据,其数据的真实性、权威性、可信度是数据采集者需要注意的。在如今大数据背景下,信息的存储以及挖掘方式多种多样,数据新闻中的数据采集也面临着困境。
(一)数据采集中的“数据片面化”
从数据采集量上来说,数据新闻所采集的数据量已经远远不只是几个数据库或者是若干个图表这么简单,而是基于社交网络和移动互联网终端的海量信息采集在数据新闻中,数据来源的局限性会直接导致新闻报道的片面化,甚至是虚假新闻。造成数据来源局限性的原因除了数据开放程度不够以及受众参与众包新闻的积极性不高等外部因素之外,内部因素更不容忽视。
数据来源的单一化。新闻媒体以及新闻从业者为了控制人力、时间和资金成本,会倾向于选择数据易得的采集渠道,比如开放数据以及官方数据,而舍弃自我采集型数据、调查泄漏数据等方式。这就很容易造成数据来源较为单一,数据新闻的内容也由此受到一定的影响。
假设数据新闻的数据来源只有企业的数据,或者是说只有官方的数据,那么该数据新闻一定是站在企业或者官方的立場上所得出来的结论,新闻的真实性就有待考究。那如果数据新闻作品中既有官方的数据又有企业的数据也有众包数据,那么这个新闻作品的数据来源就更加全面,更足以支撑数据新闻的可信度。
数据采集技能缺失。数据新闻记者的数据采集的技能缺失体现在搜集数据素养的不足,在数据采集过程中只采取了报道的数据而没有对数据进行分析。同时,在大数据时代下,许多新闻从业者存在大数据至上的思维,认为跑新闻现场耗时耗力,因此基于大数据时代,单纯的从网上搜集报告、抓取数据。这就容易导致数据新闻的片面性,从而造成数据新闻的权威性和可靠性的弱化。
数据源的模糊描述。学者方洁通过对新华网《数据折闻》、搜狐网《数字之道》、网易《数读》、财新《数字说》和澎湃新闻《美数课》等五个国内知名数据新闻栏目的定量研究,发现在总体样本中,除了7.4%的数据新闻没有对数据来源进行描述以外,尚有73.0%的样本描述模糊,这个数据远远超过描述清晰的19.6%。
例如,新华网报道的数据新闻——唐诗宋词系列,在该作品的最后,仅仅通过列举三处来说明数据来源,没有具体指明新闻中的数据采集分别来源于这三处中的哪一个地方,数据来源描述得十分模糊。在《卫报》——中国经济放缓如何影响世界其他国家,在这则数据新闻报道中,一个较为明显的问题是对数据来源的交代不够清晰,仅仅只是在末尾列出了数据来源分别是联合国商品贸易数据库、中国海关总署和世界银行的统计数据,但并未详细标注相应的数据文件名或相关链接,淡化了数据获取的途径与方式,只是对“结果”的简单呈现,因此读者无法查验其数据来源是否真实可靠。
(二)数据采集中的“数据窃取”
我国目前信息公开制度尚不健全,隐私权的保护特别是信息时代隐私权的保护存在很大漏洞。而中国铁道部官网就曾因用户数据泄露而给人们带来麻烦,而泄露的信息是否存在隐藏的威胁尚未可知。[3]个人数据利用中的隐私侵犯是数据新闻生产面临的现实问题,因为在数据开放和数据新闻生产实践中存在隐私权与表达自由、个人数据保护与数据新闻报道的矛盾[4]。当下隐私保护法以个人为中心的思想:数据收集者必须告知个人,他们收集了哪些数据、作何用途,也必须在收集工作开始之前征得个人的同意。[5]虽然这不是生产数据新闻过程中合法采集数据的唯一方式,但“告知与许可”这一共识性基础已经是世界各地都在执行的隐私政策。但是,随着杜交媒体的发展,数据集越来越大,在使用数据时获得每个人的知情同意是不可能的,很难保证载据对象的自主原则。
大数据时代,数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用和N次利用,因此,将隐私权的保护责任从民众转移到数据使用者,这就会出现数据初始采集目的与数据使用目的不相容的问题,即使数据采集时已获得载据对象的知情同意,新闻记者编辑在新闻生产中对数据的循环利用也很难每次都做到“告知与许可”。
在现如今“告知与许可”已经失效的大数据时代下,新闻传播专业还没有采取有效措施,使得数据使用与载据对象隐私保护之间达到干衡。因此,在大数据时代下,数据新闻既要做到数据公开,以此来获取所需的新闻来源和必要的新闻数据支撑,又需要对受众提供的数据负责,尤其是保护受众的隐私权。
大数据时代背景下,对于数据新闻中的数据采集,无论是自我采集型还是现有数据再利用型,在政府完善数据隐私监管及法律法规的约束下,最重要的还是数据新闻记者作为数据采集人员自主承担责任,应遵循以下几个原则:
(一)数据来源多样化原则
数据作为数据新闻的核心,是支撑数据新闻完整呈现的基础,其来源的权威性、准确性以及可信度对数据新闻的生产产生了重要作用。这就要求新闻从业者在数据采集时,提升自己的数据采集技能,做到数据来源全面、数据种类多样、数据真实可靠。在数据新闻中,所采集到的数据来源多样化才能够克服数据来源的片面性。
例如,央视晚间新闻推出的数据新闻节目——据说春运,它的数据来源,不仅有央视与百度合作通过LBS开放平台分析手机用户的定位信息,映射出手机用户的迁徙轨迹,构成了一张实时变化的动态图,而且还有记者去到火车站现场采访火车站的一线工作人员并且在现场拍摄了图片进行了现场的采访与报道。在这一新闻作品中即涵盖了大数据又有现场的小数据采集,其数据来源是多样化的,使得报道更加丰富,避免了新闻报道的片面性。
(二)数据采集的自负原则
在数据新闻报道过程中,新闻从业者对新闻数据的采集既存在使用用户的隐私数据,同时也存在泄漏用户个人的隐私信息的可能。所以在数据新闻的生产过程中,为了避免在数据采集过程中用户的个人信息的侵犯和滥用,作为一名数据新闻记者在知情同意缺位的大数据时代下要遵循用者自负原则,在保护数据对象时要把握好隐私保护和数据使用之间的一个平衡。在对个人数据进行再利用时,记者可利用技术手段对个人隐私进行“脱敏”,采用“匿名化”的策略,通过代号化或加密处理,切断信息与特定个人之间的辨识要素,实现信息的“去个人化”。
需要指出的是,传统上通过匿名化的方式可以避免数据主体被识别的情况,但在大数据时代,单项信息的匿名化并不足以起到避免识别的作用,通过多个匿名单项个人信息的组合依然可能识别出数据主体,因此需要数据新闻记者在匿名处理时综合评价匿名个人数据的潜在风险,采取应对措施,保护数据主体的合法权益[6]。
大数据时代背景下,在数据新闻在日趋完善的同时,学界和业界有必要在数据新闻生产和制作过程中的数据采集伦理问题上进行充分討论、达成共识。同时,为了减少数据采集伦理问题给社会带来的潜在风险系数,要加强法律和专业伦理规范的制约,促进数据新闻的实践进一步深入。
参考文献
[1]喻国明.从精确新闻到大数据新闻——关于大数据新闻的前世今生[J].青年记者,2014(36):43-44.
[2]数据新闻概论[M].中国人民大学出版社,方洁,2015
[3]邹方.大数据时代新闻业的革新与困境——以央视《据说春运》《据说过年》为例[J].东南传播,2016(09):10-13.
[4] VOORHOOF D.ECtHR decision: right of privacy vs. data journalism in Finland[EB/OL].https://ecpmf.eu/news/legal/archive/ecthr-decision-right-of-privacy-vs-data-journalism-in-finland.
[5]丁晓东.论个人信息法律保护的思想渊源与基本原理——基于“公平信息实践”的分析[J].现代法学,2019,41(03):96-110.
[6]张超.试析数据新闻生产中的个人数据滥用与规避[J].编辑之友,2018(08):66-70.