摘要:大数据时代的到来,给传统行业带来了巨大的冲击和影响。以出版业为例,为了更好的满足读者的需求,必须与时俱进的引进大数据技术,从而为编辑流程中信息采集工作的优化提供必要的技术支持,提高出版单位的市场竞争力。文章首先对信息采集的现状进行了分析,随后在概述大数据对信息采集带来影响的基础上,就如何利用大数据技术实现编辑流程中信息采集工作的优化提出了几点建议。
关键词:大数据;编辑流程;信息采集;策略分析
引言:信息采集作为编辑流程中的第一个环节,在很大程度上决定了出版物的质量。以往出版单位的信息采集渠道以参加图书展、调研图书销售机构为主,获取的图书信息十分有限。随着大数据时代的到来,一方面是人们的阅读习惯发生了改变,电子图书逐渐取代传统纸质图书;另一方面则是信息技术得到广泛应用,信息采集工作方式亟待进行改革。因此,探究大数据背景下信息采集工作的新方式,成为出版单位当前工作的重要内容。
一、信息采集发展現状分析
1.专业人才数量不足。
通过对现阶段出版行业编辑人员的年龄结构调查发现,其中30-45岁间的中青年编辑人员占到了60%的比例。这些编辑人员虽然具备较为丰富的信息采集经验,但是受以往传统出版工作模式的影响,形成了相对固化的工作习惯。即便是在大数据背景下,也不能与时俱进的掌握信息化技术,甚至对专业的计算机编辑软件不能做到熟练运用。除此之外,大数据背景下读者的阅读需求、阅读兴趣也发生了较大的改变,而缺乏“互联网思维”的编辑人员,由于无法及时、准确的捕捉读者的阅读诉求,出版物也就难以受到读者的青睐和市场的需求,最终也会造成经济上的损失。
2.软件支持体系有待完善。
信息设备和软件系统的广泛应用,是推动信息采集工作实现数字化发展的必要支持。近年来,随着大数据技术的不断发展,市场上也出现了一些实用性较强的信息采集软件,对辅助编辑人员工作起到了一定作用。但是我们也应当看到,科技的发展日新月异,尤其是依托于信息技术的编辑软件,更新换代速度极快。部分出版社所用的编辑软件虽然能够满足信息采集的基本需求,但是无论是从工作效率上还是信息采集质量上,都并不具备竞争力。因此,建立完善的软件支持体系,紧跟市场前沿发展动向,成为大数据背景下不断提高信息采集工作质量的一种可行性措施。
二、大数据对信息采集工作带来的影响
在大数据技术的支持下,形成采集工作逐渐呈现出智能化和自动化发展趋势,无论是在采集效率还是信息质量上,都有了较大程度的提升。本文根据采集信息内容的不同,就大数据带来的影响展开了具体分析。
1.对一般信息的影响。
在以往的工作模式中,一般信息主要来源于文字材料或编辑人员自身的知识储备,因此采集到的信息十分有限。而借助于大数据技术,编辑人员信息采集的途径变得十分广阔,例如各类网站、微博以及微信公众号等,都可以成为信息获取的场所。以微博为例,用户可以随时随地的发送一则简短的消息或短视频。这些微博在引起较大的反响后,还会被推送至“热门话题”,以便于更多用户参与讨论。这些热点话题可以作为编辑人员信息采集的对象。
2.对出版业市场信息的影响。
掌握最新的出版业市场信息,对于出版单位及时调整经营管理策略和把握行业发展方向起到了积极作用。就编辑人员来说,应当首先分清出版业市场信息的具体内容,诸如出版物的评论、竞争对手信息等。大数据背景下,获取市场信息的便利性也大大提升。例如,编辑人员可以登录热门的电商平台(例如当当、亚马逊等),这些电商平台出售多种类型的图书,并且图书商品保留买家评论,编辑人员可以从买家的评论内容中获取相关信息。此外,部分网站或平台还专门开通了图书评价渠道(例如豆瓣、网易云读书等),也可以成为编辑人员了解图书内容、获取图书信息的一种途径。
三、大数据背景下优化信息采集的具体策略
1.培养符合时代要求的编辑人才队伍。
熟练掌握和应用信息技术,具备“互联网思维”,是大数据背景下对编辑工作人员提出的新要求。对于出版单位来说,只有与时俱进的培养符合时代要求的信息技术人才,才能为信息采集工作的高效率开展提供必要的智力支持。创建编辑人才队伍的方式有两种:其一是针对在职的编辑人员,根据他们对互联网以及信息技术的掌握情况,开展针对性的培养,例如学会对现阶段各种新型编辑软件的操作应用,以“网络爬虫”等技术手段来搜索和获取信息等,为进一步提升编辑流程中的信息采集效率提供保证。其二是针对应聘人员,要求应聘人员必须具备一定的互联网常识,且对信息化编辑有一定的工作经验,以确保在入职之后可以尽快投入到信息采集工作中。
2.综合利用多种渠道进行信息采集。
编辑人员要想获取更加丰富的信息,决不能仅仅局限于同一种信息采集渠道,而是应当以发散的眼观和灵活的思路,利用一切可能的手段来完成信息采集工作。(1)微博信息的采集。微博与一般的新闻及论坛不同,必须通过某个身份(即账号)进入微博系统,才能够查看相应的内容。目前主要采用利用cookie和API的方式来破解微博安全认证中的加密和校验过程,实现账号的快速验证登录。由于微博的有效的安全认证和反采集策略,采集策略必须模拟正常使用者的使用模式,才能有效的解决微博的安全认证和海量采集问题。(2)微信公共帐号信息的采集。对微信公众号信息的采集主要包括两种方式:一是模拟登录采集,二是获得其后台权限,以API接口的方式去采集相关信息。然后对获取公共账号的历史推送信息,解析获取正文标题、正文、时间、阅读量信息。通过协议或其他方式获得微信公众号的后台权限,读取关注此微信公共帐号的用户信息,推送的消息,关注度、阅读量、点赞情况等。
参考文献:
[1]陈莎.国内网络数据新闻发展中存在的不足——以网易、新浪、搜狐数据新闻为例[J].声屏世界,2016(9):164-166.
[2]董文丽.数据新闻:大数据时代新闻的变迁——以网易、搜狐、腾讯、新浪的数据新闻为例[J].新闻世界,2014(12):85-87.
[3]甘馨月,马凯,张韵秋.中外数据新闻实践比较研究——以英国卫报“数据博客”与中国网易“数读”为例[J].新媒体研究,2016,2(24):11-14.
作者简介:
张瑞,女(1982—),黑龙江省绥滨县人,学士,哈尔滨工业大学出版社编辑,主要从事理工科学术专著、大学教材的编辑出版工作。endprint