朱建军,周 强
(中国铁道科学研究院 电子计算技术研究所,北京 100081)
网络技术
互联网信息生命周期研究
朱建军,周 强
(中国铁道科学研究院 电子计算技术研究所,北京 100081)
互联网信息生命周期描述了从信息产生并随时间推移而演变的整个过程。文中界定了互联网信息生命周期的研究范围,并综述了信息数量、信息效用价值、舆情热度等互联网信息生命指标方面的相关理论及其适用性。对现有信息增长、信息效用价值、舆情热度进行归纳评述。文章最后讨论了进一步研究所面临的挑战及未来的研究方向。
信息生命周期;信息效用价值;舆情热度
现有研究指出互联网信息呈现指数级、爆炸式增长[1],例如页面 数 量从 2002 年的 1.6 亿个增长至2008 年的 160 亿个。与此同时,网站数量也从 37.2万个增长至 287 万个。面对日益增长的互联网信息资源,分析其生命周期,从而对互联网信息加以控制及管理显得尤为重要。
互联网的广泛应用,形成了大量互联网信息。由于互联网信息具备不同于传统文献信息的特点,使互联网信息生命周期虽然与传统文献生命周期大致相当,但在许多方面也发生了巨大的变化。
1.1 互联网信息
1.1.1 互联网信息的界定
目前,国内对互联网信息比较明确的定义是刘佳在《网络文献的界定与评价》[2]中提出的:互联网信息是指依附于计算机存储设备,可以在网上传输、识别、利用的,可稳定获取,在一定时间内可固定访问的信息单元。包括:互联网报刊、互联网数据库、互联网图书等信息集合,以及以HTTP协议传递的网页、利用专用通信线路访问的数据库。不包括那些在互联网上以 Telnet协议传递的人机互动信息,如聊天、私人发布的新闻帖以及以 FTP、Email协议传递的私人文件等。
1.1.2 互联网信息的特点
(1)具备非结构性。互联网信息在内容上包括学术信息、商业信息、政府信息、个人信息等。每个数据元都是异构的,各站点间的信息和组织都不一样。其次,在形式上包括文本、图像、声音、软件、数据库等,没有严格的结构模式。(2)具备动态性。互联网信息是一个动态变化的系统。任何互联网信息都可以在短期内生成、更新、删除。(3)具备共享性。互联网信息的传递不受空间和时间的限制,任何组织或个人都可以在互联网上发布、搜索信息,实现了信息全球共享。(4)具备质量参差性。由于网上信息发布具有很大的自由度和随意性,导致有的互联网文献的数据是不完整的、冗余的、稀疏的甚至是错误的。同时传播中的噪声往往会使传播信息失真。
1.2 互联网信息生命周期的界定
互联网信息生命周期的定义,国内最早由罗贤春[3]提出:互联网信息生命周期包括信息的产生(创造 /发布)、采集、组织、开发、利用处置。马费城、夏永红[4]则将互联网信息生命周期定义为:互联网信息从产生到失去效用价值所经历的各个阶段和整个过程。
但是,对于互联网信息生命周期的界定应综合上述学者的观点,即互联网信息生命周期是指从互联网信息产生到最后利用处置的过程中,信息数量、效用价值、热度等信息“生命指标”的变化。对于互联网信息生命周期的研究,不但包括对信息生命周期阶段的划分,还包括对信息“生命指标”的定量分析,从而更加客观、全面的反映互联网信息生命周期的整个过程。
1.3 互联网信息生命周期特征
1.3.1 周期短
由于互联网信息本身的动态性和共享性,网络信息的生命周期所具备的最明显的特征就是周期短。马费城、夏永红[4]的网络信息实证研究表明中外论文平均3年进入衰退期,而各类论坛的帖子、新闻3天左右就进入衰退期。虽然不同类型的网络信息生命周期长短有差异,但整体的演进趋势大致相同。
1.3.2 可重新激活(网络信息价值具有波动性)
在网络信息生命周期中,信息的效用价值随着生命周期阶段的不断演进而发生变化,在短期发展到一定程度后,总体应呈递减趋势,如马费城、夏永红[4]提出的网络信息的生命周期曲线如图1所示。
图1 网络信息的生命周期曲线图
然而,生命周期中存在很多不确定性。在信息的效用价值衰减的过程中,有可能会因为信息更新或外部环境变化等因素,网络信息效用价值突然被激活,网络信息重新进入新的生命周期中,即图1中M点所示。
1.3.3 各阶段存在显著差异性
马 费 城[18]利 用 Pareto/NBD 模 型 对按引 用 期、发展期、稳定期、衰退期、失效期划分的网络信息计算衰老率、边际利用率、累计利用率,发现衰老率能很好地区分引入期和衰退期,边际利用率可以很好地区分引入期和发展期,累积利用率则能够较好地区分发展期和稳定期。
1.3.4 受用户影响大
梁芷铭[17]利用微观(被引)半衰期和普赖斯指数两个指数,通过对新浪微博的实证研究以及结合图1网络信息的生命周期曲线,从用户的角度,认为人是认识网络信息和实现网络信息价值最大化的主体,主体对网络信息的需求和利用程度决定了其所处的生命周期阶段。主体对于现有网络信息的不满足和对新信息的需求成为网络信息产生的内在动力,能够提升网络信息的效用价值。随着主体对网络信息的充分认识和应用,网络信息的效用价值逐渐衰减,并最终脱离社会实践需要,网络信息失效。
除了用户对信息本身的需求,用户的行为习惯也对网络信息的生命周期阶段演进,特别是生命周期较短的网络信息有较大影响。例如:由于 2:00 ~7:00 时段大部分用户都在休息,此时段内发布的微博评论量会明显减少或信息的成长期明显延长,较晚进入成熟期。
运用互联网计量学的基本理论,一些学者提出了互联网信息扩张模型。J.Hagel等人[5]认为,互联网的潜在收益,会随着互联网节点数量的增加而成指数增长。即在无限的网络环境下,假设信息的扩散不受任何条件限制,如网站数量、传播速度、访问限制等,则信息就能发挥其内生增长能力,网页数量迅速增加,呈现指数增长规律,也称为“J”型增长。
一 些 学 者[6]分 析 网 页 数 量 受 到 外 界 条 件 限 制,不可能一直维持几何级数增长。因此提出了运用Logistic 模型来描述网页数量随时间推移的变化规律,即互联网信息S型增长模型。
另外,侯经川、赵荣英[7]则参照货币扩张规律,以“信息转发假设”和“信息创新假设”为基础,提出互联网信息总量增长模型、互联网真实信息量增长模型、互联网泡沫信息量增长模型和互联网信息乘数扩张规律。同时,还证明了指数增长模型是将“信息创新假设”由有限创新能力改为无限创新能力时的特殊情况。
3.1 从引文分析角度
引文分析法是利用数学和统计学的方法以及比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著作等各种分析对象的引用或被引用现象进行分析,以揭示其数量特征和内在规律的一种文献计量研究方法。
引文分析法的一项重要应用是性能评估,它基于这样一个假设,即引用显示出被引用文献对于后来研究的正的价值。一些研究[8]表明,针对互联网文献这一假设同样成立。Zhao Dangzhi[9]通过基于文献的 SCI与基于互联网的 CiteSeer搜索 XML 智能结构领域的论文,得出了对于互联网出版物实施引文分析法能够更好地分析出研究趋势的结论。
3.2 基于互联网链接分析法
链接分析法就是运用互联网数据库、数据分析软件等工具,利用数学和情报学方法,对互联网链接自身的属性、链接对象、链接互联网等各种对象进行分析,揭示其数量特征和内在规律。
Mckiernan 于 1996 年首先提出了互联网链接分析(sitation)这一新术语,用以研究网页之间的引用关系。Rousseau R.也在其著作[10]里提出利用互联网链接分析法的可行性,运用 Lotka 方程描述了域名和网站间链接的分布。1999 年,IBM 的阿尔马登(Almaden)研究中心、康柏系统研究中心和AltaVista 公司研究小组的 Andrei Broder等人利用两个 AltaVista 的“互联网蜘蛛人”,调查了 2 亿个网页及 15 亿条链接,他们的研究结果[11]表明,互联网链接数的分布是符合帕雷托分布的:网页中具有i个引用链接的比率为 r,r=1/i;设拥有 s 个指向外部的链接的网页比率为 v,v=1/sz。
互联网影响因子也是常用的信息效用指标。它是指:假设某一时刻链接到互联网上某一特定网站或区域的网页数为 a,而这一网站或区域本身所含的网页数为b,其互联网影响因子的数值可以表示为WIF=a/b[12]。这样可以计算出 Web 空间 3 个 WIF:
自我链接 Web 影响因子:测量所测 Web 空间自身页面之间的链接,其值为 L1/D。
外部 Web 影响因子:测量外部链接到所测 Web空间的链接,其值为 L2/D。
整体 Web 影响因子:测量到 Web 空间的所有链接,其值为 L/D。
其中,D :表示对特定空间里整个网页数的估计。L:表示对空间里网页的所有链接。L1:表示自我链接数目。L2:表示外部链接数目。
互联网舆情是指网上公众发表的意见,包括网上各种传统媒体延伸的新闻言论和网民在互联网上表达的舆论[13]。
张虹、钟华[14]等人对由帖子的点击数(或回复数)所形成的原始时间序列进行小波多尺度分析,产生一系列子序列并进行评价,并通过BP神经网络进行类别训练,找出使得内距离最小、类距离最大的若干系数作为特征系数,以此对网络论坛话题的热度趋势进行预测。
李雯静、许鑫[15]提出了用主题署名度指标、主题发布者影响指标、主题关注度指标、主题地区范围指标来度量舆情热度。李东方、愈能海等人[16]利用热量传递模型对用户在互联网上的信息活动建模,提出适用于 Web2.0 环境下的话题抽取与热度评价算法。
5.1 网络信息融合与集成
随着大数据时代的到来,网络信息异构的情况逐渐增加。各个系统和资源库多平台运行、数据库模式各不相同、数据被割裂在不同的设备上,这样多方式运行的弊端,不仅造成网络信息浪费重叠,同时也造成网络资源和数据无法共享,平台之间信息交流和共享十分困难。如何使互联网信息融合与集成成为网络信息发展的趋势。
信息融合应做到:提高信息的完整性,排除冗余与噪声;降低不确定性,提高信息的精确度和可靠性;去伪存真,提高信息的一致性和可信度。目前对异构信息融合与集成的研究,侧重对结构化、半结构化和非结构化这种结构级的融合和集成,而因为各信息源的分布自治性,语义级的异构的融合和集成鲜有成熟的方法和技术,语义级的异构的融合和集成是异构信息有效融合与集成瓶颈。
为提高融合方法的性能或扩大其适应面,陈科文、张祖平、龙军[19]提出应用 Web Service 可为异构信息服务的集成与融合提供很好的解决方案。
5.2 动态管理
网络信息在利用的初期,信息价值得到不断挖掘和发挥,但衰退期利用情况大幅度下降,直至被不断新生产出来的信息覆盖,以致在较长时间得不到利用后,便判断为失效信息。这个时候,那些某些网络信息个体往往还有较多的剩余价值没有得到发挥就 转 成 了 隐 性 价值。 马 费成[18]认 为 这种情况的发生大多来源于信息获取渠道的不畅通(比如被不断更新的信息覆盖),网络信息管理者应采取相应的干预策略,比如置顶、加精华以及热度排行等。但目前管理者采取行动的标准一般是单一的累积点击率排行,而这种排行没有考虑到网络信息的动态性所带来的误判概率的提高,这种管理实践行为不但粗放而且缺乏科学依据。因此应构建生命阶段模糊识别模型,实施动态管理,采用基于相对指标的定量识别模式来实现对网络信息生命状态的定位,可以根据网络信息的相对利用情况以及目前所处的生命阶段,采取单期或多期的推送策略来适当延长网络信息的生命周期,以实现其价值的最大化发挥。
从信息效用价值测算角度,引文分析法、链接分析法都存在明显的不足。引文分析法主要研究网络文献生命周期的效用价值变化,而链接分析法也因为目前搜索引擎搜索范围有限而存在分析结果未能代表整体网络情况的问题。因此,在未来的研究中,应逐步扩展引文分析法的适用范围,或者运用网络计量学提出新的互联网信息效用价值指标。同时应完善搜索引擎技术,特别是元搜索技术及智能搜索技术,争取在尽可能全面地覆盖互联网的同时提供稳定的搜索结果。
互联网舆情热度研究是一个需要整合多个学科的知识和研究技术、研究方法的跨学科、综合性研究。但从目前的研究情况来看,人文社会科学的学者和理工科的学者在有关互联网舆情研究方面未能很好地整合和对接,这也制约了互联网舆情热度研究成果的广度、深度以及有关研究成果的应用价值、社会效益和社会影响。对于互联网舆情热度的研究应积极进行跨学科的交叉合作研究,以期在研究内容和方法上取得突破。同时,虽然近几年互联网舆情热度的相关研究已经有所增加,但大多停留在概念讨论、算法思考阶段,相关实证研究则相对较少。因此,在未来的研究中,除构建符合互联网信息规律的舆情热度演变模型,还应结合实际互联网情况,进行模型的验证。
互联网信息扩张模型、互联网信息效用价值模型、互联网舆情热度模型从不同角度研究了互联网信息生命周期的规律。但对于互联网生命周期综合性的研究仍处于初级阶段,有关互联网生命周期管理模型的研究也处于理论研究阶段。由于互联网信息非结构性、动态性的特点,使得互联网信息生命周期的研究也较为复杂。今后的研究应在现有研究的基础上,进一步结合现实网络环境,更加深入、全面的对互联网信息生命周期进行剖析。
本文提出互联网信息生命周期是从互联网信息产生到最后利用处置的全过程中,信息数量、效用价值、热度等信息“生命指标”的变化;利用并改进现有相关研究,综合应用了“生命指标”。最后提出了互联网信息未来研究的方向。
[1]Zhou Ming.Multi-Language Search[EBOL].http://www.docin. com/p-42528663.html,2009.
[2] 刘 佳 . 互联网文献的界定与评价 [J]. 情报科学, 2003,9(7):994-997.
[3] 罗贤春 . 互联网信息生命周期 [J]. 图书馆学研究, 2004(2):51-53.
[4] 马费城,夏永红 . 互联网信息的生命周期实证研究 [J]. 情报理论与实践, 2009(32).
[5] J.Hagel, A.G.Armstrong. Net Gain: Expending Markets through Virtual Communities[J]. Harvard Business School Press, 1997 (13): 55-65.
[6] 魏玖长 . 危机事件社会影响的分析与评估研究 [D]. 合肥:中国科学技术大学,1997.
[7] 侯经川,赵荣英 . 互联网信息的增长机制研究 [J]. 情报学报,2003, 22(3):267-272.
[8] Cronin Blaise. Bibliometrics Beyond: Some Thoughts on Webbased Citation Analysis[J]. Journal of Information Science, 2001, 27(1): 1-7.
[9] Zhao Dangzhi. Can Citation Analysis of Web Publications Better Detect Research Fronts[J]. Journal of the American Society for Information,2007,58(9):1285-1302.
[10]R.Rousseau.Sitation:An Exploritory Study[J].Cybermetrics, 1997, 1(1).
[11] 吴国柱,李东洋,曾利玲 . 互联网超链接分析初探 [J].图书情报工作,2002(11).
[12] Ingwersen Peter. the Calculation of Web Impact Factors[J]. Journal of Documentation,1998, 55(2):236-243.
[13] 谭 萍 . 中国网络舆论现状及引导方略 [D]. 郑州:郑州大学,2005.
[14] 张 虹,钟 华,赵 兵 . 基于数据挖掘的网络论坛话题热度趋势预报 [J]. 计算机工程与应用, 2007, 43(31).
[15] 李雯静,许 鑫,陈正权 . 网络舆情指标体系设计与分析[J]. 图书情报工作网刊,2008(11).
[16] 李东方,愈能海,尹华罡 . 一种 Web2.0 环境下互联网热点挖掘算法 [J]. 电子与信息学报,2010,32(5):1141-1145.
[17] 梁芷铭 . 基于新浪微博的网络信息生命周期实证研究 [J].新闻界,2014(3):60-64.
[18] 马费成 . 网络信息生命阶段的模糊识别研究 [J]. 情报科学,2009,9(30):1277-1283.
[19] 陈科文,张祖平,龙 军 . 多源信息融合关键问题、研究进展与新动向 [J]. 计算机科学,2013,8(40):6-13.
责任编辑 方 圆
Overviews on Internet information life-cycle
ZHU Jianjun, ZHOU Qiang
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )
Internet information life-cycle described the information generation and the whole process of evolution. The paper def i ned the research areas on the life-cycle of the Internet information, given the overview on the latest researches of the life index of Internet information including the amount of information, information utility value and public opinion heat. The paper also integrated the researches of the expansion of information, the utility value of information and public opinion from the perspective of life-cycle management. Finally the paper discussed challenges and directions of future research.
information life-cycle; information utility value; public opinion heat
U285∶TP39
:A
1005-8451(2015)03-0045-05
2014-10-23
朱建军,副研究员;周 强,助理研究员。