仇建平
(太原科技大学计算机科学与技术学院,山西太原030024)
在虚拟的互联网世界中,实体经济中的“消费者”转换为虚拟经济中的“用户”.“用户”是一个主动的概念[2],浏览网页、听音乐、看视频、下载软件等行为都是用户根据自己的兴趣主动做出的,是一种自由意志支配下的消费行为[3-4].随着这些行为数据的爆发性增长,新的模型不断涌现.一般的建模方法是从某些假设出发,引入变量,借助某些原理、定律,导出数学模型,再用数据来检验其正确性,有了数学模型,系统控制的问题就变成了变量和参数的控制.但要建立这样的数学模型有时非常困难,主要表现在:1)互联网结构复杂:节点数目巨大,网络结构呈现多种不同特征;2)互联网的进化:节点或链路会随着时间的变化而产生或消失;3)互联网链接的多样性:节点之间的链路权重存在差异,且有可能存在方向性;4)多重复杂性融合:即以上多重复杂性相互影响,导致更为难以预料的结果.实际的网络会受到多种因素的影响和作用,各种网络之间密切的联系也会使它们相互产生影响,从而加大对网络分析的难度.
为了解决这些问题,人们转换视角:把人看作是传播的内容,把信息资源看作是对象.同生态系统依赖能量流动,经济系统依赖货币流动一样,互联网依赖关注力流动.互联网上用户的点击行为实际上体现为关注力的流动,其中节点是信息资源,有权重的链路则指示着关注力的流动.这样,从信息在用户间的流动,转换为用户在信息间的流动,即把原来网络的节点变成了链路,原来的链路变成了节点.这一转换的好处在于:1)网络中的信息量是无限的,不易测量,而关注力相对于信息量来说却是有限的,易测量;2)由于信息资源可以被无限地复制,同一类信息资源不同内容与不同类信息资源,都是网络上不同的节点;3)用户的关注力是一个严格的守恒量.总的关注力是稀缺的,可变的就是其在信息资源上的分配和流动.在这种思路下,互联网可以被看作是一个人类集体关注力在信息资源之间分配和流动的网络,即关注力流网络.关注力流按生成内容可分为:1)UGC(user generated content)用户生成内容,生成网状关注力流;2)non-UGC网站生成内容,生成树状关注力流.无论是树形结构还是网状结构,如果计算互联网用户关注力的分布,最后都会得到长尾分布[5-6].如图1所示,消费者的关注力在不同的区域相差很大,关注力集中的程度随着颜色的加深而增加.
图1 关注力区域的分布Fig.1 Distribution area of attention
1998 年 Watts[7]和 Strogatz[8]提出了小世界网络模型.他们分析了具有“小世界特征”的社会网络的演化过程,对小世界网络的聚类系数和最短路长度等进行了探讨,发现小世界网络模型的聚类系数比随机图模型要大得多,同时具有较小的平均最短路长度.2013 年 Barabasi[9]研究表明,目前互联网大约有1万亿个文件,包括140亿个页面及其附带的图片、视频和其他文件,但其中绝大多数与其他页面或文件之间的联系并不紧密,而互联网中搜索引擎、门户网站等少数网页(主导节点)具有非常大的链接数.这些少数主导节点成为整个互联网相互联系的桥梁,从而使得用户最多只需19次点击即可到达任何一个网页.Barabasi认为,互联网的这种“小世界”特性源于人性,即无论是在现实生活还是虚拟世界中,人类都喜欢群居.Barabasi从多种水平对网络进行了分析后发现,无论规模有多大,“19次点击”的规则仍然适用于互联网.
根据2011年底的CNNIC数据[10],我国互联网用户平均每周上网时间为18 h,平均每天上网时间为2.67 h,互联网用户在信息生产、交易和消费的所有环节都留下了数据记录,而且90%的互联网用户仅仅访问网站,从不贡献内容,9%的互联网用户偶尔参与,只有1%的互联网用户生产绝大多数内容,因此用户关注力相对于信息量来说是稀缺、可跟踪、可分析的.
本文中把互联网用户的关注力定义为关注某网站、同时忽略其他网站的选择性关注.一个互联网用户的关注力X取决于网站内容n,并随着网站内容n 线性变化,如式(1)所示[11].
式中:a是正的常量系数,Y是均值为1的噪声.
如果互联网用户的关注力超过了阈值θ,那么互联网用户将继续关注该网站,θ为反映互联网用户个性化喜好的阈值,与网站内容给互联网用户带来的愉悦感、理想主义、归属感、增进自己的社会地位等因素相关.如果互联网用户的关注力小于θ,则互联网用户的关注力转移到其他网站,其概率Pn如式(2)所示.
其中mA、mB代表两个是三角形的顶点,PA、PB代表两者的质心位置,min(mB-mA)·(PB-PA)指两者顶点相距最小值在相对位置上的投影‖dt·(PB-PA)指两者速度在相对位置上的投影。作为碰撞检测时间范围的回退信息处理,返回每一个回退点的位置信息和三角形面片信息,遍历完所有的碰撞集合,分析比较每个相交信息中的碰撞检测时间集合,最小值为该次检测时间段内的碰撞检测时间,记为tc。
式中:aY/θ的累积分布函数为F,则网站最终获得的关注力如式(3)所示:
式中:F'(0)为一常数.
通过简化和省略高次项后,式(3)可重写为
取极限则可得式(4):
根据式(4)可得:
式中:Pn满足长尾分布,可得:
式中:k>1,生成内容越多,互联网用户的关注力转移到其他网站的概率越低.用户关注力转移网络如图2所示.
图2 关注力转移网络Fig.2 Network of transporting attention
图2中实线圆环代表网站1到网站5,边代表用户关注力流,箭头指向代表关注力流动方向,边的权重(边上的数字)为从某网站转移到另一网站的人数,其转移矩阵为
用户的关注力在网络上流动,由于关注力的守恒性,在模型中加入虚线圆环代表源节点和宿节点,使每个节点的关注力的进出相等,其用户转移矩阵扩充为
设mij为用户关注力由i站点流向j站点的概率,
式中:Xij为由i站点转移到j站点的用户关注力,在本文中简化为转移人数,可得转移概率矩阵:
网站i的流量Ai为
图2对应的uij为
以图2网络为例,运算结果如图3所示,图中黑点为节点2的流量A2=60,关注力G2=125,通过最小二乘法获得γ=1.45>1.
图3 运算结果Fig.3 Operation results
实验用到的数据是通过使用一个Python语言编写的网络爬虫程序,从谷歌广告计划(Google ad planner)[12]上获得世界排名前1 000的网站名单,使用Alexa分析这些网站间的关注流并构建网络,调用AlchemyAPI侦测网站类型.通过该方法获得的数据集比通过其他方法获得的数据集更稠密,如图4 所示[12].
图4 相关数据Fig.4 Related data
图5展示了世界流量排名前1 000的网站构成的“关注力流”网络,其中圆形点代表网站,点的大小反映了取对数值后网站的日流量,点到中心的距离代表关注力的大小,即越靠近中心,则该点代表的网站受到的关注力越大.灰色圆形点表示Web 2.0站点,黑色圆形点表示Web 1.0站点.箭头表示用户的“关注力”在网站间的流动方向,一共12 888条,从图5可知,Web 2.0站点更受关注.
图5 世界流量排名前1 000的网站构成的“关注力流”网络Fig.5 Attention network of the 1 000 most-visited sites on the web
如图6所示,横轴是取对数值后的网站流量Ai,纵轴为取对数值后的关注力Gi,γ=0.92,γ小于1表明用户对网站的关注力增长小于流量增长,存在着“规模不经济”的现象.
图6 世界流量排名前1 000的网站流量分布Fig.6 Attention stream of the 1 000 most-visited sites on the web
从流量来源来看,如图7所示,纵轴表示来源网站的类型,分别是广告网络(Ad network)、垂直网络(vertical niche)、门户网站(portal)、搜索引擎(search engine)、广告联盟(affiliate network);横轴表示某个流量来源关注力的变动比例.黑色条块越往右表示某种流量来源关注力的提升,反之则表示关注力越低,黑色条块中的白线表示中位数.从图7中可以看出,搜索引擎和广告联盟所受的关注力较低,而广告网络和垂直网络则较高.
图7 流量来源分析Fig.7 Source analysis of stream
社会网络的快速发展带来了理论研究和实际应用上的巨大挑战,数据产生、组织和流通方式产生了革命性的变化,这些数据背后潜藏着巨大的商业机会.本文针对互联网的新发展,通过搜集互联网用户行为数据,推导了基于互联网的关注力动力模型,并通过实验进行了验证分析.本文作为一个探索性工作,初步勾勒了全球互联网用户“关注力流”的概貌,为更深入地探讨“虚拟经济”奠定了基础.
[1]苏萌,柏林森,周涛.个性化:商业的未来[M].北京:机械工业出版社,2012:1-20.
[2]PAN W,AHARONYM N,PENTLAND A S.Composite social network for predicting mobile apps installation[C]//Proceedings of the 25th AAAI Conference on Artificial Intelligence.Cambridge,USA,2011:821-827.
[3]ZHANG C J,ZENG A.Behavior patterns of online users and the effect on information filtering[J].Physica A,2012,391:1822-1830.
[4]GUO S,WANG M,LESKOVEC J.The role of social networks in online shopping:information passing,price of trust,and consumer choice[C]//Proceedings of the 12th ACM Conference on Electronic Commerce.New York,USA,2011:157-166.
[5]HUBERMAN A,PIROLLI P L,PITKOW J E,et al.Strong regularities in world wide web surfing[J].Science,1998,280(5360):95-96.
[6]DENNIS M.WILKINSON.Strong regularities in online peer production[C]//Proceedings of the 9th ACM Conference on Electronic Commerce.Chicago,USA,2008:302-309.
[7]WATTS D.Network,dynamics,and the small-world phenomenon[J].Sociol,1999,105:2063-2064.
[8]STROGATZ S.The emerging science of spontaneous order[M].New York,USA:Hyperion press,2003:312-319.
[9]BARABASI A L.Network science[J].Philosophical Transactions of the Royal Society A,2013,371:1471-2962.
[10]孟凡新.互联网时代的眼球经济:中国网民注意力聚焦何处?[EB/OL].[2012-10-25].http://www.cnnic.cn/research/fxszl/fxswz/201207/t20120719_32346.html.
[11]ROBERTS J,HANN I H,SLAUGHTER S.Understanding the motivations,participation and performance of open source software developers:a longitudinal study of the apache projects[J].Management Science,2006,52(7):984-999.
[12]Google.The 1000 most-visited sites on the web[EB/OL].[2012-10-25].http://www.google.com/adplanner/static/top1000.