徐瑾辉 马超
【摘要】在各类社交网站是信息传播的有利平台这一现实条件下,我们利用该实际问题与传染病传播模型的相似性,以及其本身传播方式与树状图的共性,结合以常微分方程为主体算式的计算方法,对这一问题进行了深入探讨。因此,本文建立了以传染病传播模型为基础,以实际应用问题为背景的模型改良。通过运用以上改良的模型,我们建立起了一套完整计算“从第一人发布信息起,在有限日的时间内,获取消息的人数”的算法。
【关键词】传播速度;结点;传染病传播模型;数据背景;印象度
1.问题的引入与分析
为了更合理的描述这个问题,我们引入一个例子,并以此为例提出解决方案。我们假设一家企业想利用社交网络在奥运会期间进行企业宣传,假设现在距离奥运会开幕还有100 天,一个社交网络的专业推广者平均每天可以新增500个粉丝,这些粉丝会把推广者发布的和奥运会相关的所有信息都分享给自己的粉丝们,普通网络用户平均每天可以新增20个粉丝。
根据以上条件预测奥运会开始后,一条含有企业广告的奥运会新闻可以被多少人观看到?
2.基本假设
为了切入的方便,我们特提出如下假设,其中的部分假设会在模型检验的步骤中加以去除。
(1)消息的传播不会经过一层就断掉(也就是说,在社交网络专业推广者以下的各层直接或间接粉丝中,接收消息的人可以成为传播消息的人)
(2)粉丝的重复问题,由于重复的粉丝数在巨大的网络下很小,所以重复率很低,暂不考虑。
(3)从收到消息到传播消息中间的时间忽略不计。
(4)传播信息的过程中不考虑传播者传播的主观因素。
(5)假设在该社交平台上专业推广者(即网络推手)只有1人,且其个人社交平台的实际运营时间为0,粉丝基数为0。
(6)假设该社交网站所有用户每天所发布的信息都会在当天被其粉丝看到。7、该社交网站在所有时间段的平均人流量均相等。
(7)本文中所指的社交网站以推特网(Twi-tter)为例子,假定总用户人数为5亿人。(见参考文献[1])
(8)假设若A是B的粉丝,则B所发布的消息必然会被A看到,而A看到后必然会转发给A的粉丝。
备注:可能会存在死亡节点与爆炸性节点的问题。死亡结点指该消息传到某粉丝处时停止传播(如僵尸粉);爆炸性结点指该消息传播到某粉丝处时,由于该粉丝的传播立即得到极大规模粉丝的传播,造成了极大地影响力(如名人)。
3.符号约定
N:该社交网站平台拥有的用户总人数(以Twitter为例子,其中N=5亿[1])
t: 传播时间
s(t):未了解该消息的各层粉丝所占该社交网络平台所有用户数目的比例
i(t):已经知道该消息的人所占该社交网络平台所有用户数目的比例
a(t):专业的社交推广者所占该社交网络平台所有用户数目的比例
b(t):其他知道该信息的粉丝所占该社交网络平台所有用户数目的比例
V:该模型整体的传播速度
E:总影响力
n:该连接网络上级与下级所构成的单向传递方式连接数目的总和
ρ:该连接网络上级与下级所构成的单向传递方式的强度大小
4.原理与模型
4.1 概念的引入
在这里,我们引入一个新的概念:体传播速度,我们用v来表示。我们给他下一个定义:个体传播速度指一条消息在两个用户间传播的快慢。有了传播速度的制约,这样一来,就避免了信息在瞬间覆盖整个社交网站的无限传播状况。制约个体传播速度的因素有以下三点:
(1)原材料的属性。各种不同的消息有着不同的属性。原材料的属性决定着传播速度。在普罗大众的这一角度,由于消息只有一则,则原材料的属性的数值是不变化的,可以看作一个常数。
(2)该连接网络上级与下级所构成的单向传递方式连接数目的总和,简称连接数目。符号为n。在这个“树状图-核裂变反应模式”模型中,作用类似于“树枝”的连接数目也起着至关重要的作用。在上层,假设断了一支,则传播相同消息给相同的人数需要远多于之前的时间,且这一时间随着层数的递减呈指数爆炸形的增长。
(3)该连接网络上级与下级所构成的单向传递方式的强度大小,简称连接强度。符号为ρ(0≤ρ<1)。定义如下:它指的是下一层粉丝的实际影响力。也就是说,下一层粉丝所构成的一个影响直接导致了连接强度。我们将n在强度ρ下的加权称为该用户的总影响力E,即:
为第j条连接的强度。
通过以上几点,我们容易知道,V有稳定性,不变性的特点,且根据我们的分析,V最终只由E决定,且与E呈正相关趋势。这样我们可以得到一个函数v=f(E)。不过我们并不需要计算出f具体的表达式。我们仅仅需要f的这样一条性质:f在R+上是连续的,且是严格增函数。这样,我们所引入f的全部力量,则是为了下一个概念的引入:整体传播速度V。
根据之前的假设与符号约定,我们定义整体传播速度为:
当v=f(E)中的f具有我们之前所讨论的性质之时,显然有存在且有意义。这其中的理论证明将不再赘述。
4.2 构造模型所需要的函数
其实我们容易发现,该模型的传递方式类似于传染病的传播方式,广告的传递者可以看为病人,而没有看到广告的用户可以看作是健康人。同时,广告的传递者每天新增的粉丝数可以看作是病人每天有效接触的人数。因此,广告在社交网络中的传播可以看作是一种传染病的传播模型(SI模型,见参考文献[2]):
假设:
(1)区分感染者(病人)与未感染者(健康人),其占总体的比例分别为i(t)与s(t)。
(2)总人数为N且不变。
(3)每个病人每天有效接触人数为λ,且使健康人致病。
那么可以列出方程:
其中:
进一步,令,则有:
与传统的传染病数学模型不同的是,原论题中存在着两种相当于“病人”的角色:(1)专业推广者;(2)看到消息的普通用户。因此一种很自然的想法是,将病人比例函数i(t)分为两个部分:专业推广者比例函数a(t)以及看到消息的普通用户的比例函数b(t).所以,我们可以列出以下微分方程算式,进行求解。
(1)
(2)
(3)
(4)
(5)
(6)
求解,得到这样一条微分方程:
(7)
其中a=-20, b= 19.99999904,c=0.00000096
与传统的传染病数学模型的另一点不同是,原论题中并没有对传播速度加以限定。但通过上一节中对于消息传播速度的定义以及其详尽讨论,我们可以保证微分方程(7)左端的存在且有意义。这样一来,本题就转化为了对于方程(7)的求解。
4.3 模型的求解
我们首先对方程(7)中的i(t)进行求解。应用MATLAB进行求解的最终表达式为:
i(t)=-(b-tan(((t+(2atan((a/250000000+b)/(4ac-b2)0.5))/(4ac-b2)0.5)*(4ac-b2)0.5) /2)*(4ac- b2)0.5)/(2a) (8)
这样,问题即划归为求解i(100)的数值;
进一步修改方程(1)为:
(9)
同时根据我们之前的假设,Twitter总用户人数为5亿人,那么理论上只要覆盖这5亿人中的百分之四十,即可覆盖2亿的潜在用户中的百分之四十。
4.4 模型的数学分析
我们通过MATLAB对进行计算,得出一个惊人结论:。即:在第100天到来时,几乎整个Twitter上的用户都可以看到该公司的广告。这说明,在不限制速度的条件下,第二天所有该社交网络上的客户就可以看到该信息。现在我们加入一些限定条件,在下一节对模型进行进一步修改。
4.5 模型的检验与修正
通过对模型的检验,我们发现在实际问题中,存在一些与假设所矛盾的条件。通过一定的计算,现在对模型进行一定的修改。
(1)引入“粉丝基数”的概念
我们引入新的概念“粉丝基数”,并为它下个定义:粉丝基数指传播消息的个人用户在传播消息之前本来拥有的粉丝数目。我们可以把粉丝基数分为两大类:第一类指的是推广者的粉丝基数,这就意味着推广者在推广之前存在着一定的粉丝数目,这个粉丝数目与其个人社交平台的实际运营时间呈现正相关的关系。由于推广者的影响力很大,所以其基数应该在平均值之上;第二类指的是被推广者的粉丝基数。这类被推广者的条件绝大部分都符合一般个人用户所拥有的条件,其粉丝基数应在总平均值上下取整浮动,且绝大部分都集中在中间的区间内。这就类似于正态分布“中间高,两头低”的分布效果。
当然,在具体的数学处理手法上,引入“粉丝基数”并不会实质性改变模型的结构,因为修改后的模型可以看作是:
当t=1时参数λ取粉丝基数;
当t>1时直接利用“粉丝基数=0”的模型。
(2)引入“有效用户”以及“有效率”的概念
由于里面存在一些非恶意的注册,一些用户可能因为某种特殊原因关注了一些自己关注的人之后,就没有进行登录。或者在中间曾经登录,但是在消息传播的这100天中没有登录。当然,他们也有一定的粉丝数目。这是他们与僵尸粉的本质区别。但是,由于他们无法对信息进行一定的传递,所以与之相反的,所有可以接收消息并对进行对消息下一层传递的个人用户,我们称为“有效用户”。所以,当我们对一个个人用户的粉丝进行分类时,可以分为僵尸粉和正常粉两类。正常粉中又可以分成有效用户与无效用户两类。那么在这里同样引入“有效率”的概念:即有效人数占其粉丝总数的百分比。在正常的信息传递中,有效用户及有效率这两个概念是不可忽略的,他们决定着信息是否可以通过正常的方式进行传播。当然,在数据中也有一些“空值”,但是很明显的是,这些空值的数量非常非常小,所以对数据分析并不造成任何决定性的影响。
(3)具有影响力的个人账户的运营时间
由于这些个人社交网站(如:Twitter)从成立到如今的运营时间并不长,很明显,名人的注册时间距离现在也并不会遥远。当然,因为有了名人的注册效应,在某种程度上才会吸引大批草根网民进行注册。所以所有名人的平均个人社交运营时间应该在该网站产生大量注册的时间点稍微往前一点到传播该奥运会新闻的时间。当然,名人注册的多了,网站就会进行名人的“实名认证”服务。在推出这项服务的时候,我们有理由相信已经有名人开始注册。所以它的实际运营时间应该就在该时间段。以Twitter为例,根据资料,开始名人实名认证的时间应该在2009年6月[3]。所以这基本确定了该具有影响力的个人社交平台的实际运营时间。到伦敦奥运会距离约3年。
(4)粉丝类型的分层
按照我们开始的假设,所有粉丝是平均分布的。但是,在实际情况下,这是不科学的,因为在实际情况中,就我们自己而言,我们认识的普通朋友多,名人少。且极少情况与名人产生互粉效应。所以得知粉丝类型的分层以及比例对了解新闻的传播有着至关重要的作用。
参考文献
[1]“统计称Twitter人数已突破五亿大关”[OL].http://www.199it.com/archives/tag/twitter%E6%B3%A8%E5%86%8C%E7%94%A8%E6%88%B7%E6%95%B0,2012-02-25.
[2]姜启源,谢金星,叶俊.数学模型(第四版)[M].北京:高等教育出版社,2011.P136-P144.
[3]互联网“Twitter推出名人账号验证服务”[OL].http://www.cnii.com.cn/20080623/ca558675.html.2009-06-08.