任佳佳,王念新,葛世伦
(江苏科技大学经济管理学院,江苏 镇江 212003)
在过去的30 多年中,信息系统在提高企业运作效率、改善管理和决策以及增强企业竞争力等方面发挥了巨大作用,一些信息系统已经成了企业参与市场竞争的战略武器。当前,云计算、物联网、移动商务等新兴信息技术的出现,使得全球数据量呈现前所未有的爆发式增长态势,人类社会已经进入大数据时代[1],同时也给企业优化升级其信息系统、创造新的竞争优势提供了难得的机遇。准确掌握用户的访问规律和实际需求,是利用新兴信息技术优化升级企业信息系统的前提。
通过分析用户对信息系统的访问数据和日志数据等,了解用户访问行为规律和实际需求已经成为当前的热点研究问题之一。Chen 等[2]研究了移动服务环境下的用户活动规律;赵国锋等[3]利用在移动通讯运营商互联网网关上采集的实际数据,分析了用户访问兴趣、业务点击量特征、业务流量特性、访问关联性及移动互联网用户的业务访问特性;董宇蔚等[4]应用去趋势波动分析法,研究了电子商务中消费者网上购物行为,他们的研究结果表明人类网上购物行为呈现出明显的周期性,其时间序列的概率密度函数具有显著的双模态特征,其演化过程不同于无关联的泊松过程,具有自组织临界性。
现有对用户访问行为规律的研究主要集中在移动服务、电子商务和Web 上网等情境下,还缺乏企业信息系统用户行为的研究。本文基于人类行为动力学对企业信息系统用户的访问日志数据进行分析,研究了企业信息系统用户访问的时间间隔规律、阵发性、记忆性和周期性。探索企业信息系统用户访问行为的规律,一方面为企业运行维护和优化升级其信息系统提供理论依据,另一方面也有助于拓展用户访问行为规律的研究情境。
全面深刻地认识高度复杂的人类行为特征一直是学者们努力探索的研究方向。以往由于数据记录的手段落后,加上缺乏现代统计工具和方法,在研究涉及人类行为特性的问题时,常常假设人类行为是符合泊松过程的稳态随机过程,其2 个相继行为的时间间隔用负指数分布描述如下:
由公式(1)可知,泊松过程可以看作具有负指数间隔的计数过程,也就是说人类活动模式是随机和平稳的,其时间规律包括相邻事件的时间间隔大体上是均匀的,很长的时间间隔非常稀少。
随着信息技术的不断进步和现代统计工具的涌现,人类记录和分析自身行为数据的手段也越来越高效、便捷,使得利用大规模数据分析人类行为模式成为了可能。2005 年,Barabási[5]在Nature 上发表了一篇题为“The Origin of Bursts and Heavy Tails in Human Dynamics”的论文,标志着人类行为动力学的正式提出,该篇论文通过分析电子邮件发送和回复行为的时间间隔,揭示了人类行为在时间上对泊松分布的偏离,人类行为的时间统计特性不是均匀的,其中伴随着长时间的静默和短时间内的高频率的爆发,相继行为的时间间隔分布具有明显的胖尾特征,可以用幂律分布函数更好地拟合,即:
人类行为动力学是一门新兴的交叉学科,通过对大量人类行为事件进行定量统计,从中挖掘出人类行为的统计规律,提出假设建立模型来探索这些规律的产生机制和可能的动力学影响[6]。虽然人类行为动力学提出时间不到10 年,但是学者们利用该方法在许多领域开展了大量的实证探索,研究情境包括电子邮件[7]、网页浏览[8]、电影点播[9]、金融活动[10]、手机通讯[11-12]、博客论坛[13]、面对面交互网络[14]等,这些实证研究都揭示了人类行为在时间维度上是偏离泊松分布的,在行为模式上都表现出了短时间阵发和长时间休眠的特征。
人类行为的时间特征指标包括间隔时间、阵发性、记忆性、周期性等。
1)间隔时间是指连续2 次相继访问的时间间隔。例如:甲于“2012-01-01 08:08:08”时刻访问信息系统,乙在“2012-01-01 08:08:09”时刻访问信息系统,则甲乙2 个相连行为的间隔时间为1 秒。如果所有系统用户访问信息系统的次数为k 次,则有k-1 个间隔时间。本文的时间单位是秒。
2)阵发性是刻画用户行为短时期密集活动和长时间静默的物理量,本文使用Goh 和Barabási[15]的公式计算阵发性:
其中,στ、mτ分别指间隔时间分布的标准差和平均值。对于指数分布,标准差和均值相等,所以阵发性为0;而对于严重的胖尾分布,标准差远大于均值,B接近1。
3)记忆性是刻画时间间隔特性的相关性程度,人类活动长的时间间隔后面容易跟着一个长的时间间隔,短的时间间隔后则容易跟着一个较短的时间间隔,这样的人类行为发生的时间序列被认为具有记忆性。把所有行为发生的间隔时间按时间发生先后排成序列,把前nσ-1 个间隔时间构成序列1,后nσ-1个间隔时间构成序列2,m1、m2分别为序列1 和序列2 的平均值,σ1、σ2分别是序列1 和序列2 的标准差,本文使用Goh 和Barabási[15]的公式计算时间序列的记忆性:
4)周期性是描述人类特定行为的频数在一个相当有规律的时间间隔内,呈现规律性变动的指标,周期性也往往直接表现在时间间隔的分布上,比如Zhou 等[16]通过分析同一个时区“美国在线”356 610名用户活跃次数,发现这些用户的活跃次数明显存在以一星期为单位的周期性。
为了揭示用户访问企业信息系统的时间特征,本文选择了X 公司作为研究对象,X 公司是国内著名的船舶修造企业,X 公司拥有正式员工及务工人员超过1 万名。X 公司一直重视企业信息系统建设,1999年就投入巨资购买了Oracle 的ERP 系统。由于受到全球经济危机的影响,船舶市场整体低迷,X 公司为了增强企业竞争力,于2011 年9 月实施了成本管理系统。该成本管理系统包括报价成本、目标成本、成本核算、成本分析、财务管理等共8 个子系统,共有注册用户314 名,占企业正式员工总数的98%,自2012年以来每月访问量约31 669 次,人均日访问量3 次,人均日访问系统功能3 个,员工的访问人数和访问量都代表了X 公司的信息化情况,因此本文选择X 公司成本管理系统作为实证情境。
本文从X 公司成本管理系统的数据库日志文件中提取了2011 年9 月14 日到2013 年6 月14 日期间用户对成本管理系统的访问操作,删除了没有登录名和部分错误的记录,共计得到了314 位系统用户的360 631 条访问行为记录,根据员工职位,将用户分为普通员工、管理人员和系统管理员3 类用户组,每类用户的数量和访问量如表1 所示(数据取值时间为2013 年6 月14 日)。
表1 用户及访问量
用户的每条访问行为记录都包含9 个元素(ID、UserID、LoginID、LoginName、LoginTime、LogoutTime、MachineID、MachineName、ModuleName),分别表示序列号、用户号、登录号、登录名、登录时间、登出时间、机器号、机器名、功能模块。
本文对用户访问行为的时间间隔、时间间隔分布图、阵发性和记忆性等指标的计算,以及对用户访问时间间隔的分布图绘制,都是通过笔者编写的Matlab程序完成的。首先,根据得到的X 公司的数据库日志文件,取出所有用户登录访问系统时间,进而计算得到连续相继访问系统行为的时间间隔;然后,通过Matlab 软件,得到相继行为的间隔时间在双对数坐标下的概率分布图;接着,对主体数据拟合得到幂指数及其概率密度函数,并将用户分为普通员工、管理人员和系统管理员3 类人群,分别研究各类用户组对信息系统访问的行为规律特性;最后,截取全体用户2012 年一年的数据来探讨用户访问行为的周期性。
通过笔者自己编写的Matlab 程序,得到全体用户访问成本管理系统相继行为的间隔时间在双对数坐标下的概率分布图,同时利用最小二乘估计方法对主体数据的曲线拟合,得到全体用户访问信息系统相继行为的拟合曲线,如图1 所示。其中黑色点为全体用户访问成本管理系统相继行为间隔时间的原始数据,白色直线是拟合曲线。从图1 可以看出X 公司全体用户访问成本管理系统相继行为间隔时间的概率分布在超过2 个数量级的范围内服从幂律分布函数P(τ)~τ-α,其幂指数α 等于2.268 9,X 公司全体用户访问成本管理系统具有明显的胖尾特征。
图1 X 公司所有用户访问的间隔时间分布
考虑到用户对企业信息系统的访问可能受到其工作职位的影响,比如X 公司的系统管理员承担着成本管理系统的运维任务,需要经常性、长时间的访问该系统,以确保成本管理系统的正常运行;普通员工需要使用成本管理系统完成日常工作,因此也需要频繁地访问成本管理系统;而管理人员在某些情况下才会访问成本管理系统,比如在进行决策,需要用到成本管理系统的信息时,他们访问成本管理系统的时间间隔可能较长,而且行为模式可能更不固定。为了明确不同类型用户对X 公司成本管理系统的访问行为,本文按照用户的工作职位,将全体用户分为普通用户、管理人员和系统管理员3 类,每类用户的数量和访问量如表1 所示。使用如前所述的方法和过程,分别得到了3 类用户访问成本管理系统相继行为间隔时间的概率分布图和曲线拟合,如图2、图3 和图4所示。每类用户访问成本管理系统相继行为间隔时间的概率分布均服从幂律分布函数,具有明显的胖尾特征,但对每类用户而言,其幂律函数的幂指数是不同的,管理人员的幂指数为1.004 8,普通员工的幂指数为2.256 0,而系统管理员的幂指数为0.996 3。
图2 X 公司管理人员访问的间隔时间分布
图3 X 公司普通员工访问的间隔时间分布
图4 X 公司系统管理员访问的间隔时间分布
全体用户与普通员工的幂指数相差很小,这是因为普通员工的数量占全体用户的91.40%,其访问次数占总访问次数的91.05%,所以从图1 和图3 也可以看出,普通员工和全体用户访问的间隔时间分布图几乎一致。但与全体用户相比,管理人员和系统管理员访问的行为间隔时间分布图,头部出现较大的差异,这是因为管理人员和系统管理员用户的人数少,访问量小,他们很少出现某时刻内大量并发访问成本管理系统,只有在工作需要或有任务到达的时候才会访问该系统,所以小的间隔时间所占比例有所减低,大的间隔时间所占比例则增高,即体现在幂律指数的下降。
Vázquez 等[8]利用人类行为动力学,通过电子邮件、网络浏览、图书馆借阅、名人水陆邮件行为等情境的实证研究,将人类行为模式划分为幂指数为1.0 和1.5 这2 大普适类,但是后来的研究发现突破了这2大普适类,幂指数普遍分布于0.5~3.0[17-19]。本文的研究结果表明虽然每类用户访问成本管理系统相继行为间隔时间的概率分布均服从幂律分布函数,具有明显的胖尾特征,但是每类用户行为模式的幂指数是不同的,相差较大,具有多样性,且不满足幂指数为1.0 和1.5 这2 大普适类。
本文运用公式(3)和公式(4)分别计算了X 公司全部用户、管理人员、普通员工、系统管理员用户分别访问信息系统的时间间隔的阵发性和记忆性,计算结果见表2。从表2 可以看出,全体用户、管理人员、普通员工和系统管理员对成本管理系统访问的阵发性量值分别为0.411 7、0.419 8、0.433 8 和0.520 4,即所用用户类对成本管理系统的访问行为阵发性强,而全体用户、管理人员、普通员工和系统管理员对成本管理系统访问的记忆性量值分别为1.059 5e-021、-1.500 6e-021、-2.290 3e-022 和1.860 3e-022,都几乎为0,即所用用户类对成本管理系统的访问行为记忆性弱,也就是X 公司用户对成本管理系统的访问行为表现出强阵发性和弱记忆性。
表2 3 类用户访问成本管理系统的阵发性和记忆性
从实际情况看,不论管理人员还是系统管理员用户,都不会像普通员工一样每天经常性访问信息系统,频繁访问的前后肯定是伴随着更长时间的静默,所以阵发性应该较大,而表2 的计算结果也证明了这一点。
与原有许多文献得到的诸如电子邮件、网页访问、图书馆借阅等活动具有“强阵发弱记忆”的特性一致,X 公司用户对成本管理系统的访问行为也表现出强阵发性和弱记忆性。这表明,对X 公司成本管理系统用户而言,频繁地访问成本管理系统通常是在一大段时间停顿之后,图1~图4 的前一部分显示了间隔时间在100 秒内概率很大,可以得知工作日内并发访问情况严重,有工作任务的时候,管理人员和系统管理员也会在一段时间内不断地访问系统;而图1~图4 的后一部分严重胖尾现象则显示了朝九晚五的工作特性和人们的生活规律、作息时间以及节假日情况。
古代的“日出而作,日落而息”和现代的“朝九晚五”,都说明了人们日常的行为应该具有明显的周期性。为了研究用户对信息系统访问行为的周期性,本文对X 公司2012 年全年所有用户每天访问信息系统的访问频数进行了统计,绘制了所有用户每天访问成本管理系统的频数图,如图5 所示,其中分辨率为天,虚线划分的区域为每个月。从图5 可以看出,用户对成本管理系统的访问行为有明显的波动性,每个月都有近4 个谷底,表示访问量很少,正好对应于一个月内4 个星期的周末,峰值则一般是在每个星期的周中时候,表示此时的访问量最大,这说明用户对成本管理系统访问频数表现出以周为单位的周期性。从图5 中还可以看出,1 月和10 月只有3 个凹谷,这是因为这2 个月分别有春节假期和国庆黄金周。
图5 2012 年X 公司所有用户访问成本管理系统的频数图
图6 给出的是X 公司所有用户7 月1 日到7 月7 日一个星期内访问成本管理系统的频数情况,图6中每条虚线划分的区域是天,该成本管理系统从每天早上7 ∶00 以后才有用户访问记录,但是由于最晚的访问记录时间不同,导致每天的横坐标长度不等。从图6 也可以看出X 公司所有用户对成本管理系统的访问频数具有明显的波动性和周期性。由于该星期内,1 日和7 日是周末,所以整体访问量偏少,在每天的访问中,随着工作的开始,访问量逐渐增大,一般在10 时左右达到最大,然后访问量逐渐下降,直到下午的工作的开始,访问量慢慢增大,每天一般都有2 个峰值,分别对应于上下午10 时和15 时左右,表示此时刻内的访问量最大。唯一例外的是7 月6 日周五,9 ∶00 到10 ∶00 之间,成本管理系统的访问量并非继续上升,而是出现了一段时间的下降,如图6 中圆圈的标注,这是因为当时由于消防演习,许多用户不得不放弃手中的工作,造成成本管理系统的用户访问量下降。
图6 X 公司所有用户一周内访问成本管理系统的频数
为了研究用户访问信息系统的行为规律,利用国内著名的船舶修造企业X 公司成本管理系统的数据库日志文件,获得了2011 年9 月14 日到2013 年6月14 日期间用户对成本管理系统的访问操作记录360 631 条,利用人类行为动力学,获得用户的间隔时间的概率分布、阵发性及记忆性指标,并将全体用户分为管理人员、普通员工和系统管理员3 个用户群体类,深层次地探讨了信息系统用户的行为特征,得到如下结论:1)信息系统用户,不论全体用户还是基于群体层面的管理人员、普通员工以及基于个体层面的系统管理员用户对信息系统的访问间隔时间都有严重的胖尾现象,可以很好地用幂律分布拟合,幂指数差异较大,且有很强的阵发性和记忆性值近似为零的弱记忆性;2)与普通员工相比,管理人员和系统管理员人数少,访问量小,并发访问情况也不严重,所以小的间隔时间所占比例减低,大的间隔时间所占比例增高,这是他们访问行为的幂律指数相对普通用户低的主要原因;3)用户对信息系统的访问行为有很强的波动性和以周为单位的周期性。
与其他人类行为一样,信息系统用户访问行为具有高度的复杂性和多样性。本文对信息系统用户的访问行为规律进行了探索性研究,指出了用户访问行为是不同于泊松分布的幂律分布,且具有阵发性强、记忆性弱以及明显的周期性等特征。仍有一些问题值得进一步研究,比如,分析用户对信息系统的使用频度、对各个业务功能模块访问的差异性,建立一个信息系统用户访问行为的动力学模型来预测用户行为等。
[1]冯芷艳,郭迅华,曾大军,等.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013,16(1):1-9.
[2]Chen Tzung-Shi,Chou Yen-Ssu,Chen Tzung-Cheng.Mining user movement behavior patterns in a mobile service environment[J].IEEE Transactions on Systems,Man and Cybernetics,Part A:Systems and Humans,2012,42(1):87-101.
[3]赵国锋,赖雯静,徐川,等.移动互联网的业务访问特性[J].计算机学报,2013,36(7):1388-1398.
[4]董宇蔚,蔡世民,尚明生.电子商务中人类活动的标度行为实证研究[J].物理学报,2013,62(2):548-555.
[5]Barabási A-L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.
[6]周涛,韩筱璞,闫小勇,等.人类行为时空特性的统计力学[J].电子科技大学学报,2013,42(4):481-540.
[7]Oliveira J G,Barabási A-L.Human dynamics:Darwin and Einstein correspondence patterns[J].Nature,2005,437(7063):1251.
[8]Vázquez A,Oliveira J G,Dezsö Z,et al.Modeling bursts and heavy tails in human dynamics[J].Physical Review E,2006,73(3):036127-1-036127-19.
[9]Zhou Tao,Kiet H A-T,Kim B J,et al.Role of activity in human dynamics[J].EPL (Europhysics Letters),2008,82(2):28002-p1-28002-p5.
[10]Scalas E,Kaizoji T,Kirchler M,et al.Waiting times between orders and trades in double-auction markets[J].Physica A:Statistical Mechanics and Its Applications,2006,366:463-471.
[11]Candia J,González M C,Wang Pu,et al.Uncovering individual and collective human dynamics from mobile phone records[J].Journal of Physics A:Mathematical and Theoretical,2008,41(22):224015-1-224015-11.
[12]Jiang Zhi-Qiang,Xie Wen-Jie,Li Ming-Xia,et al.Calling patterns in human communication dynamics[J].Proceedings of the National Academy of Sciences of the United States of America,2013,110(5):1600-1605.
[13]Guo Jin-Li.Weblog patterns and modeling human dynamics with decaying interest[J].CoRR,2010,01/2010;abs/1008.0042.
[14]Starnini M,Baronchelli A,Pastor-Satorras R.Modeling human dynamics of face-to-face interaction networks[J].Physical Review Letters,2013,110 (16):168701-1-168701-5.
[15]Goh K-I,Barabási A-L.Burstiness and memory in complex systems[J].EPL (Europhysics Letters),2008,81(4):48002-p1-48002-p5.
[16]Zhou Tao,Zhao Zhi-Dan,Yang Zimo,et al.Relative clock verifies endogenous bursts of human dynamics[J].EPL (Europhysics Letters),2012,97 (1):18006-p1-18006-p6.
[17]Bohorquez J C,Gourley S,Dixon A R,et al.Common ecology quantifies human insurgency[J].Nature,2009,462(7275):911-914.
[18]Zhu Jun-Fang,Han Xiao-Pu,Wang Bing-Hong.Statistical property and model for the inter-event time of terrorism attacks[J].Chinese Physics Letters,2010,27(6):068902-1-068902-4.
[19]Takaguchi T,Nakamura M,Sato N,et al.Predictability of conversation partners[J].Physical Review X,2011,1(1):011008-1-011008-16.