王涛春,刘婷婷,刘 申,何国栋
(1.安徽师范大学 数学计算机科学学院 安徽 芜湖 241002; 2.网络与信息安全安徽省重点实验室(安徽师范大学),安徽 芜湖 241002)
群智感知(Crowd Sensing)是一种新型的基于移动智能设备的感知方式,被称为“以人为中心的感知”[1],由大量参与者完成收集数据的任务。与传统的利用传感器节点感知的方式相比,该方式节省了部署和管理节点的开销,并且解决了传感器节点位置固定的问题。由于群智感知低成本、高参与度的特点,这种感知已被广泛应用,如交通信息采集系统[2]、噪声采集系统[3]以及景点环境监测系统等。
然而,在各种实时信息的采集系统中,参与者提交数据的时间存在延迟、数据覆盖率不高以及提交的数据与任务所需数据不相关等因素直接影响提交数据的质量,进而影响任务完成的质量。因此,提高数据质量是保证群智感知系统服务质量的关键因素。为了提高感知数据的质量,研究人员提出了许多相关的激励机制[4-6]、信誉评估模型[6-10]以及相关隐私保护方法[11],但现有的信誉评估模型大多计算影响因素和信誉度的等级,而非具体数值。例如:文献[9]在信誉评估模型设计时,考虑了参与者能力、响应时间、位置以及参与者和任务请求者的联系等因素,得出T(信誉) = {VL,L,M,H,VH},将参与者信誉分为5个等级,未将信誉度数值化,导致评估准确度不高。为了解决上述问题,本文提出基于逻辑回归模型的参与者信誉评估方案(Participant Reputation Evaluation Scheme, PRES)。该方法将响应时间、距离、历史信誉度这3个自变量定义为[0,100]的数值,将数据相关性和数据质量定义为表示等级的数值,并且将参与者本次提交数据后的信誉度表示为[0.0,1.0]的概率值。方法基本思想为:根据参与者历史信誉度和本次提交数据的质量对参与者信誉度进行评估,综合考虑响应时间、距离、历史信誉度、数据相关性以及数据质量5个方面的因素,计算出参与者本次提交数据能够被信任的概率,并根据任务请求者的要求对参与者进行选择,保证参与者提交数据的质量。
相比现有的用户信誉评估模型,本文提出的PRES的优点在于:1)综合考虑影响数据质量的多方面因素,并且将历史信誉度作为计算依据,以激励用户持续提交高质量数据。2)PRES基于逻辑回归模型对参与者信誉度进行计算,得出的信誉度分布具有边缘化的特征,便于感知网络选择合适的参与者。3)将任务根据时间紧急程度分类,任务请求者可以选择任务要求提交的时间范围,系统根据不同的时间要求,调整逻辑回归参数。4)相比用等级表示响应时间、距离和历史信誉度,将自变量数值化,方便利用逻辑回归模型,确定回归方程,将自变量的微小变化反映在参与者信誉度上,使得对参与者本次提交数据的质量作出精确评估。
数据质量是保证感知系统服务质量的关键,很多学者提出了许多方案,这些方案根据其目的分为激励机制和参与者信誉评估模型两类。
激励机制即通过设计合理的激励方式来鼓励更多的参与者参与感知任务,并提交高质量可靠的感知数据。Guo等[1]提出通过一定的激励手段提高用户意识、环境意识和社会意识,这样可以有效地提高用户的参与度,但这种依靠提高意识来约束参与者的方式,很难从根本上保证数据的质量。吴垚等[4]对各种激励方式进行了分析,在报酬支付激励方式中,利用博弈论的机制能够解决参与者之间的冲突以及合作关系,并且可以分析参与者的行为。社会关系激励是针对机会感知网络,建立参与者之间的信任体系,从用户行为、贡献和信誉等方面保证数据质量。
参与者信誉评估模型方面,南文倩等[6]设计出基于采集数据的响应时间、覆盖率、相关性以及历史信誉4个方面的信誉评估模型CSII,对参与者提交的数据进行分析,利用模糊化的方式计算用户信誉。CSII中规定“时间因子”“地点因子”和“相关性”这个3个自变量的取值为“高”“中”“低”,分别对应于H、M、L这3个等级,而这3个因素共同影响的输出变量“数据质量”的取值为“非常高”“高”“中”“低”“非常低”,分别对应于VH、H、M、L、VL 5个等级。Amintoosi等[7]提出参与者提名模型和参与者选择模型,在某参与者被提名后,再根据其信誉值、距离任务截止时间、提交数据及时性这3个因素选择最终参与者。经过两次选择,可在一定程度上保证优选参与者,但最终的信誉评估也是利用模糊化的方法,将T(信誉度)设定为{VL,L,M,H,VH}5个等级。这种模糊化的方式将导致计算出的参与者信誉多数分布在[0.4,0.6]区间内,若以信誉度为0.5作为评价信誉优劣的分界线,则对某参与者信誉度是否判定为“优”存在不确定性,从而使评估准确率降低。刘琰等[12]提出一种面向多任务并发的参与者优选方法,但该方法仅根据参与者完成任务所需移动的总距离最短来选择合适的参与者,具有局限性。
综合以上因素,我们发现现有研究存在评估结果集中化和评估准确率低的问题。为了便于感知网络选择合适的参与者,并且提高评估准确率,本文提出了基于逻辑回归模型的参与者信誉评估系统PRES,考虑响应时间、距离、历史信誉度、数据相关性和数据质量五个方面的因素,通过回归分析,计算出每一个影响因素的系数,形成回归方程,作为评估参与者信誉度的标准。
群智感知网络体系结构由五部分组成[13],包括任务请求者(Task Requester, TR)、注册验证者(Registration Authority, RA)、参与者(Mobile Node, MN)、服务提供者(Service Provider, SP)和外围组件,如图1所示。
图1 群智感知网络体系结构 Fig. 1 Architecture of mobile crowd sensing network
首先,任务请求者TR向RA提交需要参与者完成的任务,该任务经过RA的检查和加密后,由RA将加密任务发送给SP。参与者即移动智能设备,具有感知能力,可以向RA注册以参与感知任务,若参与者想要参与一个任务,则可从SP获取任务,完成感知任务后,将感知数据提交给SP,并由SP分析参与者提交的数据以及其历史信誉度,根据信誉评估方程计算本次提交数据的信誉度,若符合要求,则将数据转换为请求者需要的信息,反馈给任务请求者。这一过程,能够在一定程度上解决用户隐私的问题。本文主要研究的是SP如何选择最合适的n个参与者。
PRES对参与者信誉评估的标准包括5个方面:响应时间x1,即任务请求者要求的时间和参与者提交任务的时间差值,单位:min;距离x2,即任务请求者要求感知任务的地理位置与参与者提交任务的地理位置的距离,单位:m;历史信誉度x3,即参与者的历史信誉度;数据相关性x4,即参与者提交的数据与要求数据的相关程度;数据质量x5,在本系统中采集任务主要是收集图片和声音,而数据质量则可以认定为图片的像素以及声音的纯净度。系统中使用的数据来自真实数据集Dartmouth College Wi-Fi campus trace[14],该数据集中包含时间戳、测试点和其他感知节点的距离(单位:km)、感知声音质量(分为4个等级,分别是:QUIET、 NORMAL、ALERT和NOISY)以及感知节点的状态(包括STATIONARY、WALKING和RUNNING),本文以收集声音为例,定义数据集中的时间戳为参与者提交任务的响应时间;将数据集中的测试点和其他感知节点的距离单位转换为“m”来表示任务请求者要求感知任务的地理位置与参与者提交任务的地理位置的距离;数据相关性则是根据参与者执行感知任务时的状态确定,若状态为“STATIONARY”,则认为该参与者能够准确地感知其所在位置的信息,x4=100,“WALKING”表示x4=70,“RUNNING”表示x4=50;将感知声音质量等级转换为表示等级的数值,即“QUIET”表示x5=100,“NORMAL”表示x5=70,“ALERT”表示x5=50;在参与者第一次参与任务时,无历史信誉度,则根据以上4个因素计算本次信誉度。 在上述五个因素的共同作用下,参与者的信誉度Y表现为:数据质量高、可信任(Y=1)和数据质量低、不可信任(Y=0)两个层次。
针对群智感知网络中参与者众多、数据量巨大的问题,提出参与者信誉评估方法PRES,为感知网络选择合适的参与者,以保证数据质量。该方法综合分析响应时间、距离、历史信誉度、数据相关性和数据质量这5个方面的因素,同时,允许任务请求者选择设置任务完成时间,根据不同的任务时间限制,利用逻辑回归方法计算出5个影响因素分别对信誉度的影响,得出参与者信誉评估方程,作为评估依据。
在参与者信誉评估问题中,参与者的信誉可分为可信任和不可信任两种,对于这种二项分布的判别,逻辑回归模型可以方便地判断参与者属于哪种类型。逻辑回归模型的主要特点是:由若干个自变量x影响一个因变量y,且y的值为0或1。在PRES中,有5个自变量,分别为:响应时间x1;距离x2;历史信誉度x3;数据相关性x4;数据质量x5。因变量为y,y=1表示参与者可信任,y=0表示参与者不可信任。
3.1.1 基本模型概述
设y是0-1型变量,表示信誉度值,x1,x2,…,xn是决定yi取值的确定性变量,则yi与xi1,xi2,…,xin的关系可表示为:
E(yi)=pi=f(β0+β1xi1+β2xi2+…+βnxin)
其中:f(z)为LOGISTIC函数,基本形式为:
f(z)=p=1/(1+e-z)
在本系统中:
z=β0+β1xi1+β2xi2+…+βnxin
对上式进行转换并取对数,得到逻辑回归模型:
3.1.2 逻辑回归模型参数估计
模型中的参数β0,β1,…,βn利用最大似然估计进行计算,记用户可信任时y=1,此时的条件概率为P(yi=1)=pi,P(yi=0)=1-pi,于是得到一个信誉度值的概率为:
P(yi)=piyi·(1-pi)1-yi
因为各个参与者信誉度值相互独立,故似然函数为:
对该似然函数等式两边取对数,得到对数似然函数为:
ln(1+e(β0+β1x1+…+βnxn))]
3.2.1 确定评估方程
针对Dartmouth3College Wi-Fi campus trace数据集,对数据集中的数据进行采样并利用SPSS软件求解各个影响因素的系数。实验根据任务请求者对于时间的不同限制给出了不同的信誉评估方程,从而保证任务的时效性,进一步满足用户需求。根据群智感知用户参与一个任务的一般时长,分别将任务时间限制设为30 min、1 h和2 h来求解评估方程参数,同时,为平衡各变量的系数,将历史信誉度作乘以100的处理,将其范围设定在[0,100],结果如表1。
表1 不同时间限制时的评估方程参数Tab. 1 Parameters of evaluation equation with different time limit
从表1(时间限制为30 min)得出信誉评估的回归方程为:
ln(yi)=-19.269-0.150x1-0.016x2+0.142x3+
0.150x4+0.108x5
(1)
从表1(时间限制为1 h)得出信誉评估的回归方程为:
ln(yi)=-9.668-0.104x1-0.015x2+0.123x3+
0.139x4+0.021x5
(2)
从表1(时间限制为2 h)得出信誉评估的回归方程为:
ln(yi)=-28.890-0.040x1-0.026x2+0.189x3+
0.155x4+0.143x5
(3)
3.2.2 算法描述
信誉度评估算法包括3个进程,分别为任务请求者进程、参与者进程和群智感知系统进程。其中,任务请求者设置时间限制、提交任务请求;参与者获取和完成感知任务,并提交包含响应时间、距离、历史信誉度、数据相关性和数据质量的任务报告;系统根据上述5个因素计算出参与者信誉度,通过判断信誉度是否大于0.5,选择合适的参与者,具体见算法1。
算法1 信誉度评估(reputation evaluation)。
符号说明:TLimit为任务请求者设置的时间限制,T为时间差,L为距离,H为历史信誉度,R为数据相关性,Q为数据质量,RP为参与者信誉度;
//任务请求者活动
Requester: setTLimit(TLimit);
submitTask();
//参与者活动
Participant: getTask();
//采集的5个评估参数
T← time;L← locality;H← HistReputation;R← relation;
Q← quality;
//计算信誉度
System:RP←w1*T+w2*L+w3*H+w4*R+w5*Q;
//判断是否被信任
ifRP> 0.5
then select;
//可信任:选择;
else discard;
//不可信任:丢弃
在实验数据集中抽取数据进行评估,将任务提交时间限制分别设置为30 min、1 h、2 h,设评估正确的总体百分比表示为E,对第i个样本点的观测值为Yi1,预测值为Yi2,总的实验数目为n,则:
其中,I(*)为指示函数:当*为真时,函数值为1;否则为0。表2中显示了这3种情况下对应的评估正确率。
表2 不同时间限制下的评估准确率Tab. 2 Evaluation accuracy under different time constraints
根据实验,得到结果:利用该方法进行信誉度评估时,评估正确的总体百分比达到90%以上。本节从数据集中随机抽取10位参与者提交的数据,设定任务提交时间限制为30 min,则根据信誉评估的回归方程(1),综合响应时间、距离、历史信誉度、相关性和数据质量对他们的信誉度进行了评估,得出的结果如表3所示。
表3 信誉度评估结果Tab. 3 Results of reputation evaluation
本节从参与者信誉度分布和评估准确率两个方面来验证PRES性能,并与CSII方法进行比较。为了保证实验结果的真实性,本实验随机抽取Dartmouth College Wi-Fi campus trace数据集中的数据。
4.2.1 参与者信誉分布
PRES假设信誉度大于0.5即为该参与者的信誉较高,可作为感知网络的待选参与者。参与者信誉度分布对于选择合适的参与者具有很大意义,若评估出的参与者信誉度集中在[0.4, 0.6]区间内,参与者信誉度无明显差异,则感知网络很难选择合适的参与者。若评估出的参与者信誉度集中于[0.0, 0.3]和[0.7, 1.0]时,参与者的信誉度差异非常明显,感知网络可以很方便地选择较为合适的参与者。
图2 参与者信誉度分布区间 Fig. 2 Interval of participant’s reputation distribution
CSII系统根据参与者历史收集数据的质量来计算参与者信誉,同时也考虑了时间因子、地点因子和相关性的影响,利用模糊化的方法将影响因素分为若干等级,假定CSII模型中的VH=0.9,H=0.7,M=0.5,L=0.3,VL=0.1。而在PRES中,数据质量等因素都由具体数值表示,PRES和CSII关于参与者信誉度分布比较如图2。从图2可以看出,PRES评估出的参与者信誉度集中分布在[0.0,0.2]和[0.8,1.0]区间内。而CSII评估出的参与者信誉度集中分布在[0.4,0.6]区间内,使群智感知系统难以选择合适的参与者。CSII模型利用模糊化的方法,将各个影响因素划分为L、M、H 3个等级,再根据这些影响因素的不同等级组合,映射出数据质量的等级,而在这个映射过程中,40.1%的组合都映射为M等级(即信誉度为0.5),所以导致该系统的信誉度分布集中在[0.4,0.6]区间,数据质量不易判断。
4.2.2 评估准确率
评估准确率是衡量信誉评估方法的最重要因素之一,评估的准确率高就可以保证数据质量。对于已存在历史信誉度的参与者,影响其本次信誉度的因素包括响应时间、距离、历史信誉度、数据相关性和数据质量。在任务请求者设定的不同限制时间下,PRES和CSII对用户信誉度评估的准确性比较如图3所示。假设参与者信誉度大于0.5表示可信任,从图3可以得知:在不同的时间限制下,PRES对信誉度评估的准确性均大于90%,而CSII不能适应可变的时间限制,准确率明显低于PRES。
图3 评估准确率 Fig. 3 Accuracy of evaluation
4.2.3 复杂度分析
设已在系统中注册的参与者人数为n,SP接收到参与者提交的数据为m份,则SP逐一对参与者进行信誉评估,这一过程需要在系统中查找该参与者的历史信誉度,若使用二分查找方法,则时间复杂度为O(logn),再将该参与者提交数据的响应时间、距离、历史信誉度、数据相关性和数据质量输入系统,系统则根据对应的信誉评估方程,计算出参与者本次提交数据后的信誉度。该算法的复杂度为O(nlogn)。
针对群智感知网络中数据质量难以保证、参与者信誉度评估不准确的问题,本文提出了参与者信誉评估方法PRES,综合考虑响应时间、距离、历史信誉度、数据相关性和数据质量五个方面的因素,利用逻辑回归模型计算出每一个因素对用户信誉度的影响程度,得出信誉评估方程。分析表明,PRES能够降低群智感知网络选择合适的参与者的难度,也能较为准确地对参与者本次提交数据后的信誉度进行计算。接下来将对信誉评估的回归方程进一步研究和改进,使其适应于更多的环境。
参考文献(References)
[1] GUO B, YU Z, ZHOU X, et al. From participatory sensing to mobile crowd sensing [C]// PerCom 2014: Proceedings of the 2014 IEEE International Conference on Pervasive Computing and Communications Workshops. Piscataway, NJ: IEEE, 2014: 593-598.
[2] THIAGARAJAN A, RAVINDRANATH L, LACURTS K, et al. VTrack: accurate, energy-aware road traffic delay estimation using mobile phones [C]// SenSys ’09: Proceedings of the 7th ACM Conference on Embedded Networked Sensor Systems. New York: ACM, 2009: 85-98.
[3] STEVENS M, D’HONDT E. Crowdsourcing of pollution data using smartphones [EB/OL]. [2017- 04- 03]. https://www.researchgate.net/publication/228911632_Crowdsourcing_of_Pollution_Data_using_Smartphones.
[4] 吴垚,曾菊儒,彭辉,等.群智感知激励机制研究综述[J].软件学报,2016,27(8):2025-2047.(WU Y, ZENG J R, PENG H, et al. Survey on incentive mechanisms for crowd sensing [J]. Journal of Software, 2016, 27(8): 2025-2047)
[5] KAWAJIRI R, SHIMOSAKA M, KASHIMA H. Steered crowdsensing: incentive design towards quality-oriented place-centric crowdsensing [C]// UbiComp 2014: Proceedings of the 16th ACM International Joint Conference on Ubiquitous Computing. New York: ACM, 2014: 691-701
[6] 南文倩,郭斌,陈荟慧,等.基于跨空间多元交互的群智感知动态激励模型[J].计算机学报,2015,38(12):2412-2425.(NAN W Q, GUO B, CHEN H H. et al. A cross-space, multi-interaction-based dynamic incentive mechanism for mobile crowd sensing [J]. Chinese Journal of Computers, 2015,38(12):2412-2425.)
[7] AMINTOOSI H, KANHERE S S, ALLAHBAKHSH M. Trust-based privacy-aware participant selection in social participatory sensing [J]. Journal of Information Security and Applications, 2015, 20(C):11-25.
[8] TORSHIZ M N, AMINTOOSI H. Collusion-resistant worker selection in social crowdsensing systems [J]. Computer and Knowledge Engineering, 2017, 1(2): 9-20.
[9] AMINTOOSI H, KANHERE S S. A reputation framework for social participatory sensing systems [J]. Mobile Networks and Applications, 2014,19(1): 88-100.
[10] 张涛,马建峰,习宁,等. 面向服务移动社交网络中基于信任的分布式服务组合方法[J].电子学报,2016,44(2):258-267.(ZHANG T, MA J F, XI N, et al. Trust-based decentralized service composition approach in service-oriented mobile social networks [J]. Acta Electronica Sinica, 2016, 44(2): 258-267.)
[11] MA R, XIONG J, LIN M, et al. Privacy protection-oriented mobile crowdsensing analysis based on game theory [C]// IEEE TrustCom 2017: Proceedings of the 16th IEEE International Conference on Trust, Security and Privacy in Computing and Communications. Piscataway, NJ: IEEE, 2017: 990-995.
[12] 刘琰,郭斌,吴文乐,等.移动群智感知多任务参与者优选方法研究[J].计算机学报,2017,40(8):1872-1887.(LIU Y, GUO B, WU W L, et al. Multitask-oriented participant selection in mobile crowd sensing [J]. Chinese Journal of Computers, 2017,40(8):1872-1887.)
[13] SHIN M, CORNELIUS C, PEEBLES D, et al. Anonysense: a system for anonymous opportunistic sensing [J]. Pervasive & Mobile Computing, 2011, 7(1):16-30.
[14] CRAWDAD. Dartmouth College Wi-Fi campus trace [DB/OL]. [2017- 01- 29]. http://crawdad.org/unauthorized.html.
This work is partially supported by the National Natural Science Foundation of China (61402014).
WANGTaochun, born in 1979, Ph. D., associate professor. His research interests include privacy preserving, wireless sensor network.
LIUTingting, born in 1996, B.S. candidate. Her research interests include crowd sensing.
LIUShen, born in 1996, B.S. candidate. His research interests include wireless sensor network.
HEGuodong, born in 1980, Ph. D., associate professor. His research interests include signal processing.