刘璐 黄伟
摘 要:分析如何提高随手快递中的及时性,为此开展随手快递中的个性化推荐研究,在充分考虑用户信息、配送信息、随手人信息、时间等信息基础上,解决项目初期信息冷启动问题,获得个性化的预测评分值公式,提出了推荐算法.
关键词:随手快递;个性化推荐;协同过滤;多指标
中图分类号:F27 文献标识码:A doi:10.19311/j.cnki.16723198.2018.30.023
1 推荐服务研究
1.1 收集用户信息,配送信息
定义1(将收集信息进行分析形成信息簇)。
现在常用的聚类算法有K-means、DBSCAN等,本文选择聚类速度快且能够有效处理噪声点和发现任意形状簇的DBSCAN算法。DBSCAN算法需要两个参数:扫描半径(eps)和最小包含点数(minPts)。通过实验我们将半径eps设置为0.6,将最小包含点数设置为150。
具体过程如下:
(1)在信息集P中任选一个未被访问的元素a,a属于信息集P,找出与a元素距离在eps之内(包括eps)的附近元素。
(2)如果附近的元素的数量大于minPts,则当前元素与其附近元素形成一个簇。并且将该元素标记为已经访问,重复步骤1选取簇内未被访问的元素作为a,直到簇内元素全部被访问。
(3)如果附近的元素的数量少于minPts,则该元素暂时被标记为噪声元素。
(4)重复步骤1,直到集合P内的所有元素全部被访问。
通过上述4个步骤我们将暂时被标记的噪声元素集记为元素集Z。
定义2(相似用户群体)。
设用户Ui和Uj的服务评价分别是LUi=(USi,O.DEi )和LUj=(USj,O.DEj),如果USi∩USj≠□且|USi∩USj|≥M,则称用户Ui与Uj之间为偏好相似用户。M为条件限数,M的大小将影响到用户与偏好相似用户之间的数量。
本文采用的算法为文献中的算法,该算法通过分析UDDI和WSDL文件提供的信息对服务的类别进行划分,从而具有较好的可行性、通用性和易操作性。本文中的推荐用户的推荐等级指的是推荐用户推荐信息被采纳的概率,其主要依赖于用户对推荐信息的反馈信息。
由定义2可知,如果两个用户存在推荐关系,那么他们之间必然是偏好相似用户,反之则不成立.从而可以看出无论用户间是否存在推荐关系,都不会影响信息多指标相似度的計算。
1.2 多属性多时序性分析
用户之间产生的推荐以及系统针对某个用户群体产生的推荐并非盲目的推荐,而是限定于某个特定的集合之中。这不仅符合现实情况中选取服务时互联网用户的实际特征,同时能够较好地解决稀疏矩阵带来的问题。
一般情况下,都是使用{u1,u2,…,un}表示n个用户,{i1,i2,…,in}表示n个指标,rij表示用户的多指标值。表1给出了用户-多指标矩阵例子。计算用户指标的相似度有多种算法,其中,皮尔森相关相似性如下:
sum(u,v)=∑i∈Puv(rui-ru)(rvi-rv)∑i∈Puv(rui-ru)2∑i∈Puv(rvi-rv)2(1)
公式(1)中,ru和rv分别表示用户u和v的指标平均值,Puv表示用户u和v共同指标的集合。
使用预测评分公式(2)计算得到目标用户对指标的预测评分值,实现推荐:
Pui=ru+∑v∈NBSsim(u,v)×(rvi-rv)∑v∈NBSsim(u,v)(2)
公式(2)中,Puv表示用户u对指标i的预测评分值,ru-rv分别表示用户u和v的指标平均值,rvi表示用户v对指标i的评分,NBSu表示用户u的近邻集合。
定义3(信息多指标相似度) 设两个相似用户Ui和Uj的指标评价分别是LUi=(USi,O.DEi)和LUi=(USj,O.DEj),其信息多指标相似度定义为:
SSUiUi=rij,rij≥00,rij<0(3)
其中,rij为两用户在共同指标访问项集USi∩USj评价值上的皮尔逊相关系数。
定义4(用户推荐度) 若用户Uj为Ui关于服务lujk的推荐用户,则用户Uj对Ui对服务lujk的推荐度为:
RUjUi(lujk)=O.DEj(lujk)×SUiUj×(1+α+β)(4)
在该式子中,α是用户在领域相关度所产生的增值系数,0<α<1;β是根据用户的推荐等级所产生的增值系数,0<β<1。在确定α和β时,需要注意体现群体之间协同的思想。
本文中的指标数一般指的是通过用户行为而收集的数据,因此一般情况下是不会存在非公正的因素。Sensoy针对用户打分主观性的问题,提出了基于经验的服务选择方法。
如前所述,在计算用户信息多指标相似度时,我们并不区分两个用户是否存在推荐关系。
2 实验结果与分析
2.1 数据集预处理与度量标准
本文采用从数据堂中某研究机构中收集的用户在一些随手快递类型APP上的行为记录数据来进行实验,将收集到的数据进行预处理后,使得该数据集包含了200个订单用户从注册APP的个人信息以及到一直以来的物流信息以及在配送中相对应的提供配送服务的220个随手人信息以及共计57 792条的评分数据,从而整理后的指标数据包含时间Time,用户ID、随手人ID、配送准时性、商品完好性等信息。总指标数通过对三个属性评分加权求和而获得,属性权重的确定通过实验进行比较(评分范围为1-5分,分数越高满意度越高)。表2为该数据集部分样本数据,将该数据集按Time顺序来排列。
2.2 准确率分析
在该实验中,将本文中采用的基于配送服务多指标的协同过滤推荐方法与实际情况中随手快递平台中的抢单配送模式进行准确率分析比较。我们将抢单模式下的配送方案假设为随机推荐模式,不同用户之间所获取的推荐准确率对比如图1所示,从图中可以看出在所有调查用户中,实际的传统抢单配送模式准确率要远远低于基于配送服务多指标下的配送方案,从而表明协同过滤推荐算法在理论上是可以应用于目前的随手快递平台配送算法上。
2.3 实验结论
该实验通过对本文提出的推荐方法与传统的模式进行实验比较,可以发现在准确率和效率上,本文的服务推荐方法相比之下都要更高一些,因此,为了更好的服务于用户,可以将传统抢单模式与服务推荐方法相结合使用,从而解决随手快递服务模式下的配送服务方案不稳定情况.同时该实验表明采用基于配送服务多指标的协同过滤推荐方法具有一定的可行性。
3 结论
本文首先收集在随手快递类型APP中的信息,包括用户信息,订单信息,随手人信息,将这些进行分析形成信息簇,除去没有不存在明显特征的信息,取出有用的指标信息,将数据收集整理好形成具有分辨属性的信息集,构成并完善用户画像,提取特征建立特征索引库,反馈对信息进行加权,形成用户信息集。在对随手快递平台的配送服务问题中,通过对用户的多指标研究之后提出了针对目标用户偏好的个性化配送服务推荐。将个性化服务引入随手快递物流模式中,通过对用户多指标分析提出了针对于随手快递物流模式下的基于配送服务多指标的服务推荐方法研究,同时探究了随手快递物流中的个性化推荐的准确率,提出可以将传统抢单模式与服务推荐方法相结合使用的建议,通过定义以及分析发现无论用户间是否存在推荐关系,都不会影响信息多指标相似度的计算,从而可以解决项目初期启动时的数据稀疏无规律问题,并且可以更好的定义用户画像,完善用户画像,更加精准的个性化服务推荐配送服务,使得用户能更好的享受到共享经济下的随手快递配送服务带来的便利。
参考文献
[1]Chou AY.The analysis of online social networking:How technology is changing ecommerce purchasing decision[J].Journal of Information Systems and Change Management,2010,4(4):353365.
[2]Su JH,Yeh HH,Yu PS,Tseng VS.Music recommendation using content and context information mining[J].IEEE Intelligent Systems,2010,25(1):1626.