浙江省科技信息研究院 陈骁
为了降低由于科技政策信息与创新主体需求之间匹配度较低引起的推送效果差的问题,提出基于数据挖掘技术的科技政策信息推送算法。首先利用Python组件对信息中的词汇进行预处理,利用深度挖掘的方式确定数据簇的中心以及半径,将其作为用户信息需求匹配的参照,将用户信息与数据簇之间建立匹配关系,将相似度最高的数据簇中对应的信息作为推送内容,完成信息推送。通过实验测试所提方法的推送效果,结果表明其推送的误差均值在10%以内,用户满意度均值为94.13%,错误推送率仅为0.93%。
信息爆炸的时代,信息传播的体量越来越大,与此同时,受众对于信息的敏感度也越来越低[1]。为了实现信息与接收者之间的高度匹配,提高信息传播的效果,进行个性化的推送成为了重要方式[2]。科技政策是各级科技管理部门为了促进科技创新发展而制定的科技创新活动基本规则,对科技发展方向具有指导意义,能够激活创新资源、提高利用效率;激发创新潜力、增强创新实力;优化创新环境、促进创新合作[3]。科技政策信息推送的用户对象主要包括企业、高校、科研机构、创投机构、孵化载体运营机构等各类创新主体和创新服务主体。但是如何实现信息的精准推送成为了现阶段面临的主要问题[4]。数据挖掘技术是建立在大数据基础之上的,以目标信息为基础,分析具有相关特征的信息,或者分析一类信息的特征[5]。因此,将其应用到信息推送中具有十分巨大的价值潜力。借助数据挖掘技术,对创新主体和创新服务主体进行识别,通过行为分析,确定存在特定科技政策需求的群体,以此为基础实现更具针对性的个性化信息推送,对于提高信息传播效果将产生积极作用[6-7]。
为此,本文提出基于数据挖掘技术的科技政策信息推送方法,并通过实验验证了所提方法的有效性。通过本文的研究,以期为科技政策信息在更大范围内发挥实际价值提供帮助。
要实现科技政策信息的精准推送,首先要对目标用户建立充分的了解,为此,本文利用深度挖掘技术实现对特征的描述,并以此为基础建立了相应的用户画像[8]。
在对用户特征进行挖掘之前,首先需要对用户的行为信息进行初步预处理。考虑到在实际的行为数据中,数据的形式具有明显的多样化特征[9],本文首先对数据进行了预处理。利用中文分词包配套的Python组件作为数据核心内容提炼工具,实现对数据中完整词汇的分解操作,将停用词表作为判断依据,当完成对数据的完整遍历后,对于部分无意义的停用词,以及不具有实际意义词汇进行过滤处理,将过滤后的数据内容整合成新的词汇表。以此作为深度挖掘的数据基础。
在新得到的词汇表中,首先按照属性将具有同种属性的词汇有序放置在同一数据簇中,再通过深度挖掘技术计算各种词汇对应索引值。假设新的词汇表中,数据汇总包含x个数据簇,每个数据簇中的信息量为i,以此为基础确定对应不同数据簇的特征,就可以将待推送目标的属性特征与之进行匹配,以此确定其需要的科技政策信息类型。对不同数据簇的数据进行分类时,首先要确定该簇的中心,其基本原理如图1所示。
图1 数据簇中心确定方法Fig.1 Method of determining data cluster center
从图1中可以看出,对于不同的数据簇,其半径是不同的,簇内数据的密度也存在一定差异,这是因为不同词汇表中的信息在用户画像中的权重不同。在确定簇半径时,本文以词汇出现的频率作为评价标准,当词汇出现的频率为p时,那么其在整个词汇表中的权重计算方式为
其中,W表示词汇的权重值,Pn表示数据簇的总频率。通过这样的方式,确定数据的数簇的权重,将频率最高的词汇作为中心,对应的半径即为数据簇权重在整体词汇中的占比。
通过这样的方式,将推送信息转变为由若干个数据簇组成的单元,在确定推送目标与推送内容时,通过将用户的行为数据特征与之建立匹配关系即可实现。
在上述基础上,为了实现信息的精准推送,要建立起推送对象与信息之间的匹配关系。
首先对待推荐对象的行为信息进行提取,并以上文划分的数据属性结果为依据,分别进行关联性对比。当确定与用户行为相近的数据簇后,以数据簇内词汇对应的科技政策信息为推送内容,以此提高信息推送的有效性。其中,信息匹配的方式如图2所示。
在图2中,o点表示对应数据簇的中心,分散的点表示用户行为数据,通过这样的方式确定用户对于科技政策信息的需求,将与之存在匹配关系数据簇内对应的信息作为推送内容,实现精准的信息推送,提高用户对推送内容的满意度。
图2 用户属性特征匹配方式Fig.2 Matching method of user attribute characteristics
需要注意的是,部分用户的行为数据会表现出单一属性特征,由于数据之间都是存在一定关联的,出现该情况极有可能是因为信息的采集不完整,用户数据的提取存在误差,因此需要对数据信息进行检验,以此确保计算结果的可靠性,为推送提供可靠保障。
为了测试本文提出的信息推荐算法的效果,采用传统的基于协同过滤推荐方法[10]和基于模糊遗传的推荐方法作为实验的对照组,通过分析三种方法的推荐效果,实现对本文设计算法的客观评价。
实验测试是在Windows10环境下进行的,并利用仿真软件搭建了用户行为关系网,为了确保实验设计最大限度接近实际情况,本文选取了浙江科技大脑的100个用户行为数据作为实验测试的样本。当其接收到推送信息后,根据自身设定的数据与接收信息之间的匹配度,对其进行评分,评分的阈值为[0,1]。以此为基础对比三种方法信息推送的精度,直接对精度进行统计难度较大,本文将平均绝对误差MAE作为度量推送系统精度的指标,其计算方式为
其中,Di表示第i个用户对推送信息的评分,n表示实验设计的用户总量。
在此基础上,利用三种方法进行信息推送,并对比推送的效果。
在上述基础上,分别对比了三种方法的推送效果,为了提高测试结果的可靠性,测试共进行了5次,具体如表1所示。
表1 不同推送方法的平均绝对误差统计表Tab.1 Statistical table of average absolute error of different push methods
从表1中可以看出,基于协同过滤推荐方法平均绝对误差基本在20%左右,处于较高的水平,基于模糊遗传的推荐方法与之相比有所下降,但也达到了42%,本文方法的平均绝对误差基本稳定在10以内,初始测试时达到10.96,但随着数据挖掘的深入,误差始终稳定在10%以内。表明本文提出的算法可以实现对于信息的高精度推送。
为了进一步分析三种方法的推送效果,对数据进行了详细分析,分析了该部分信息推送用户对信息的需求度,该值以用户匹配结果为指标进行统计,得到的数据如表2所示。
表2 推送需求度分析表/%Tab.2 Analysis table of degree of push demand/%
从表2中可以看出,协同过滤推荐方法的推荐结果中,用户的整体需求度均值为63.95%,勉强达到及格水平,无需求规模均值达到了5%以上,模糊遗传推荐方法的推荐结果中,用户整体需求度均值为73.77%,处于良好水平,无需求规模均值也仅为3.26%,但与本文方法相比,其仍存在一定提升空间,本文方法推荐结果中,整体需求度均值为94.13%,无需求规模均直接0.83%,明显低于对比方法的5.13%和3.26%。表明本文设计的信息推送算法综合性能较优。
科技政策信息对于各类创新主体和创新服务主体发展具有重要的指导作用,所以通过精准匹配实现精准推送具有十分重要的价值。本文提出的基于数据挖掘技术的科技政策信息推送算法,在对用户行为进行深度挖掘分析的基础上,实现了高精度的信息推送。通过本文的研究,希望帮助相关科技政策信息能够实现更加有效的传播,助力科技创新事业发展。