毛凯 刘明 李志恺 李伟 夏瑜潞
摘 要:科技事件作为科技发展的产物,对其影响力进行评估,可以对预测新兴科技事件的发展走向、相关部门配置科技资源、科教机构进行科普教育选取事件提供重要参考。当今市场上存在的对科技事件影响力评估的方法具有应用场景局限、评价结果受人为主观影响较大等不足。文章提出一种新的评估方法,利用各大搜索引擎产生的海量数据,结合机器学习中的K-means算法,对科技事件的影响力进行评估。弥补了当前已存在方法对科技事件影响力进行评估的局限,解决了如何基于当前时代产生的大量数据对科技事件做出一个较为客观准确的评估结果这一问题。
关键词:科技事件;影响力评估;K-means;搜索引擎
1 相关工作
在漫长的科技发展史中,每一个科技发现与创新事件背后往往包含着大量的信息,包括时空属性、不同事件之间的互相联系、引起的社会讨论热度等。对科技事件在一段时间内的影响力进行评估,不仅可以对科技事件的发展走向进行预测、规划,还可以为相关部门制定科技政策、配置科技资源、和进行科普教育提供重要参考。研究表明,对于科技事件影响力评价方法,目前普遍从定性评价和定量评价两个角度进行。定性评价方法[1]主要包括同行评议法和案例与回溯评价法,定量评价方法主要包括文献计量法和经济计量评价法。沈利华等[2]认为,同行评议法已经被各国广泛应用,可以作为鉴定科研成果的重要评价手段。但是有很多弊端,如难以支持创新,难以对科技成果保密,评议专家的主观倾向性占比太大等。案例与回溯评价方法[3]是对关键事件或典型案例进行回顾和分析,分析导致该事件发生的内外部因素,而非事件本身的影响力。赵丹等[4]则认为,可以利用科技事件产出的文献计量指标的定量数据,采用数学和统计学方法,对科学活动规律及其影响进行研究与分析,即文献计量评价法。文献计量评价方法[5]具有统计学意义上的合理性和可信度,但存在指标单一、学科间不可比较、科学价值不可表征等局限性。而经济计量评价法局限于开发类科技活动的评价,不适于基础类、应用类的科技事件。可以看出,以上几种对科技事件的评价方法应用场景局限,无法通过一种方法较好的评价不同领域内科技事件的影响力,并且缺乏数据支撑,客观性不足。
本文提出一种新的对科技事件影响力的评估方法,首先,选取分属不同学科的科技事件,搜集其在百度、谷歌、知网等搜索引擎中的数据,分析其数据特征。其次,通过咨询领域内专家及社会公识度调查的方式,确定科技事件影响力的级别数量。最后,利用机器学习算法中的K-means算法,根据事件不同的数据特征,将不同影响力的科技事件聚入不同的类别,完成对科技事件影响力的评估。该方法具有海量的搜索引擎数据支撑,因此,评估结果相比于前文提及的几种方式更为客观合理,应用场景更为宽阔。
2 数据的获取与处理
2.1 特征选择
科技事件具有非常多的属性,例如:名称,被发明或被发现时间,发明人或是发现人,事件内容,事件在网络上的搜索指数,事件的相关论文数量等,不同的属性可以形成不同的特征数据。建立一个利用数据评估科技事件影响力的数学模型,首先需要选取合适的特征数据。在科技事件的属性中,能较为直观地反映一个科技事件影响力的是该事件在网络上的搜索指数。同一搜索引擎,产生较多搜索结果的科技事件在一定程度上比產生较少搜索结果的科技事件影响力大。但是使用单一的搜索指数来对科技事件影响力进行评价,会存在一定的局限,因为一个科技事件在网络上的搜索指数,反应的更多地是该事件在社会大众中的影响力,而现实中存在一个科技事件影响了很多科技事件的诞生,但是这一科技事件在大众间的传播及影响力不大的情况。因此,为了使评估结果更为客观合理,还应该考虑科技事件在科学领域的影响力。
本文通过扩宽特征数据选择面和加深特征数据提取两个途径,来增加评估结果的客观性。扩宽特征数据选择面,通过增加知网相关论文数量和谷歌学术相关数据这两维特征数据实现。一个科技事件的影响力不仅包含在媒体大众间的影响,也包含在科技工作者间的影响,一个科技事件的影响力大,大概率能得到相关研究论文数量多的结果,因此,科技事件相关论文数量的多少,也将作为本模型的一个特征数据。加深特征数据提取是指,选用多种主流搜索引擎的数据,减少因为搜索引擎用户少而引起的误差和偶然性。主流搜索引擎的数据中,我们选用了百度搜索结果数、谷歌搜索结果数、百度搜索指数和媒体指数这4个数据。理由如下。(1)百度作为国内最主要的搜索引擎,搜索结果数据是建立在国内大量用户的搜索之上,具有误差小、总量大的特征。百度搜索结果数,能够反映科技与创新事件在国人中的影响力。(2)谷歌是全球除中国以外其他地区的主要搜索引擎,谷歌搜索结果数,具有能够反映科技事件在全球其他地区影响力的特征。(3)百度搜索和媒体指数,分为PC端和移动端,根据当前互联网在移动端的发展趋势,我们将移动端的数据也纳入了考虑。
2.2 数据清洗及标准化处理
本实验按照信息、交通、医药、农林、机械、化工6个学科分别挑选出了120个该学科领域内具有象征意义的科技事件,爬取了这些事件从2011~2018年每个月的百度搜索指数和媒体指数、百度搜索结果数、谷歌搜索结果数、谷歌学术和知网相关论文数。
爬取的原始数据的数量级和量纲并不相同,如果直接使用原始数据进行科技事件影响力的评估,数量级和量纲对最终结果的影响会远远大于数据本身的影响,产生的误差较大。此外,部分科技事件的数据存在有缺失值的情况。因此,需要通过数据清洗和数据标准化处理,使不同的特征数据具有相同的尺度。
在实际实验中,有28个科技事件的数据缺失了百度搜索结果数,有32个科技事件缺失了谷歌搜索结果数,有53个数据缺少百度搜索指数或媒体指数。对缺失数据的事件,首先通过人工核查它们的官方命名,并进行查找,对能获取的数据进行添加。人工查找之后依然缺失数据的事件,选择了新的科技事件进行代替。