江楠 汪琪 王召义
Citespace软件是美国德雷赛尔大学华人学者陈超美博士开发的用于计量和分析科学文献数的JAVA应用程序,可以通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探索。[14]通过Citespace软件对文献关键词进行分析,可以得出关键词共现网络。关键词共现网络中节点数就是关键词个数,边数就是关键词之间的连线数。只要关键词在同一篇文献中出现过,两者之间就会有一条连线。关键词大小代表的是关键词频次,频次越大,关键词越大。同时Citespace软件还可以生成时域和空间網络图,时域图可以更好地反映研究内容随时间的变化特点。本文选择Citespace软件对关键词进行共现分析。
四、数据分析
本文将从数据整体描述、研究内容、关键词三个方面对产品属性提取研究进行分析。
(一)描述性分析
中国知网(CNKI)是目前国内期刊资源最完备、更新速度最快的论文期刊数据库,文章以被中国知网(CNKI)收录的有关商品属性提取的论文为研究对象。专家学者对于“产品属性提取”字段有不同的字段表达,相近词主要包括“商品特征提取”,所以在中国知网(CNKI)设置“商品特征提取”并含“产品属性提取”为检索主题词,检索出初始文献152条,剔除无关论文18篇,获得有效论文134条。利用八爪鱼软件对文献进行清洗与挖掘,将研究论文的年度发文量、研究机构、基金支持等信息输入Excel进行简单的统计分析。
年度发文量可以反映专家学者对某一领域的研究和关注程度。如图1所示,关于产品属性提取的研究开始于2006年,2006年至2018年局部有减弱,整体呈上升趋势,2019年和2020年文献量有所下降。根据年度文献量可以将研究阶段分为三个阶段:第一阶段(2006-2010年)为起步阶段,该阶段为理论探索阶段,文献数量占总文献数量的7.46%,文献数量很少。第二阶段(2011-2016年)为发展阶段,该阶段研究不断深入,研究成果数量在快速增加,文献数量占总文献数量的37.3%,文献数量较多。第三阶段(2017-2020年)为稳定期,该阶段研究的范围不断扩大,文献成果呈现稳定高产特征,文献数量占总文献量的53.73%。近几年文献数量的稳定高产与消费者逐渐认识到在线商品评论中相关信息重要性有关。随着近几年在线商品评论数量的不断增加,其中蕴含的有用信息逐渐被商家、消费者以及平台所认识到,而对于在线评论
中产品属性提取研究的重要性逐渐被专家学者们所重视,对于其相关研究也就更加深入全面。
机构发文量是判断该机构在相关领域研究深度的重要指标。通过对产品属性提取的134篇文献作者工作机构研究,排名前三的分别是电子科技大学、大连理工大学、北京邮电大学及天津大学(北京邮电大学与天津大学并列第三)。表1为研究机构具体发文数量(发表论文数大于或等于3),从表中可以看出发表论文数量大于或等于3的机构为12所,共计文献48篇,剩余86篇以发表量1或2篇的形式分散于其他机构,说明对于产品属性提取研究相对广泛。
文献基金支持状况可以直观反映相关部门对于该研究领域的重视程度。通过对产品属性提取的134篇文献基金支持状况进行分析,具体数据见表2(文献数量大于等于2篇),获得国家自然科学基金支持文献数量的最多,总计27篇,占比20.15%,在支持数量超过2篇的基金中也可以发现国家级基金还有另外3项,教育部基金1项,省级基金2项,说明国家层面和省部级层面对产品属性提取相关领域重视程度较高。
(二)研究内容分析结果
对134篇文献的研究内容进行统计整理,并采用德尔菲法进行分析。根据分析结果发现文献研究内容主要包括四大部分,一是理论基础研究,二是特征提取,三是情感分析,四是推荐系统,每一大部分研究内容中又包括小的研究内容,具体研究内容见表3。从表3中的统计数据可以看出,在商品属性提取研究中,对于理论基础的研究文献数量并不多,大多文献综述集中于研究方法的介绍。涉及特征提取的研究文献数量最多,其中,对于文本预处理以及特征词提取与过滤的研究文献数量最多,分别为65篇及37篇。对于情感分析的研究数量同样较多,特别是情感词典的构建与情感极性预测,均为19篇。对于推荐系统的研究文献数量较少,最多的部分仅为11篇。
从这些研究内容的分布频数来看,理论基础研究并不是该领域的研究重点,这与商品属性提取研究的性质有关。产品属性提取研究侧重于技术研究,更加注重研究的方式方法,所以理论基础研究相对较少。涉及特征提取的文献数量最多,这与特征提取是情感分析以及推荐系统两部分研究内容的必备条件有关。由于文本预处理以及特征词提取及过滤的方法较为复杂,所以对这两部分研究文献数量较多。近几年的特征提取研究往往与情感分析相结合,从而分析特征词的情感极性,并应用于特征价格研究、商家信誉维度构建及维护、用户推荐等方面,所以情感分析内容以及推荐系统的研究在近几年逐渐成为该领域的研究热点问题。从所涉及相关研究内容的文献数量来看,对于情感分析的研究相对推荐系统来说更加广泛与成熟。未来对于产品属性提取研究的重点应向推荐系统等实际应用方面转变。
(三)关键词分析结果
1.关键词统计分析
利用Citespace对134篇文献的关键词进行共现分析,得出关键词共现图谱(图2),其中,频次排名靠前的关键词为“特征提取”“情感分析”“商品评论”“在线评论”和“推荐系统”,可以看出特征提取、情感分析与推荐系统等应用型研究是该领域的研究热点,这与前文关于研究内容的分析结果不谋而合。通过关键词之间的线性连接发现“特征提取”“情感分析”这两个关键词与其他关键词之间的连接更为密切,是商品特征提取研究领域的基础。通过统计发现其中出现频次大于3的关键词如表4所示,从这些关键词中我们可以发现,多数关键词集中于研究方法的表述,表明对于产品属性提取的研究内容比较固定,但是研究方法具有多样性特点。
2.關键词演化分析
关键词的演化能够反映该领域研究内容的演变过程、研究热点及研究重点,本文从关键词的历年分布情况、历年新增热门关键词两个方面进行分析研究。
首先是关键词的历年分布统计分析,从2006年至今共获得关键词491个,历年关键词具体数量见图3,从图3中可以发现,自2006年以来,关键词数量总体呈上升趋势,特别是从2015年开始关键词数量快速增长,说明对于产品属性提取的研究重视程度得到大幅度提升。
新增关键词在一定程度上反映该研究领域新的研究主题出现,笔者利用citespace软件对关键词进行时区分析,得到关键词时区图谱(图4)。从关键词时区图谱中可以看出研究热点的变化情况,从最早的文本挖掘、情感分析为研究热点,到产品属性及特征提取,一直到近两年对于推荐系统以及目标检测的研究,反映了研究内容的不断深入和研究的应用性的不断加强。根据关键词时区分布,本文将关键词研究年份按关键词增长速度划分为2006—2014年、2015—2020年两个阶段(表5),根据表5可以看出2006—2014年出现频次排名靠前的关键词分别是商品评论、特征提取、文本分类、文本挖掘、语义理解和极性分析,从这些关键词可以看出,在2006—2014年对于产品属性提取研究的主题主要集中于对评论文本的特征提取及基础分析。2015-2020年出现频次排名靠前关键词分别为情感分析、特征提取、在线评论、推荐系统、卷积神经网络、商品评论、深度学习和主题模型等,
从关键词分布可以看出,2015—2020年相较于2006—2014年,对于产品属性提取的研究不再局限于特征提取,而是增加了情感分析、推荐系统这一类将文本分析运用到实际中的研究,同时也增加了卷积神经网络、深度学习、主题模型这一类方法研究关键词,突出了现阶段研究方法的重要性,表明对于该领域的研究方法在不断更新完善。
五、研究结果与不足
(一)研究结果
论文主要通过对中国知网中以产品属性提取为研究主题的134篇文献进行总体数据统计、研究内容、研究方法以及关键词四个方面进行研究分析,得出以下四个方面的结果:
第一,在总体研究趋势方面,通过统计分析得出,研究文献数量在逐年增加,文献基金支持状况中国家自然科学基金数遥遥领先,说明对产品属性提取领域的研究重视程度在不断提高。通过机构发文量研究发现,机构研究文献数量相对比较平均,大多数机构研究文献数量仅为1篇,说明研究机构分散,没有代表性机构,机构间合作性较差。在未来的研究工作中,机构应加强领域研究的系统性,充分发挥出研究机构的研究优势,强化研究机构之间的合作深度,使得该领域的研究范围扩大,研究深度加深。
第二,在研究内容方面,对于产品属性提取的研究内容主要包括特征提取、情感分析以及推荐系统这三部分应用型研究,理论基础研究薄弱,个别理论基础研究也仅限于研究方法理论,缺乏其他相关领域的结合,在未来的研究中产品属性提取可以结合经济学、市场营销和心理学等领域的相关理论来进行研究,这些理论能够为产品属性提取研究提供新的视角。
第三,在关键词分析方面,本文通过对历年关键词数量以及不同阶段关键词变化的研究清楚了解到产品属性提取领域的研究热点和研究趋势,同时探知到这个领域的未来潜在研究价值点所在。[15]随着大数据技术的不断发展,产品属性提取的研究主题也在不断更新,推荐系统,深度学习、记忆网络等都是目前的研究热点,未来与产品属性提取相关的应用研究如属性提取与价格、属性提取与消费者行为预测、属性提取与供应链管理等都将是未来研究的主题。
(二)不足
本文立足于中国知网(CNKI)进行文献收集,收集主题仅为“产品属性提取”“商品特征提取”,收集到的数据难免不足,而且笔者在统计作者数据时并未将重名作者进行处理,对研究的结果均具有一定的影响。在研究内容方面,仅对文献进行了描述性统计分析以及研究内容和关键词分析,研究的全面性不够,这些都是本文的不足之处,争取在以后的研究过程中慢慢改进。
参考文献: