孙 艳,田丽梅
(渤海大学 图书馆,辽宁 锦州 121013)
基于多维尺度分析的舆情研究主题词知识图谱
孙 艳,田丽梅
(渤海大学 图书馆,辽宁 锦州 121013)
为了对舆情的研究现状进行客观梳理,总结研究文献内在的联系和科学结构,文中选取近5年来中国知网收录的“中文核心期刊”和“CSSCI”相关研究文献展开研究。首先,进行前期数据准备,包括准备的步骤与方法及其相关的数学模型;然后,将相异系数矩阵输入到SPSS中进行多维尺度分析并绘制知识图谱;最后,从维度定义和空间分布特点两个方面对知识图谱进行分析。结果表明,当前舆情研究主要集中于4个方向,舆情直接相关研究是重点与热点,媒体相关的研究领域也较活跃,但一些细分的研究方向成果比较分散。
多维尺度分析;舆情研究;主题词;知识图谱
(1)高频主题词统计排序。
对舆情研究主题词知识图谱进行分析,必须选取具有代表性的研究文献。文中选取近5年(2010-2014年)中国知网收录的来源类别为“中文核心期刊”和“CSSCI”,包含“舆情”主题词的文献共计1 045篇,使用统计分析软件统计这1 045篇文献中出现的前40个高频主题词排序,如表1所示。
表1 40个高频主题词排序
(2)建立共词矩阵。
共词分析是一种比较成熟的内容分析方法,原理是通过统计各主题词在同一篇论文中共现的次数,来分析这些词所代表的主题和领域的结构变化情况[6-7]。表1的词频统计不足以准确描述“舆情”研究的热点和变化,必须以高频主题词为基础,构建共词矩阵。共词矩阵(Co-word matrix)是由两两主题词共同出现次数构成的矩阵。设有n个高频主题词,共词矩阵R是一个n×n阶矩阵,令rij表示第i个主题词和第j个主题词同时出现的次数,共词矩阵R表示如下[8]:
(1)
手工构建共词矩阵工作量大且不准确,文中使用《书目共现分析系统》(BibliographicItemCo-OccurrenceMatrixBuilder,BICOMB)对表1的主题词构建40×40阶的共词矩阵,受文章篇幅所限,文中不列出实际的矩阵数据。
(3)数据标准化。
数据标准化(DataNormalization)是将数据按比例缩放,使之落入一个小的特定区间,消除不同因素在量纲、量级上的差异,便于进行比较和计算[9]。常用的数据标准化方法包括Z得分、全距从-1到1、全距从0到1、1的最大量、均值为1、标准差为1等,文中选用“全距从0到1”。
第j列(因素)数据的平均值为:
(2)
数据均值化处理后的新序列为:
(3)
对数据均值化的结果进行归一化处理,用某一数值减去该行数据的最小值除以该行数据的最大值减去该行数据的最小值,计算公式如下:
(4)
经过标准化处理后的数据矩阵为:
(5)
(4)建立相似系数矩阵。
相似系数矩阵(SimilarityCoefficientMatrix)由相似系数构成,相似系数又称皮尔逊相似系数,描述了两个定距变量间联系的紧密程度[10]。主题词i与主题词j的相似系数为[11]:
(6)
(7)
(5)建立相异系数矩阵。
相异系数矩阵(DissimilarityCoefficientMatrix)根据相似系数矩阵求得。相异系数用dij表示。
“相异系数=1-相似系数”,即:
dij=1-sij
(8)
n个主题词的相异系数矩阵表示为:
(9)
相异系数矩阵也是对称矩阵,但对角元素的值为0。相异系数矩阵分析的基本原理是:矩阵中两个主题词之间的数据越接近1,表明这两个主题词之间的距离越大,相似度越小;反之,两个主题词之间的数据越接近0,表明这两个主题词之间的距离越小,相似度越大。限于文章篇幅,文中不列出40×40阶的相异系数矩阵。
将相异系数矩阵输入到SPSS中进行多维尺度分析。度量标准采用区间方式的Euclidean距离,标准化选择“全距从0到1”,S应力收剑性、最小s应力值和最大迭代次数均采用系统默认值,输出结果为组图,包括派生的激励配置图、线性拟合的散点图、非线性拟合的散点图、转换散点图等[12-14]。通常使用派生的激励配置图作为知识图谱使用,但该图没有标明各维度的意义,没有对主题词的紧密程度进行区域划分。同时,由于受坐标尺度的影响,很多主题词拥挤在一起,看起来极不清晰。在知识图谱中,各个主题词所处的位置用小圆圈表示,主题词关系越紧密,它们所代表的圆圈间的距离越近。文中参考派生的激励配置图和SPSS输出的激励坐标尺度,重新绘制舆情研究主题词知识图谱,将坐标直接分为相等的四个象限并用不规则的实线框将各个领域区分开来,绘制结果如图1所示。
图1 舆情研究主题词知识图谱
进行多维尺度分析时,一般都想得到维度较少而拟合程度又高的分析结果。对多维尺度分析结果进行解释,主要从两个方面[15]:一是对维度定义的解释,二是对研究对象空间分布特点的解释。
维度意义的解释主要从各维度两端研究对象的典型差异进行分析。从图1中可以看出,分布在横向维度(维度1)左侧的主题词大多与舆情管理相关,右端的主题词大多与媒体相关,因此将横向维度的含义解释为“管理-媒体”维度;分布在纵向维度(维度2)上端的主题词大多与舆情直接相关,下端的主题词大多与研究方向相关,因此将纵向维度的含义解释为“舆情-方向”维度。
研究对象空间分布特点的解释主要是为了分析研究对象在研究者所关心的属性特点方面的规律性联系。从图1中可以看出,共分为4个研究领域和2个特殊领域。以第1象限为主、部分位于第2象限的舆情直接相关研究(领域1),具有较高的密度和向心度,各个主题词与“舆情”之间的关系紧密,是目前国内学者舆情研究中的重点与热点,与其他3个研究领域之间的联系也很紧密;位于第2象限和第3象限的舆情管理(领域2)研究相对活跃,位于第2象限的“监测、预警、监管”三个主题词与“舆情”之间的联系密切,位于第3象限的“决策、建议、民意”三个主题词之间的关系较密切,但与“舆情”的关系相对较远,很容易受其他领域研究影响而演化;位于第3象限和第4象限的各个舆情研究方向(领域3)与“舆情”之间的关系相对较远,表明研究比较分散,尚未引起足够的重视,需要加大这方面的研究。但“法律”研究相对活跃,“大学生、高校、思想政治教育”三个主题词之间的联系较紧密,具有较强的相关性;位于第1象限和第4象限的媒体研究方向(领域4)与“舆情”之间的联系较近,各主题词之间的联系也较紧密,表明研究比较集中,也是当前研究的热点问题。“互联网、意见领袖、传播、新媒体”四个主题词与“舆情”之间的联系非常近,是当前舆情相关的媒体领域研究的热点问题;“突发事件、群体性事件”两个主题词归入周围其他领域不合理,但二者与“舆情”的联系又比较紧密,因此将二者单独划为特殊领域1(应急);“评价、指标体系”两个主题词与特殊领域1类似,既与领域1相关,又与领域2相关,单独划为特殊领域2(评价)。
多维尺度分析是一种探索性数据分析技术。文中将舆情研究领域相关的40个主题词构成的40×40阶的相异系数矩阵压缩到一个低维空间,形成一个直观的知识图谱,将主题词之间的联系直观地表现出来,揭示主题词之间的潜在规律。研究结果表明,我国当前舆情研究主要集中于舆情直接相关、舆情管理、舆情研究方向、媒体研究方向四个领域。舆情直接相关研究是当前研究的重点与热点;舆情研究方向虽然很多,但研究内容比较分散,没有比较优秀的研究成果;由于信息技术的发展,与媒体相关的研究领域也较活跃。文中的研究存在两个局限性:一是数据选取方面,只选取近5年的数据不能反映长期以来舆情研究的发展变化情况,只选取中国知网收录的“中文核心期刊”和“CSSCI”数据不够全面;二是研究方法方面,共词矩阵使用书目共现分析系统,相异系数矩阵使用自编程序计算,多维尺度分析使用SPSS,没有一种集成的软件来完成全部工作,容易造成数据偏差且不规范。这些局限性会随着数据源、研究方法和软件工具的发展逐步得到改善。
[1] 戴维民,刘 轶.我国网络舆情信息工作现状及对策思考[J].图书情报工作,2014,58(1):24-29.
[2] 许 鑫,章成志,李雯静.国内网络舆情研究的回顾与展望[J].情报理论与实践,2009,46(3):115-120.
[3]JiaH,YanY,GongL,etal.Knowledgemap-basedmethodfordomainknowledgebrowsing[J].DecisionSupportSystems,2014,61(1):106-114.
[4]CuiM,YangS,YuT,etal.Expertknowledgemapsforknowledgemanagement:acasestudyinTraditionalChineseMedicineresearch[J].JournalofTraditionalChineseMedicine,2013,33(5):698-702.
[5]KurodaK,HashiguchiH,FujiwaraK,etal.Reconstructionofnetworkstructuresfrommarkedpointprocessesusingmulti-dimensionalscaling[J].PhysicaA:StatisticalMechanicsandItsApplications,2014,415(1):194-204.
[6]WuChao-Chan,LeuHoang-Jyh.Examiningthetrendsoftechnologicaldevelopmentinhydrogenenergyusingpatentco-wordmapanalysis[J].InternationalJournalofHydrogenEnergy,2014,39(11):19262-19269.
[7] 汪伟良,刘 红.基于共词分析的我国科研诚信研究现状[J].科学管理研究,2014,32(4):35-39.
[8]HuJiming,ZhangYin.ResearchpatternsandtrendsofrecommendationsysteminChinausingco-wordanalysis[J].InformationProcessing&Management,2015,51(4):329-339.
[9] 孙海涛,李仲秋.铁路物流节点规划模糊聚类分析[J].计算机技术与发展,2014,24(3):54-57.
[10]SangamRS,OmH.Thek-modesalgorithmwithentropybasedsimilaritycoefficient[J].ProcediaComputerScience,2015,50(1):93-98.
[11] 红黑联盟.数据矩阵与相异性矩阵[EB/OL].2015-05-01.http://book.2cto.com/201210/5869.html.
[12]JungK,TakaneY.MultidimensionalscalingI[M].2nded.[s.l.]:[s.n.],2015.
[13]KisenwetherJS,ProsekRA.Theeffectofexperienceonperceptualspaceswhenjudgingsynthesizedvoicequality:amultidimensionalscalingstudy[J].JournalofVoice,2014,28(5):548-553.
[14]LinLanxin,SoHC,ChanFKW.Multidimensionalscalingapproachfornodelocalizationusingreceivedsignalstrengthmeasurements[J].DigitalSignalProcessing,2014,34(11):39-47.
[15] 赵守盈,吕红云.多维尺度分析技术的特点及几个基础问题[J].中国考试,2010(4):13-19.
Mapping Knowledge Domain on Subject Headings of Public Sentiment Research Based on Multi-dimensional Scaling
SUN Yan,TIAN Li-mei
(Library of Bohai University,Jinzhou 121013,China)
In order to conduct objective comb for the current situation of public sentiment research and summarize the intrinsic links and science structure of researched literatures,it researches on "Chinese Core Journals" and "CSSCI" relevant research literatures included in CNKI in the past five years in this paper.First,preliminary data should be prepared,comprising the steps and methods of preparation and associated mathematical model.Then,the dissimilarity coefficient matrix is input into SPSS software to carry on multi dimensional scaling and draw mapping knowledge domain.Finally,mapping knowledge domain must be analyzed from two aspects of dimension definition and spatial distribution.The results show that the current public sentiment research has focused on four directions,and direct relevant research of public sentiment is the focus and hotspot,and media-related field of study is more active,but some results of research direction of segmentation are more dispersed.
multi-dimensional scaling;public sentiment;subject headings;mapping knowledge domain
2015-05-11
2015-08-13
时间:2016-03-22
辽宁省社会科学基金项目(L14BTQ003)
孙 艳(1972-),女,副研究馆员,研究方向为图书馆学理论与方法。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1518.028.html
TP311
A
1673-629X(2016)04-0187-04
10.3969/j.issn.1673-629X.2016.04.041
0 引 言
又称叙词,在标引和检索中用以表达文献主题的规范化的词或词组,能够反映特定主题的概念。主题词是规范化的检索语言,对文献中出现的同义词、近义词、多义词以及同一概念的一同书写形式等进行了严格的控制和规范,使每个主题词都含义明确,以便准确检索,防止误检、漏检。知识图谱(Mapping Knowledge Domain)也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,将数学、信息科学、图形学等学科知识与引文分析法相结合,通过绘制可视化的图谱形象地展示学科的核心结构,从不同视角揭示知识之间的相关性和知识领域的动态发展规律,为学科研究提供有价值的参考[3-4]。知识图谱的主要研究方法包括共引分析(Co-citation analysis)、共词分析(Co-word analysis)、多元统计分析(Multivariate statistical analysis)、词频分析(Word frequency analysis)、社会网络分析(Social network analysis)等方法。多维尺度分析(Multi-dimensional Scaling)是研究对象之间相似性或差异性(不相似性)的一种多元统计分析方法[5]。采用多维尺度分析可以创建多维空间感知图,图中点的距离反映了对象的相似性或差异性。为此,文中基于多维尺度分析方法,构建舆情研究主题词知识图谱,通过详细的分析得出结论,具有一定的理论意义和实用价值。
舆情是舆情因变事项发生、发展和变化过程中,民众所持有的社会态度[1]。舆情研究是新兴的社会科学与自然科学交叉的研究领域,对于维护社会稳定、促进国家发展、创建和谐社会等方面具有重要的现实意义。我国舆情思想和制度建设较早,但真正开展研究始于2003年[2],经过十多年的发展,取得了一些有价值的研究成果。但仍然有必要对舆情的研究现状进行客观梳理,归纳主要的研究领域和研究热点,总结研究文献内在的联系和科学结构,描绘舆情研究未来的发展方向。