逯万辉
(中国社会科学院 中国社会科学评价中心,北京 100732)
人文社会科学是研究人与社会关系的一门学科,面对的是有意义关系的事物,既要研究其共同性和普遍性,又要研究特殊性,具有双重属性和双重功能,即:既具有客观性又具有主观性,既具有事实性又具有价值性,既具有认识世界的功能又具有意识形态的功能[1],这也是区别于自然科学的最重要的一个特征,也可以说,人文社会科学是一种形而上的科学,同时具备基础性和应用性,不同于自然科学对问题的研究中在前人的基础上进行消化、吸收、创新与开拓,人文社会科学的研究更倾向于求新求变,既求同,也求异,既具有全球人文情怀,也当有国别与地区的意识形态区别,特别是在近些年,随着我国经济社会的快速发展,人文社会科学的研究也呈现多样性的繁荣发展态势,学术成果不断增长,仅以哲学学科为例,CNKI 中收录的论文数量就逐年上升(如图1所示),同时在人文社会科学学术成果“走出去”上,同样增长明显。从下图2中可以出,自2005年至今,我国学者在SSCI 中的发文量呈指数上升趋势,这些论文涵盖人文社会科学多个学科,因此,开展人文社会科学研究热点的挖掘,能够了解学界研究现状与存在问题,不论是对科研人员开展学术研究还是科研管理部门进行学术规划都有重要意义。
图1 2005-2013年CNKI 收录哲学论文的数量
图2 2005-2013年SSCI 刊载中国大陆地区作者论文数量
学术期刊论文是科研工作者学术研究成果最常见最直接的体现,是特定学科或某一分支领域内知识传播最主要的传播媒介。以期刊论文相关构成要素如作者、摘要、关键词、引文等为研究对象对学科特性逬行揭示和学科研究热点的挖掘已经成为学术界的共识[2]。
关于学科研究热点的挖掘方法,通用的思路主要有两个方面:一是基于引文及共被引的学科研究热点及研究群体的发现方法,一是基于文章题目、摘要、关键词等的文本内容的学科研究热点挖掘方法。一般来说,人文社会科学的文献半衰期要长于自然科学,特别是在人文学科领域,文章的参考资料更多的倾向于经典著作,引文的半衰期更长,所以,基于引文的学科热点发现在人文社会科学领域的应用就受到限制,因此,从时效性上来说,纵然是应用性较强的社会科学甚至是自然科学,基于文本内容的研究热点发现更加能反映学科快速发展下的研究前沿,所以,本文提出基于内容分析的人文社会科学研究热点挖掘方法研究,通过对文本内容进行处理和挖掘,探索语义上的知识流动和演变趋势,为科研人员以及科研管理部门提供学术前沿指导和学科发展演变脉络,从而更好地开展具有针对性的学术研究和学科规划。
有关学科热点的研究,最早可以追溯到1981年White 和Griffith 等人的作者同被引分析(Author Co-citation Analysis,简称ACA),通过对39 位相关学科专家的同被引分析,进行了学科研究分支和结构的划分,合作发表了《作者同被引科学结构的文献测量方法》一文,并以此开创了运用情报学方法进行学科分析研究的先河[3]。之后随着计算机技术的快速发展,数据处理和计算能力的快速提升,运用该方法并选取更大的数据样本进行学科分析的相关研究和报告也快速增长。到1992年,Law 和Whittaker 开始研究和探索应用共词分析来学科热点检测研究[4],至此已经将社会学中的网络分析法引入这一领域。在近期的2007年S.Usui和P.Palmes 等人开展了对关键词抽取、分离、排名、组织等方面的研究[5],2008年,Naoki Shibata等人利用拓扑学方法对科学出版物的共引网络进行研究,检测研究热点[6],基于社会网络分析方法的学科热点研究真正开始在情报学分析方法中成熟起来。
国内对这一问题的研究也越来越受重视,特别是在自然科学领域,掌握国外的研究动向与研究热点,避免我国的科研管理部门和科研人员在科研规划和科研活动中少走弯路,具有重要的意义,因此,在这一领域的研究成果也较为丰硕,其中,邹晓鸽,夏文正等人以Science Watch 期刊上公布的化学热门论文和35 种国际上高影响因子的化学及相关综合类期刊上中国大陆学者发表的化学论文作为国内化学领域分析的数据源,进行了化学学科热门领域的研究,并将国际与国内的研究工作进行对比分析,得出相关结论[7]。肖明、李国俊等人通过对情报学核心期刊1998年至2007年十年间发表的论文进行了词频统计,得出了情报学领域的若干研究热点问题及学科发展趋势[8]。在这些报告所使用的基础方法的研究上,归结起来主要有两个方面,一是基于词频,一是基于被引,这一领域中较有代表性的是大连理工大学陈超美博士及其团队开发的CiteSpace 软件,通过词频统计、共被引分析、作者共被引等方面对学科的研究团体和领域进行了可视化分析展示,在国内影响较大。
通过对以上国内外学科研究热点的研究方法和相关软件算法的梳理,可以看出,现有的学科热点研究方法中,以情报学研究方法为基础,同时引入社会网络分析等理论,设计文献计量、计算机信息处理、数据分析与挖掘、可视化技术等,是一个多学科交叉融合的技术方法。当前,伴随着图论及网络分析技术的成熟,为研究学科论文海量增长模式下的知识特性、动态变化及发展趋势提供了理论支撑和技术支持。复杂网络理论的不断成熟,相关网络分析及可视化等开源软件的开发和免费使用,再融合传统的文献计量手段及多元统计分析工具的辅助,通过构建网络拓扑结构,从结构性的视角对特定学科或领域的知识传播要素如合著网络、共词网络、引文网络等知识传播网络特性的研究吸引了大批科研人员的注意力,很多有意义的研究成果涌现。但是由于人文社会科学的特性,在文献半衰期较长的人文科学领域,从引文的角度出发使用文献共被引的方法开展学科热点研究在某些学科和领域是不适用的,因此,在人文社会科学领域开展基于文本内容特征的研究网络构建、基于文本语义的主题词抽取、基于生命周期理论的词语消长变化等基于文本的研究热点发现方法研究,及时、直观地呈现研究热点的脉络演变与内容演化研究,是当前的一个新的研究任务。
在进行人文社会科学研究热点挖掘中,基于其学科特性,为及时和直观地揭示这一学科领域的研究热点,本文构建了如下热点挖掘模型,并将该模型的处理对象挖掘对象从关键词延伸到文章题目、摘要,进行文章内容层面的主题词抽取和热点挖掘:
图3 基于文本内容的研究热点挖掘模型
相比于英文语料的单词组成结构,中文语料进行文本内容分析的前提就是需要进行词语切分和词性标记,同时由于中文文本表达形式的多样性以及语义的丰富性,也给中文处理带来了更大的难度。因此,基于文本内容的分析,一般首要工作就是文本预处理,即将文本内容处理成进行可分析和计算的数据。
该模型分为文本预处理和文本内容分析两个方面,分别进行了基于关键词的学科分析和基于主题模型的主题词抽取及其演化两个实验,主要包含以下几个步骤:
Step1:从期刊数据库中抓取或下载学科期刊的题录信息;
Step2:关键词清洗和题目摘要文本的词语切分、词性标注,此步骤需构建自定义词典;
Step3:构建停用词表,过滤掉文本中的无意义干扰词、杂乱字符串等;
Step4:抽取文本中的名词、并与关键词一起构建共现矩阵,进行热点识别;
Step5:利用Step2 中产生的文本,进行基于LDA 的主题词抽取;
Step6:进行演化分析,并对比关键词进行学科主题与热点的演变与发展脉络分析。
基于以上模型进行学科研究热点挖掘,主要运用到如下两个方面的技术:
(1)基于社会网络的热点及演化网络分析
社会网络分析方法存在两个平行发展的研究方法,分别是整体网络分析方法和自我中心网络分析方法。整体网络分析方法关注的是网络整体的结构特征,即一个社会体系中角色关系的综合结构或群体中不同角色的关系结构,探讨网络结构随着时间变迁和节点间的直接或间接关联,整体网络分析主要采用社会矩阵方法与社群图方法。自我中心网络分析法是从个体的角度研究社会网络,它只能分析社会连带,不能分析网络结构,进行线性相关分析和协方差分析以揭示影响网络特征的因素[9]。
本文主要采用整体网络分析方法,进行两个方面的研究:一是网络个体属性研究,主要是对网络个体的中心性属性的研究;二是网络整体属性研究,通过整体属性研究来揭示学科热点网络的整体网络特征,通过构建关键词及主题词共现矩阵,进行关键词中心度、网络密度与聚集度、小团体分析等,并进行整体网络的可视化展示,进而识别研究热点。
(2)基于LDA 主题模型的主题词抽取
主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。两篇文档是否相关并不只决定于字面上的词语重复,还取决于文字背后的语义关联,主题模型就是对这种语义关联的挖掘,在主题模型里,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为:
LDA 是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。文档到主题服从Dirichlet 分布,主题到词服从多项式分布。LDA 的算法描述为:
对于语料库中的每篇文档,LDA 定义了如下生成过程[10]:
1.对每一篇文档,从主题分布中抽取一个主题;
2.从上述被抽到的主题所对应的单词分布中抽取一个单词;
3.重复上述过程直至遍历文档中的每一个单词。
本文拟使用主题模型中的LDA 算法,抽取文章主题词,进而计算这些主题词在论文中的分布,通过主题词及相关算法计算学科研究热点及其演化趋势。
本研究以期刊数据为主要数据源,在国外社会学期刊的选择上,SSCI 期刊遴选以其公布的JCR2013 为参考依据,根据社会学半衰期较长这一学科特性,采用5年影响因子为主要指标,选取社会学期刊15 本,如下表:
表1 选取SSCI 收录社会学期刊
通过对这些期刊从2009年至2013年的载文进行分析,得出这些期刊所刊发论文地区分布如下图所示,主要分布在美国、英国、加拿大、澳大利亚、德国等主要欧美国家。
图4 上述SSCI 收录社会学期刊载文的地区分布
中文社会学期刊的选择,参考南京大学CSSCI社会学核心期刊的收录标准,从CNKI 数据库中获取社会学期刊的相关数据。
表2 中文社会学期刊
基于CNKI 数据库,选取以上所述五中期刊,构建检索式,检索2009年至2013年的这些期刊的全部载文数据并进行下载,作为国内社会学学科研究的数据源。
采用上述模型、算法和数据源,对国内外近五年的社会学研究热点进行挖掘,分别得出了国内外在这五年的主要研究热点主题,关于主题数目的确定,采用统计语言模型中的评价指标困惑度来进行选取,挖掘结果如下:
表3 高频关键词共现矩阵(英文部分)
通过基于主题模型的主题抽取,挖掘出国内外社会学领域的热点研究主题,下面仅展示部分国内研究主题,如表4所示:
表4 2009-2013年主题抽取结果(中文部分)
生活 0.010818 国家 0.00727 共青团 0.010457 一种 0.009709农村 0.010264 权益 0.007128 重要 0.008824 道德 0.009709问题 0.008878 规定 0.006986 工作 0.006865 现象 0.009278主要 0.007585 暴力 0.006559 群体 0.006865 当代 0.007123因素 0.007307 制度 0.006417 问题 0.006702 认同 0.0068方面 0.006846 特别 0.00599 成为 0.005967 意识 0.006584我国 0.006661 中英文 0.005705 传播 0.005967 取向 0.006153进行 0.006476 问题 0.004852 信息 0.005804 理性 0.006046政策 0.006291 实施 0.004567 媒体 0.005477 民族 0.005938现象 0.006106 家庭 0.004425 事件 0.005232 心理 0.005507家庭 0.006106 制定 0.004425 具有 0.005151 自我 0.005399子女 0.006014 赋权 0.003998 提出 0.004906 形成 0.005076
通过对比国内外社会学领域的研究主题,可以看出:国外社会学研究热点一直重点集中在婚姻、家庭及两性关系和种族与文化方面,而在社会学理论研究层面,近年来计量社会学的研究表现较热。
(1)婚姻及家庭问题的研究
婚姻及家庭问题的研究上,不单单是社会学的问题,同时还涉及人口学、文化学、人类学等多个学科多个方面,除研究传统的婚姻、家庭、性别等问题之外,也涉及离婚问题、夫妻权利、家庭结构与变迁、家庭关系、性别失衡等方面。
一个社会的择偶模式和婚姻匹配模式,不仅仅关系着个人与家庭的结构和关系,也在很大程度上影响了社会资源和财富的聚集程度、社会分层体系的运转,以及社会再生产的诸多方面,甚至可以反映社会组织的开放性。因此很多研究者从探讨婚姻匹配模式及其变迁来解释社会结构和社会变迁。同时,家庭变迁是家庭研究的一个重要领域,而家庭现代化理论,到目前为止仍然是跨文化意义上最有解释力和影响力的关于家庭变迁的社会学理论。
国外在这一问题的研究上,近些年一直延续在婚姻理念、配偶选择、婚前同居、生育意愿和出生性别比例,同时还有家庭暴力、夫妻权利、离婚问题与子女抚养等方面。
此外,从2006年开始,除了传统的婚姻、同居、子女抚养之外,围绕婚姻家庭等伦理问题的研究发生了转变,表现在有关女同性恋、男同性恋、双性恋和跨越性别家庭的研究较多,这些问题的研究成果数量也在不断增多。
(2)种族与文化问题
在国外社会学问题研究中,还有一个重要的领域,就是种族与文化问题的研究,其中涉及移民与文化等,特别是在欧美国家的社会政治生态中,关于种族平等的问题一直没有停止过,黑人社会和白人社会的融合愈来愈慢,反而黑人社会与白人社会的冲突仍在继续,针对这一现象,社会分层与流动、社会融合、变迁也一直是国外社会学家们的一个研究重点。
(3)除以上热点之外,其他国外社会学涉及的问题还有:疾病与贫困问题(如HIV、非洲贫困儿童等)和经济学科交叉的社会资源分配与家庭收入、幼儿教育与收入问题、在互联网环境下的社会生态问题、人员身份信息的唯一性、授权性和保密性问题、社会体系中的政府行为问题、社会性暴力与恐怖时间等问题也一直是国外社会学家较为关注的问题。
国内社会学研究中,主要围绕以下几个领域展开:
(1)妇女问题:这一问题一直是中国社会学界的一个重要研究领域,包括妇女解放、妇女地位、妇女就业、妇女参政、性别解放、性别问题、女性主义、女性学、女性研究等多个方面的研究主题,特别是从2006年之后,伴随着女职工劳动保护、劳动合同等立法问题的讨论进一步升温,这一问题的研究也更加火热。特别的,在妇女问题中的家庭暴力问题研究,国内和国外存在差异,国内对这一领域的研究相对较少,由于家庭暴力属于敏感话题,很难通过大规模的抽样调查进行研究,很多受访者仍然认为家庭暴力属于家庭私事,不愿谈及或诉说,研究难度较大。
(2)青少年问题:青少年问题的研究一直是我国学者和政府高度重视的一个研究领域,对这一问题的研究主要包括:青少年的犯罪与教育问题、基层团组织与青少年的思想政治教育问题等。从研究主题来看,从最初的对青少年的社会问题的基本描述层面,逐步深入到在制度层面对青少年的教育、引导等方面的研究,此外还涉及教育公平等其他方面的问题。关于大学生就业问题的研究:大学生就业问题隶属于青年问题,但是又不仅仅属于青年问题,牵涉到经济、社会、教育等多个领域,在金融危机冲击下,经济增速放缓,大学生就业存在诸多问题。
(3)新媒体与亚文化:在2010年之后,更多的研究者将研究重点放在了新媒体所带来的亚文化现象以及其对社会的影响方面。尤其是网络、动漫等各种新媒体的出现,对青少年问题的研究提出了新的议题和新的挑战,在青少年的价值观、传统性等方面做了较多深入的研究。
(4)社会分层、社会流动与新生代农民工问题:在过去的二十年里,农民工群体一直是社会学最为关注的研究对象,在劳动力市场方面,随着市场的转型升级与人口老龄化带来的影响,新一代农民工开始进入厂房、车间,社会流动与分层也在逐渐发生变化,新生代农民工的兴起也给社会学家了提供了大量的研究议题,新一代农民工子女的入学、就业等已经搬上了学术研究关注的前台。尤其是2010年,富士康连续出现的青年员工跳楼自杀现象,引发了社会的广泛关注。
(5)社会福利与社会保障:伴随着我国社会保障体系建设的不断完善,社会保障研究成为一个越来越重要的研究领域,社会保障与社会福利作为一个交叉学科,广泛分布于经济学、社会学、人口学、法学、管理学、统计学等多个学科多个领域,伴随着研究的深入,目前则更多的开始关注社会因素,如对慈善、特殊群体的权益保护等。
(6)社会学理论:在社会学理论研究方面,有学者提出了中国社会学这一概念,在社会结构、社会分层、社会流动以及人类社会方面与国外社会学进行了对比,在齐美尔的小群体理论、帕森斯理论的基础上,发展了中国社会学理论。
进一步,采用可视化的相关方法,将关键词和主题词的共现进行了展示,效果如下图所示,可以发现,研究主题分布效果显著。
图5 国内社会学领域近五年研究热点关系图
本文采用基于内容分析的复杂网络与文本挖掘相结合的方法,构建了人文社会科学领域的热点主题挖掘模型,并从高频关键词分析、关键词共现矩阵和基于文本挖掘中的主题模型的相关算法从文章摘要中进行主题识别与主题词抽取的方法,对2009年至2013年之间的国内外社会学期刊所载论文进行了实证分析。
通过基于文本内容分析的热点识别模型和方法,挖掘出了国内外社会学领域各个时间段内的研究热点主题及其演变,总的来说,国内外社会学的研究热点都集中在家庭与性别研究、妇女问题研究、青少年问题研究、社会保障与福利问题研究等方面,但是由于各方面的原因,国内外的研究热点在内容和深度上也存在较多不同。
对比国内外社会学研究领域的热点,可以发现其异同:国内外社会学的研究热点的共性表现在家庭与性别研究、妇女问题研究、青少年问题研究、社会保障与福利问题研究等方面,但是由于各方面的原因,国内外的研究热点在内容和深度上也存在较多不同。同时,由于特定的社会环境和人文环境,无论是研究人员还是被研究对象,在相关社会学问题的反应上存在差异,因此造成国内外社会学领域的研究倾向存在差异,关注点有所不同,就此来说,我国的社会学研究存在较强的中国特色。
[1] 人文社会科学[EB/OL][2014-10-20].http;//baike.baidu.com/view/1381144.htm?wtp=tt
[2] 杨秀秀.管理科学与工程学科共词网络整体特性,生长性及热点研究[D].浙江大学,2014.
[3] White H D,Griffith B C.Author cocitation;A literature measure of intellectual structure[J].Journal of the American Society for information Science,1981,32(3);163-171.
[4] Law J,Whittaker J.Mapping acidification research;A test of the coword method[J].Scientometrics,1992,23(3);417-461.
[5] Usui S,Palmes P,Nagata K,et al.Keyword extraction,ranking,and organization for the neuroinformatics platform[J].Biosystems,2007,88(3);334-342.
[6] Shibata N,Kajikawa Y,Takeda Y,et al.Detecting emerging research fronts based on topological measures in citation networks of scientific publications[J].Technovation,2008,28(11);758-775.
[7] 邹晓鸽,夏文正,梁文平.化学学科热点领域分析与国内外比较研究[J].中国基础科学,2003,(4);37-40.
[8] 肖明,李国俊,杨楠.基于词频分析的国内情报学研究热点 (1998-2007)[J].情报杂志,2009,(8);21-25.
[9] 张浩.基于社会网络分析的 Blog 社区发现[D].上海:上海交通大学,2008.
[10] Blei D M,Ng A Y,Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research,2003,3;993-1022.