蒋文钊,区晶莹,俞守华
(华南农业大学数学与信息学院,广州 510642)
国际运筹学学术热点研究
蒋文钊,区晶莹,俞守华
(华南农业大学数学与信息学院,广州510642)
运筹学是一门诞生于20世纪30年代的新兴学科,它主要运用数学方法,求解系统最优化问题,制定合理运用人力、物力和财力的最优方案,从而为决策者提供科学决策的依据。作为经营管理领域的先进科学,运筹学对解决生产管理以及有限资源合理化调配方面都能发挥重大作用。
目前,国内外有些学者运用文献计量法综述分析了运筹学理论及应用现状与热点。Chuang等人运用文献计量法,从文献数量、文献类型、高产机构、高产作者等角度对亚太地区管理与运筹学学科的发展态势进行了研究[1]。Hsieh等人对全球范围内生产运作管理领域的高产作者、高产机构以及高产国进行了研究分析[2]。刘作仪等人以Web of Science为数据源,对我国管理与运筹学领域2001年至2010年间的发展态势进行了计量分析[3]。上述研究均采用文献计量法,主要从文献量、作者、发文机构、文献主题等多角度来探讨运筹学学科的总体发展态势的。本文结合使用文献计量法与OmniViz可视化数据分析工具,从定性和定量的角度来研究国际运筹学领域近年来的学术热点,以期为我国运筹学研究提供借鉴和参考。
1.1数据来源与处理
为了得到相对丰富、专业、有效的数据,本研究共选取了29种国际运筹学期刊作为数据源,这29种期刊的选择依据是:根据ISI2008JCR因子报告,选取运筹学与管理(Operations Research&Management Science)学科领域内JCR影响因子1.0以上的期刊,1.0以上的JCR影响因子表明这29种期刊在运筹学领域具有较大的影响力。这29种期刊包含了国际运筹学领域的权威核心期刊,覆盖了运筹学学科的各个分支,具有广泛的代表性,代表了国际运筹学类期刊的最高水平。
文献收集与处理的具体操作方法为:在Web of Knowledge数据库中,以期刊名作为检索的主题词,年代检索范围设定为2007至2011年间,共检索到20134篇文献,再通过EndNote软件将文献数据以RefMan (RIS)格式保存为文本文件,导入OmniViz中进行数据分析。最终有效的文献数据共20109条,每条文献数据包含“标题、作者、摘要、关键字、出版社、出版日期”等题录信息。
1.2研究方法
词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法。虽然目前国内外鲜有运用词频分析法分析运筹学领域研究热点的相关文献,但在其他学科领域的相关研究中已运用较多。储节旺等对2000年至2009年间在CSSCI数据库上关于知识管理热点方面文献进行了关键词词频分析,并在此基础上对知识管理的发展趋势做出分析[4]。黄晓燕对1999至2003年情报领域论文的关键词进行了词频分析,归纳出了五年来情报领域的研究热点及其变化轨迹[5]。因此,本研究在使用OmniViz可视化数据分析软件对文献数据进行聚类分析的基础上,借助了其所提供的词频分析工具对文献主题词进行了词频分析。为了更加细致、准确地把握运筹学的研究热点,还结合使用了Excel软件中的统计工具与人工统计方法,专门针对文献的关键词进行了词频分析。
OmniViz是由大型跨国生物科技公司BioWisdom开发的一个严谨并且功能强大的可视化情报分析工具。OmniViz可分析数据类型包括专利、文献、实验结果数据、生物染色体序列、物质的化学结构等。它突出的特点是为用户提供了一系列具有复杂统计和文本分析算法的功能强大的可视化工具,因此可以为用户理解、分析数据提供更多新的角度和思路。
将文献数据导入OmniViz中后,它将根据文献的题名和摘要字段标引待分析文献的主要主题词(Major Term)、次要主题词(Minor Term)及其他主题词(Other Terms),并运用标准的聚类算法,将文献按照主题词的相关性分成若干组,每组文献都使用频次最高的前三个主要主题词予以标识,用户也可以使用Gist工具查看所有主题词的词频及分布情况。作为一款功能强大的可视化数据分析软件,OmniViz为用户提供了六种图形视觉模式进行数据分析,分别是Galaxy、ThemeMap、Correlation、CorScape、Comet以及TreeScape模式。在文献分析中较常使用Galaxy及ThemeMap视觉模式。
在Galaxy视觉模式下,每个点代表一篇文献,一个簇(cluster)由一个或多个点组成。聚类过程与文献中词汇的词频、分布和关联性密切相关。在Galaxy图中文献或者簇之间的距离反映了文献主题间相关性的大小,相关性越大,则距离越远,相关性越小,则距离越近。
ThemeMap视觉模式是以三维视角来展示聚类结果的。ThemeMap图由一座座山峰构成,每一座山峰均代表一个簇。山峰的面积反映了该簇中文献的分布范围,山峰的高度反映了其中文献主题的集中程度,两座山峰间山谷的深度则反映了两个簇之间主题的相关程度。
3.1OmniViz中的可视化分析
将文献数据导入OmniViz后,在Galaxy视觉模式下的聚类结果如图1所示,可以看出,文献的整体分布呈三角状,且分布范围广,图中右上区域的文献量大且分布集中,而左半区域的文献分布则相对零散。使用Group工具查看分组的详细情况,共产生了140个文献组,图2中展示了文献量排名前十的组,依次是组C62、C101、C17、C9、C23、C94、C1、C60、C59,各组的分布情况参见图1。
可以看出,组C62、C94、C17之间的距离非常接近,说明这三组的文献主题相关度很高;三组的总文献量为4854篇,占总量的24.1%,因此这三组中的文献主题足够反映出运筹学领域内的某一个或多个研究热点。观察这三组标引出的词频前三的主题词,发现模糊化(fuzzy)、价格(price)都出现了两次,说明这三组中有关主题模糊化与价格的研究文献居多,说明这两个主题是运筹学领域内的研究热点。模糊理论的研究和近年来软运筹学的兴起是密不可分的,不同于传统运筹学,软运筹学侧重于解决难以找到最优解或最优解不唯一的问题,它的基本研究方法主要是定性方法与定量方法相结合,在定性方法上更多的是采用模糊数学方法[6]。主题词价格则反映出目前运筹学在经济领域中的研究多侧重于价格问题,如定价、影子价格、投资组合等方面;组C17的标识主题词“supplier、price、retailer”反映了目前运筹学在供应链管理问题中的广泛应用,因此供应链管理也是运筹学领域的研究热点。
组C116、C23、C1的距离也比较接近,而与其他7组的距离较远,说明这3个文献组的主题之间关联性较强,但与其他组的主题关联性不大;三组的文献总量为1774篇,占总文献量的8.8%;观察发现,主题词粒子群优化(particle swarm optimization)都出现在了3组的标识主题词中,说明这一区域的研究主题主要是关于粒子群优化算法的;值得注意的是,粒子群优化算法与聚类(cluster)都同时出现在了组C1、C116的标识主题词中,可以推测粒子群优化算法在聚类研究中占有较大比重。
其余4组分布较散,但主要都集中于图右上区域,组C101、C60的标识主题词和组C62、C94、C17的标识主题词相似,也都与价格、模糊化及供应链管理这3个主题相关,因此在距离上也较接近这3组。另外,观察组C9、C59的标识主题词,都出现了作业(job)和预测(forecast),说明这一区域的文献研究主题主要是集中于这两个方面,差异之处在于C9中有关集装箱(container)的研究较多,而C59则是有关项目(project)的研究较多。
图1 Galaxy模式分析结果
图2 文献量前10的文献组
ThemeMap视觉模式下的聚类结果如图3所示,从山峰的高度、密集程度、分布情况能够看出,文献的主题较多集中于上部区域,并且此区域的文献主题间的关系非常紧密。其中,较突出的三座山峰已经分别由词频前三的主题词予以标明,分别为“price、fuzzy、forecast”、“price、supplier、contract”和“job、batch、project”,前两座山峰在地理位置及标识主题词上与Galaxy模式下的分析结果一致,都是位于图上部区域,且主题主要与价格、模糊化以及供应链管理相关,从而充分说明目前这三大主题是近年来运筹学最热门的研究主题;另外一座山峰由标识主题词可以推测,此区域的文献多与任务(job)、批次(batch)相关,使用Record Viewer工具查阅这一文献组部分文献信息后[7-11],发现多是研究并行调度方面的问题,说明在生产领域中,有关并行调度的相关研究也是运筹学中的热点研究,Record Viewer的分析界面如图4所示。
综上所述,目前,模糊理论、价格问题、供应链管理、粒子群优化算法以及并行调度这几个主题是近五年国际运筹学的研究热点。
图3 ThemeMap模式分析结果
图4 Record Viewer分析结果
3.2主题词词频分析
OminViz中Gist工具用于统计文献各主题词的词频。主要主题词及次要主题词是OmniViz进行聚类的依据,对于分析文献研究主题也具有较大的参考价值,以下分别选取了排名前15的主要主题词及次要主题词进行分析。
在主要主题词方面,排名第一的是价格(price),涉及1518篇文献,约占所有文献数的8%,其次是模糊化(fuzzy),所占比例约5%,涉及文献1024篇,排第三位的是供应商(supplier),涉及文献761篇,约占4%,后面依次为任务(job)、预测(forecast)、项目(project)、聚类(cluster)、零售商(retailer)、创新(innovate)、诊断(diagnose)、合同(contract)、买方(buyer)、投资组合(portfolio)、图像(image)、通道(channel)。在次要主题词方面,排在第一位的是模型(model),共涉及8760篇文献,所占比例44%,第二是优化(optimize),共涉及6111篇文献,所占比例为30%,后面依次是时间(time),算法(algorithm)、过程(process)、解决方法(solution)、集合(set)、成本(cost)、计算(computation)、函数(function)、决策(decision)、作业(operation)、技术(technique)、减少(reduce)、结构(structure)。
表1 词频前15的主要主题词及次要主题词
分别观察不同年份论文主题词的变化,可以帮助我们了解运筹学领域各个分支的发展情况。图5为2007-2011年不同年份主要主题词的变化情况。
图5 前15的主要主题词2007-2011年变化情况
可以看出,主题词价格(price)近五年的词频始终稳居首位变化。词频第二位的主题词模糊化(fuzzy)变化非常显著,五年内的平均增长率高达36.1%,尤其是2009年,文献数量突增,2011年时升至五年里最高,这反映出2009年至2011年是模糊理论发展最快的阶段,在未来很有可能成为运筹学领域最热门研究主题。此外,上升势头显著的还有主题词图像(image),平均增长率为最高的46.7%。主题词预测(forecast)、聚类(cluster)、诊断(diagnose)以及投资组合(portfolio)在这五年内平均增长都超过了19.5%,说明近五年里关于这四个主题的相关研究也比较热门。经统计,次要主题词近五年来总体呈上升趋势,但主题词的变化趋势不明显,排名前四位的始终是模型 (model)、优化(optimize)、时间(time)、算法(algorithm),这与运筹学研究多是通过构建模型或者构造算法求问题的最优解是一致的,值得注意的是,时间在建模及优化过程中也是非常重要的影响因素,这也是它词频较高的主要原因。
3.3论文关键词词频分析
由于OmniViz是基于文献标题与摘要进行主题词提取的,并且这些主题词大部分都是单一词汇,往往不能直接体现出文献研究主题,需要较多地结合阅读文献详细信息。若能通过论文关键词做进一步的分析,无疑更有助于分析的简化、细致与准确。关键词作为学术文献的必备要素,能简洁、全面地反映出文献所涉及的主要内容。通过对关键词的统计分析,可有效揭示其中隐含的特征、发展过程及趋势、专业分布等线索[12]。
在所统计的20109篇文献中,共出现关键词184607个,平均单篇论文占9.18个。使用EndNote导出所有关键词,并经过Excel分组统计与人工筛选后,共得到51686个有效关键词。
根据孙清兰于1992年提出的高频词低频词界分公式[13]:
公式(1)中D代表不同词数,T代表分界点。将D= 51686代入式(1)可得T=226,即频次超过226的关键词可以认为是高频关键词。在对关键词进行同义,缩写、单复数等方面的整理后,最终统计出词频在226以上的关键词共66个。
可以看出,排名前四的关键词中,model、algorithm、optimization也出现在了次要主题词的前四位中,说明建型、算法设计、目标优化在运筹学研究中占据着十分显著的地位,也是目前运筹学研究所遵循的主要模式,值得国内运筹学研究人员借鉴。分析还发现高频关键词与主要主题词的划分也是惊人的相似,在排名前15的主要主题词中,有9个都不同形式地出现在了高频关键词中,分别是price、fuzzy、supplier、forecast、cluster、retailer、innovate、buyer、portfolio,其中 supplier、retailer、buyer对应supply chain,forecast对应prediction,cluster对应classification,因此这些主题词确实反映了运筹学的研究热点,也证明了OmniViz对于文献主题词的划分是科学的、有效的。
有关运筹学学科各分支的研究现状,也可以通过对高频关键词分类分析得出。目前,数学规划作为运筹学学科的一个重要分支,从高频关键词的分布可以看出它是非常热门的分支。与数学规划直接相关的高频关键词有遗传算法(Genetic algorithm)、数据包络分析(DEA)、神经网络 (Neural networks)、启发式算法(Heuristic algorithm)、禁忌搜索 (Tabu search)、规划(programming)、支持向量机(Support vector machine)、整数规划(Integer programming)、线性规划(Linear programming)、粒子群优化(Particle swarm optimization)、随机规划(Stochastic programming),这11个关键词约占总词频的14.7%。其中,除整数规划、线性规划外,其余都隶属于非线性规划范畴,这说明非线性规划是数学规划中的研究重点,这种现象的产生一方面是由于现实问题多为非线性?、不确定的问题,另一方面,也和计算机技术在运筹学中的广泛应用息息相关,如遗传算法、神经网络、启发式算法、粒子群优化算法等都属于人工智能算法,一般必须借助计算机进行建模求解,所以说计算机技术的发展与应用也为运筹学研究带来了新的机遇与挑战。决策分析分支方面,具有代表性的关键词有决策(Decision making)、风险(Risk)、预测(Prediction)、决策支持系统(Decision supprot system)、层次分析法(AHP),约占总词频的6.3%,也属于运筹学中比较热门的研究分支。存储论方面,代表性的关键词有供应链(Supply chain)和库存(Inventory),约占总频次的4.9%。而排队论、图与网络、博弈论等其他运筹学分支的相关高频关键词出现较少,说明这些运筹学分支的研究热度偏低。此外,数据挖掘(Data mining)、全局优化(Global optimization)、特征选择(Feature select)等其他主题也属于运筹学领域的热点研究,应该引起国内运筹学研究人员的重视。
表2 高频关键词
(1)根据OmniViz的可视化分析,并结合查证相关文献,认为目前国际运筹学领域占前5位的最热门研究主题是价格问题、模糊理论、供应链管理、粒子群优化算法和生产领域的并行调度研究。
(2)通过OmniViz对文献主要主题词及次要主题词的统计分析,发现2007至2011年间,主题词价格、图像、预测、聚类、诊断以及投资组合等是运筹学领域的热点研究主题。价格的相关研究热度始终居于首位,增长幅度不大;而模糊理论的相关研究于2009年后增长显著,在未来很有可能成为运筹学领域最热门研究主题;主题词图像的词频年增长率为最高的46.7%,而预测、聚类、诊断以及投资组合在这五年内的平均增长率都超过了19.5%,说明这些主题的相关研究在近五年里发展比较迅速,属于运筹学领域比较热门的研究主题。
(3)结合论文关键词的词频分析发现,建模、算法设计、目标优化是运筹学研究所遵循的主要模式;在运筹学学科各分支的研究现状方面,数学规划仍是最热门的研究分支,非线性规划在数学规划中占据着最重要的地位,其中,遗传算法、数据包络分析、神经网络、启发式算法、禁忌搜索、支持向量机、粒子群优化算法是非线性规划中的研究热点;决策分析和存储论也是比较热门的研究分支,与之相关的研究热点有风险分析、预测、决策支持系统、层次分析法、供应链和库存控制。此外,数据挖掘、全局优化、特征选择等其他主题也属于运筹学领域中的研究热点。
[1]Chang P L,Hsieh P N.Bibliometric overview of operations research/management science research in Asia[J].Asia-Pacific Journal of Operational Research,2008,25(2):217-241.
[2]Hsieh P N,Chang P L.An assessment of world-wide research productivity in production and operations management[J].International Journal of Production Economics,2009,120(2):540-551.
[3]刘作仪,吴登生等.2001-2010年我国管理与运筹学研究态的计量分析[J].北京理工大学学报,2012,14(1):1-8.
[4]储节旺,王龙.近10年国内知识管理研究热点[J].情报科学,2011,29(9):1425-1429.
[5]黄小燕.情报领域研究热点透视——情报领域论文关键词词频分析(1999-2003)[J].图书与情报,2005(6):82-84.
[6]卢厚清,蔡志强等.软运筹学研究的回顾与展望[J].运筹与管理,2003,12(4):68-72.
[7]Mandelbaum M,Shabtay D.Scheduling unit length jobs on parallel machines with lookahead information[J].Journal of Scheduling,2011,14(4):335-350.
[8]Gacias B,Artigues C,Lopez P.Parallel machine scheduling with precedence constraints and setup times[J].Computers&Operations Research,2010,37(12):2141-2151.
[9]Liu P,Lu X.On-line scheduling of parallel machines to minimize total completion times[J].Computers&Operations Research,2009,36(9):2647-2652.
[10]Shim S O;Kim Y D.A branch and bound algorithm for an identical parallel machine scheduling problem with a job splitting property [J].Computers&Operations Research,2008,35(3):863-875.
[11]Guo S;Kang L.Online scheduling of malleable parallel jobs with setup times on two identical machines[J].European Journal of Operational Research,2010,206(3):555-561.
[12]扆铁梅.《科研管理》期刊2008年载文及关键词分析[J].科技情报开发与经济,2009,19(32):67-68.
[13]孙清兰.高频词与低频词的界分及词频估算法[J].中国图书馆学报,1992(2):78-81.
Operations Research;Word Frequence Analysis;Web of Science;OmniViz
Research on the Academic Hotspots of International Operations Research
JIANG Wen-zhao,OU Jing-ying,YU Shou-hua
(College of Informatics,South China Agricultural University,Guangzhou 510642)
1007-1423(2015)20-0033-07
10.3969/j.issn.1007-1423.2015.20.008
蒋文钊(1989-),男,广东清远人,硕士研究生,研究方向为管理系统工程
区晶莹(1964-),女,广东佛山人,副教授,研究方向为公共管理
俞守华(1964-),男,福建福清人,教授,研究方向为系统工程
2015-05-12
2015-07-01
以Web of Science数据库为数据源,检索29种运筹学领域核心期刊2007-2011年间所发表的20109篇文献,并运用OmniViz可视化数据分析工具和Excel软件,对文献进行聚类分析和词频分析,梳理和研究出近五年国际运筹学领域的学术热点。对文献主题词分析研究表明,价格问题、模糊理论以及供应链管理是目前运筹学中最热门的学术研究主题,其中生产领域有关并行调度的研究是目前的学术研究热点。根据论文关键词分析发现,数学规划仍是运筹学学科中最热门的研究分支,遗传算法、数据包络分析和神经网络等人工智能算法是运筹学领域的学术研究热点。
运筹学;词频分析;Web of Science;OmniViz
Takes the Web of Science as data source,statistically analyzes a total of 20109 research papers which have been retrieved from 29 operations research journals published during the period of 2007-2011.In order to find out the research focus of the international operations research during the last five years,makes cluster analysis and word frequency analysis on these literatures by using OmniViz and Excel software.Analysis of the subject terms shows that price,fuzzy theory and supply chain management are the most popular research focus in current operations research field and parallel scheduling is one of the hotspots in the areas of production.The keywords analysis shows that mathematical programming is still the most popular branch of operations research disciplines.At the same time,artificial intelligence algorithms such as genetic algorithms,date envelopment analysis and neural networks are also research focus currently.