山东省软件和信息服务业发展驱动模式的共词可视化分析

2016-06-03 09:45梁启冰
关键词:共词分析十二五发展模式

梁启冰

(山东省日照第一中学 山东日照 276800 )



山东省软件和信息服务业发展驱动模式的共词可视化分析

梁启冰

(山东省日照第一中学 山东日照 276800 )

摘 要:分析有关山东省软件和信息服务业发展的“十二五”规划文件,用修正的中文文本关键词提取算法和Bicomb软件提取并确定高频关键词,建立关键词共现矩阵;用SPSS17.0进行因子分析和聚类分析,将山东省软件和信息服务业发展“十二五”规划的核心主题划分为四个类团:基础要素、融合创新、发展环境、规划布局;通过绘制战略坐标图并对各类团进行详细的分析解读,最后把山东省软件和信息服务业发展定位为基础要素、发展环境拉动为主,融合创新、规划布局推动为辅的驱动模式。

关键词:软件与信息服务业 发展模式 共词分析 “十二五”规划

一、引言

随着信息技术、通讯技术的飞速发展以及互联网技术的广泛应用,软件和信息技术服务业逐渐成为发展速度最快、技术创新最活跃、增值效益较大的产业门类[1],其所带来的社会和经济效益令世人瞩目。山东省作为全国工业经济大省和信息产业重要基地,软件和信息服务业在过去的几年里快速崛起并保持较快增长态势,其应用领域不断扩展,产业结构逐步优化。在此背景下,挖掘山东省软件与信息服务业发展现状,探索其发展驱动模式,对山东省软件与信息服务业产业规模的扩大增长、产业结构的转型升级,乃至经济效益的提高等都具有极其重要的现实意义。

目前关于软件和信息服务业或信息服务的研究文献已很多,但从产业发展驱动模式的角度来研究的文献相对较少,而在少有的研究中对软件与信息服务业发展现状的研究或是基于地方统计年鉴的具体数据,利用DEA方法来分析[2];或是通过模糊综合评价法、灰度关联评价法、主成份分析法等进行评价研究[3];或是通过构建模型,借助仿真过程对未来发展进行预测[4]。上述研究方法均以具体数据为依据,通过合理的数学方法导出结果,方法已近完善和成熟。本文尝试从一个新的视角,通过可视化的方法来呈现山东省软件与信息服务业的发展现状和发展重点,探索其发展驱动模式,期望能够拓展可视化方法的研究范围,为产业发展研究提供新的研究思路,为软件和信息服务业制订产业规划、出台产业政策提供有益的参考。

二、材料来源和研究方法

1.材料来源

“十二五”发展规划是当前和今后一段时期内地区经济社会发展的政策性纲领,其中的关键词反映了纲领文件的主题和精髓,是解读各级政府文件精神、探析主题发展规律和发展态势的重要依据[5]。本文研究的原材料包括:山东省国民经济和社会信息化“十二五”发展规划[6]、山东省软件和信息服务业“十二五”发展规划[7]、山东省国民经济和社会发展第十二个五年规划纲要[8]等。

2.研究方法及研究工具

本文采用的分析方法是文献计量学中的共词分析法。共词分析法是文献研究的重要方法之一,是利用文献集中关键词共同出现的情况,来确定文献所代表学科中各主题之间的关系。词汇对在同一篇文献中出现的次数越多,说明这两个主题的关系越紧密。共词分析法就是将文献关键词作为分析对象,利用层次聚类、战略坐标、社会网络分析等多种统计分析的方法,把众多分析对象之间隐含的复杂关系以可视化的方式直观地表现出来。共词分析采用的研究工具包括两类,一类是词频统计、矩阵生成软件,如Bicomb、BibExcel、CnkiRef等;一类是可视化分析软件,如Spss、Pajek、UCINET、Citespace、HistCite等。本文采用的研究工具是:ICTCLAS分词系统、中文文本关键词“词跨度”提取算法[9]、中国医科大学崔雷博士开发的Bicomb书目共现分析系统和统计学分析软件Spss17.0。

三、影响产业发展的动力因素分析

影响产业发展的动力因素概括起来有以下几点:

1.政策制度。政策和制度体现在知识产权保护、建立人才引进激励机制、建立风险投资机制、建立技术成果转让机制、加强市场环境建设、加大税收政策优惠力度、制订和执行严格的技术和产品、制订安全和环境标准、指引产业集群的形成和发展规模等方面,好的政策和制度对产业发展起到正确引导、推动产业快速、均衡发展的作用。

2.基础设施。信息化基础设施是软件与信息服务业赖以生存发展的物质基础,包括基础网络、系统架构、业务平台等。基础设施的条件直接反应了地区的信息服务能力和水平,直接影响着企业在当地投资、生产、经营的成本,制约着区域产业发展的规模和层次[10]。

3.人力资源。人力资源是指一定时期内组织中的人所拥有的能够被企业所用、且对价值创造起贡献作用的教育、能力、技能、经验、体力等的总称[11],包括从业人员数量、人才培养、人才引进、人力成本等多个方面。软件和信息服务业属于第三产业,其发展的方方面面对人力资源都有着相当的依赖,特别是在技术创新方面,更是有赖于高端技术人才。

4.投资融资。软件和信息服务业发展中对资本有较高的需求,在技术开发、公共技术服务平台建设、基地园区建设、品牌建设、重大项目建设、高层次人才队伍建设、风险投融资、海外市场开拓、知识产权保护的资金投入等方面均需要资金支持,通过多种途径,建立多元化、多层次的投融资体系,对软件和信息服务业的发展壮大具有全局的意义。

5.技术创新。技术创新就是利用一种全新的生产或商业模式,将生产要素、生产方式和经营模式以新的方式进行组合,促进新兴领域和高端业务的发展[11]。就软件和信息服务业而言,技术创新促进新平台、新技术、新产品、新模式不断涌现,产品市场不断拓展与深化,产品市场竞争力不断提高,产业结构顺利实现转型升级。可以说技术创新是推动软件和信息服务业发展的不竭动力。

6.结构布局。产业结构主要是指一个产业内部的企业规模、企业数量、产业集中度、企业竞争情况等;产业布局是根据区域优势特点,规划产业的空间分布和组合,使各种资源、各生产要素在空间地域上实现良性配置。合理的产业结构和产业布局能够在分工基础上形成特色优势和创新优势,形成规模效应和品牌龙头企业,提升产业竞争力。

各动力因素的合力直接决定产业发展的规模、层次和速度,决定产业的发展模式。本文对来源材料关键词的提取、对山东省软件和信息服务业发展驱动模式的分析都是以影响产业发展的动力因素为依据的。

四、山东省软件和信息服务业“十二五”发展规划的共词可视化

根据“十二五”发展规划的层次结构,通过ICTCLAS系统对“规划”文件逐层进行分词。修正谢晋[9]的“词跨度中文文本关键词提取”算法,把算法中的“位置因子”改为“动力因素因子”,并赋予较高的权值;根据研究主题和影响产业发展的各动力因素,对经过分词处理后的来源材料按层次结构提取关键词;之后借助人工对提取的关键词进行删除、合并、去重操作。为了利用词频统计软件Bicomb完成对关键词的共现次数统计和获取共现矩阵,将清洗后的关键词按层次结构分次复制到由CNKI下载的任一.txt文本中的关键词位置。通过Bicomb的再次统计,我们截取前25个高频关键词并生成共现矩阵。然后利用Spss17.0将共词矩阵转化为斯皮尔曼相关矩阵,如表1 所示(限于篇幅,只截取前12个关键词),以消除由共词频次差异所带来的影响,真正揭示关键词之间的共现关系。在相关矩阵的基础上,完成共词可视化分析,具体包括因子分析、聚类分析、战略坐标图分析等。

表1 斯皮尔曼相关矩阵

1.因子分析

因子分析是利用降维方法进行统计分析的一种多元统计方法,该方法用较少的指标来代替和综合反映原来较多的信息。其基本思想是根据关键词间的相关性大小把研究对象的变量分组[12],每组变量代表一个基本结构,即公共因子,这样就可以用较少的几个公共因子解释原资料的基本信息。本文利用Spss17.0降维分析中的因子分析,得到因子分析碎石图,如图1所示。取3个因子时,累积方差贡献率为79.522%;取4个因子时,累积方差贡献率为87.248%,取5个因子时,累积方差贡献率为89.997%,所以将研究对象分为4类比较合理。

图1 因子个数碎石图

2.聚类分析及核心主题的确定

聚类分析是利用变量间不同程度的相似性,对事物进行分类,使同类内变量之间相似性较高,而不同类变量间相似性较低[12]。采用聚类分析法中的质心聚类法,根据因子分析的结果,我们将提取的25个关键词划分为四个类团。引用钟伟金提出的粘合力的思想[13],来确定各类团的核心主题词。粘合力可用来衡量类团内各主题词对本类团的贡献程度,一个类团中,粘合力最大的词被看成本类的中心词,表征本类团的核心概念。设某一类团有n个主题,其中主题A与类团内其他主题组成词对,如果这些词对同时出现频率的总和为c,那么主题A的粘合力为根据粘合力计算公式,计算各类团中所有主题词的粘合力,确定四个类团的中心主题分别为:规划布局、发展环境、基础要素、融合创新,如图2所示。

图2 山东省软件和信息服务业关键词聚类图

3.战略坐标图

战略坐标图是在主题词的共词矩阵和聚类分析的基础上,用可视化的形式来揭示各研究类团的结构及关联强度[14]。它以向心度(Centrality)和密度(Density)为参数绘制成一个二维坐标,横轴表示向心度,纵轴表示密度,原点是所有二维数对向心度、密度的平均值,向心度用来量度一个类团和其他类团相互影响的程度,向心度越大,即一个类团和其他类团之间联系越紧密,则该类团在此研究主题中就越趋于中心位置;密度用来衡量各类团内部的关联强度,它表示该类团维持自己和发展自己的能力[15]。根据各类团所在战略坐标图中的位置,可以直观地描述各类团内部的联系和不同类团之间的关联、表现研究主题的结构、发展成熟度及发展趋势。密度和向心度按下式计算。

其中,Eij是关键词共现次数,n是某一类团中的关键词的数目,N是共词矩阵中所有关键词的数目,Sf指一个类团,f指研究领域的整体[16]。

计算各类团的密度和向心度,结合因子分析和聚类分析的结果,绘制研究主题的战略坐标图,如图3所示。

图3 山东省软件和信息服务业关键词类团战略坐标图

图3中,所有类团向心度和密度的平均值决定一点(12.85,2.723),作为坐标原点,它将整个战略坐标图分为四个象限。其中,“基础要素”位于第一象限,具有远高于其他类团的密度值和较高的向心度,说明该类团内部的关键词联系最为紧密,该类团与其他类团具有相对密切的关联性,处于研究主题的中心,是领域发展的核心动力。“发展环境”类团在研究主题中具有最高的向心度,说明该类团与其它类团关联最密切,在本研究中占有及其重要的地位;“发展环境”类团的密度值比“融合创新”、“规划布局”两类的密度值都高,说明类团内联系相对密切,已具有潜在的发展空间,通过进一步地完善和协调,将成为山东省软件与信息服务业未来发展的重要动力。“融合创新”、“规划布局”两类团处在第三象限,密度和向心度都不高。说明它们自身发展不够成熟,与其他类团的关联也不强,在研究主题中距离领域发展的核心动力还较远,只能称为山东省软件和信息服务业发展的辅助动力。

五、山东省软件和信息服务业发展驱动模式解析

1.基础要素

软件和信息服务业发展最基础的要素包括基础设施、人才资源、资金资源、系统平台等。山东省“十二五”规划强调基础设施建设,在教育、医疗、物流、电信、金融、物业、交通、公安、政务、城管、安防、工商、银行、质监、海关、商务、旅游、气象、餐饮、家政、物业、娱乐以及生态保护等领域均建有完善的信息服务系统和管理系统,建成开通各类公共服务平台,要求有条件的地区和机构建设新型云计算基础设施;各种网络如电信网、互联网、广播电视网等覆盖面积逐步扩大,逐步实现城乡之间的互联互通。对信息资源的开发和利用已成为山东省信息化建设“十二五”规划的核心工作,各信息化应用领域均建有基础数据库,重点领域具有丰富完善的信息资源数据库,领域间基础信息共享范围不断扩大,正逐步实现跨地区、跨部门的信息共享和业务协同。资金资源、人才资源是软件和信息服务业发展的重要支撑和保证,山东省正逐步形成以政府投入为引导、企业投入为主体、其他投入如银行金融机构投入、民间资本投入、国内外风险资本投入为补充的多元化、多渠道的信息化投融资机制;山东省高度重视人才资源在软件和信息服务业发展中的作用,政府不断加大高端人才的引进力度,重点引进软件与和信息化发展中紧缺的各类高层次、高技能、创新性、复合型人才,构建起高等教育与职业教育相结合、公益培训和商业培训相补充的信息化人才培养体系,以高素质人才增强软件与和信息服务业发展的智力支撑。

山东省软件与和信息服务业人才建设、资金扶持目标明确,即为实现技术创新创建良好的产业发展环境;山东省完善的基础设施、系统平台不断吸引其他地区的产业向本地区转移,从而推动当地产业规模不断扩大和产业聚集,形成有效的产业格局;科学合理的产业布局又会进一步扩大生产规模、提高生产效率、促进技术进步,提高产业的竞争力,于是进一步吸引资本、人才向本地产业集中。这样的良性互动将驱使山东省软件和信息服务业发展走上一条快速道。

2.发展环境

发展环境包括政策环境、科研环境、产业环境、合作交流环境、行业协会监管环境、市场环境等。其中政策环境对软件和信息服务业的发展起主导作用,山东省十二五规划制定了一系列适应软件与信息服务业发展需求的产业政策、财税政策、人才政策、投融资政策、原材料和产品进出口政策等。在政策引导的大环境下,十二五规划对信息化发展环境具体作了如下的规划和调整:(1)强化基础环境。改造传统产业服务平台,建成开通农业综合信息服务平台、电子商务服务平台、物流信息化公共服务平台、移动信息化服务平台等,为信息化顺利实施创造良好基础条件;推动“平安山东”建设,建立山东省共享灾备服务平台、云计算与物联网安全平台、互联网内容监管系统,保障信息资源安全使用,营造安全有序的网络环境。(2)构建科研环境。建立各类信息化支撑机构,发挥省经济和信息化发展研究院、省两化融合促进中心、省软件评测中心、省信息化培训办公室、省数字证书认证管理等现有支撑机构的作用,依托国家级和省级企业技术中心、国家和省级企业重点实验室、软件工程技术中心等,通过人才培养与引进、对外合作与交流等途径营造产学研用一体化的科研合作环境。(3)规划布局环境。加强国家级省级产业基地、产业园、软件园的发展环境建设;各软件园在发挥自身优势和特长的同时,加强与其他园区的交流和互动,促进不同园区间的优势互补和资源整合,提升软件和信息服务业的整体竞争力。(4)优化市场环境。鼓励重点领域生产具有知识产权的知名软件产品,增强产品出口能力,提高产品在国内国际两大市场的占有率。建立行业管理体系,整顿和规范市场秩序,打击各种违法侵权行为,充分发挥行业协会、产业联盟等企业组织在市场调查、信息交流、知识产权保护、资质认定等方面的作用,加强行业自律,促进市场环境更加安全有序、开放透明。

在政府的积极规划和适时调控下,十二五期间山东省软件与信息服务业发展环境将得到进一步优化。但与我国软件与信息服务业发展较快的一线城市相比、与山东省经济大省的地位相比,发展环境建设还存在一定的制约因素和问题:政府支持和产业引导的力度还有待加强,在省外、尤其海外市场开拓方面仍存在不小的差距,还面临着很多体制方面的障碍以及社会在转型时期存在的很多信用缺失以及市场秩序混乱的状态,合作交流仍显不足。山东省需要克服困难、迎接挑战,为软件与信息服务业提供完善的发展环境,开创好良的发展局面。

3.融合创新

“融合创新”这一类团包括关键技术、自主创新、融合发展、工程项目、信息安全、转型升级、以及产业发展的新模式、新业态等。总体来看,融合创新贯穿软件和信息服务业发展的始终,融合与创新不仅体现在技术上,还体现在业务上、市场上。新技术的推广和应用推动现有技术成果向实用化、市场化方向发展,加快了服务模式和产品的创新,从而推动产业向更深和更广的方向发展;同时,较大的产业规模,功能完善、门类齐全的服务体系和产品会进一步吸引先进技术、资源和优秀人才的聚集,促进知识、技术外溢效益的产生,推动地区投入更多资源进行技术创新。

山东省信息化“十二五”发展规划重点强调依赖不断的技术创新和逐步深入的融合发展,为软件和信息服务业向更深、更广的方向发展奠定技术基础,提供内在动力。初步形成以“工程项目”为纽带,以企业为主体,产学研用联合的技术创新体系;形成以省级软件工程中心、技术研究中心为高层次深入的工程化、产业化研究中心,在关键共性、专业技术领域开发推广具有自主知识产权的技术和产品;采取“原始创新、集成创新和引进消化再创新”相结合等多种形式,研发一系列关键技术,系列核心工业软件、中间件、高端嵌入式软件,以及智能搜索、智能挖掘、智能控制、数字音视频等重点领域的核心产品;创新研发的技术和产品促进了软硬件的融合、上下游产业链的融合、业务与技术的融合等。“规划”提出“两化融合”、“五化并举”、“三网融合”等并逐步实现良性互动;计划推进云计算、物联网、宽带无线通信、数字媒体、软件服务外包、现代物流等一批拥有较强市场竞争力的新业态建设和应用,实现产业组织模式、商业模式、服务模式、应用模式等的不断创新,以此带动山东省软件与信息服务业产业结构的优化、转型和升级。

但目前山东省软件与信息服务业自主创新能力还不够,没有形成完整的创新链条,自主装备水平还较低、两化融合的深度和广度还不够,技术与商业模式整合创新不足,网络与信息安全的问题仍较突出,缺乏核心技术,一些核心软件仍依靠进口,在云计算、物联网、智能语音处理等新兴领域核心技术的掌握和应用能力方面仍有较大的提升空间。适应产业发展的新形势、新需要,山东省应不断优化创新体制、提高创新能力,在技术创新、模式创新和融合发展方面实现提速发展,使融合创新尽快成为推动软件与信息服务业发展的核心力量。

4.规划布局

“规划布局”这一类团包括产业基地、产业园区、名企战略、支柱产业、龙头企业、软件名城、产业联盟、领域应用、结构调整等关键词。山东省软件与信息服务业“十二五”规划提出了“名城、名园、名企、名品”发展战略,构建起中心城市、特色基地、重点园区为核心,地方、中小型企业为配套的优势互补的战略联盟;优化产业布局和区域布局,具有济南、青岛国内一流的软件名城,建立东营软件园、潍坊软件园、东营软件园,山东半岛蓝色经济区和胶东半岛高端产业聚集区,建立烟台、威海、潍坊、淄博、济宁、东营、日照等软件与信息服务业新兴聚集区;形成一批具有行业特色、产业优势、规模效应和品牌形象的龙头企业;部署了七类重点业务:基础支撑类软件、信息安全软件、工业软件、行业应用解决方案、嵌入式软件、信息内容服务、信息技术服务等。

山东省软件与信息服务业在规划布局方面还需要解决很多实际问题,如突出发展特色和优势,明确发展层次和阶段,找准软件园发展方向,形成不同层次、不同特色产业体系、产业结构;根据基地、园区、企业的不同层次,分别给出巩固扩大、提升壮大、着力培育等不同的明确定位;加大政府规划监管协调的力度,协调产业布局,避免同类型企业过度集中造成同质化竞争问题,避免人才和资源的恶性竞争,以形成一种良好的发展氛围。

软件与信息服务业的快速有序发展是政府、企业、人才和谐发展、良性互动的结果,需要发展要素、发展布局、发展环境、技术创新诸要素之间协调配合,相互促动。综合上面的分析,结合战略坐标关系图,我们将山东省软件和信息服务业发展驱动模式定位为以“基础要素”、“发展环境”拉动为主,“融合创新”、“规划布局”推动为辅的驱动模式。

六、结语

通过对山东省有关信息化发展“十二五”规划文件材料的分析,应用ICTCLAS系统和中文文本关键词“词跨度”提取算法提取关键词,借助Bicom、Spss17.0软件,对山东省软件与信息服务业的发展驱动因素进行了可视化分析,结果表明:山东省软件与信息服务业发展的“基础要素”已成为其发展的优势要素,“发展环境”基本成熟,而在“融合创新”、“规划布局”方面仍显不足。这与依据《山东统计年鉴》的统计数据,通过DEA方法得出的结论基本吻合[2] [17],而利用可视化方法使研究结果更直观、更系统。

同一般基于文献关键词的可视化分析一样,分析结果会受到关键词规范化、高频阈值的确定、聚类分析方法的选择等因素影响;另外,聚类分析是一个无监督的方法,不同的聚类方法得到的聚类结果会存在差异,需靠经验积累才能找到较好的聚类途经,上述致使本文的研究不可避免地具有一定的局限性。

参考文献:

[1] 软件和信息技术服务业十二五发展规划.[2014-01-10]. http﹕// tech.sina.com.cn/it/2012-04-06/11116918777.shtml.

[2] 王文颖.山东省现代信息服务业现状及对策研究[D].山东理工大学,2013,06.

[3] 李穆南.北京软件和信息服务业发展模式研究[D].首都经济贸易大学. 2012,03.

[4] 刘 宇.北京市软件与信息服务业发展预测[J].中央财经大学学报,2008,10﹕57-61.

[5] 陈建龙,王建冬.我国地方政府信息服务业发展模式和热点领域分析[J].图书情报工作,2009, 63 (24)﹕55-58.

[6] 山东省国民经济和社会信息化“十二五”发展规划[2014-01-10]. http﹕//wenku.baidu.com/view/7affe46448d7c1c708a14598.html.

[7] 山东省软件和信息服务业“十二五”发展规划[2014-01-10]. http﹕//wenku.baidu.com/view/ a969d4145f0e7cd18425367e.html.

[8] 山东省国民经济和社会发展第十二个五年规划刚要[2014-01-10]. http﹕//wenku.baidu.com/view/62248aacdd3383c4bb4cd24c.html.

[9] 谢晋.基于词跨度的中文文本关键词提取及在文本分类中的应用[D]. 浙江财经大学,2011,12.

[10] 王永进,盛 丹,施炳展,李坤望.基础设施如何提升了出口技术复杂度? [J].经济研究,2010,07.

[11] 赵枫.软件和信息服务业竞争力评价指标体系研究——基于中国服务外包基地的评价[D].东北财经大学,2010,12.

[12] 赖国毅,陈 超,SPSS17统计分析典型实例精粹[M].电子工业出版社.北京.2010,03.146-167.

[13] 钟伟金,李 佳.共词分析方法研究(二)[J].情报杂志.2008,(6)﹕141-143.

[14] 张 晗,王晓瑜,崔 雷.共词分析法与文献被引次数结合研究专题领域大发展态势[J].情报理论与实践,2007,3 (20) ﹕378-380.

[15] 杨皓东,江凌,李国俊.国内自然语言处理研究热点分析——基于共词分析[J].图书情报工作,2011, 10 (55)﹕112-117.

[16] 杨颖,崔 雷.基于共词可视化的学科战略情况研究[J].情报学报,2011,3(30) ﹕325-330.

[17] 王 敏.“两化融合”背景下山东省软件产业发展战略及对策研究[J].信息技术与信息化,2013,2﹕19-26.

猜你喜欢
共词分析十二五发展模式
基于德温特数据库的关键共性技术分析
国内图书馆嵌入式服务研究主题分析
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
我国微型金融发展中的问题与思路
基于山东生态农业的绿色供应链管理研究分析
高职院校创客文化的发展模式
韩国高校校企合作模式新发展