吴素研,吴江瑞,李文波
(1. 北京市科学技术情报研究所 北京100044;2. 河南工学院 河南省新乡市100044;2. 中国科学院软件研究所 北京100081)
电子政务是利用现代信息网络技术和其他相关技术支持更加适合时代要求的政府结构和运行方式的实现。推行电子政务,是提高执政能力、深化行政管理体制改革的重要措施,是支持各级党委、人大、政府、政协、法院、检察院履行职能的有效手段。目前,电子政务在政协和人大工作中起到很大的作用,基本上完成了代表或者委员的网上履职功能,代表或者委员可以通过互联网进行提案或者建议的提交,人大和政协工作人员能够进行建议或者提案的相关处理。随着北京市电子政务工作从数字北京到智慧北京的转变,根据多年电子政务运行积累的数据和经验,运用自然语言处理、文本挖掘等相关技术对建议或提案进行智能分析,如初步确定主题词和承办单位、自动发现本届建议和提案的热点,以及通过分析几届建议和提案,找出代表或者委员关注点的变化等。通过智能分析,可以协助工作人员对建议或者提案有更深入的了解和掌握,进一步提高办公效率。
每年为期 6~7天的两会期间,代表和委员集中提交建议和提案,需要工作人员每天对建议和提案进行处理,而且要根据当天建议和提案情况写出统计分析报告,其中很重要的一项是代表或者委员今年关注的热点,得出这个报告需要工作人员短时间内查看完所有提案并进行统计分析。人工完成这项工作压力大,而且容易出错。为此,考虑目前在不扩充系统硬件,并且不影响目前服务运行效率的基础上,设计出尽可能少占用系统资源的热点抽取方法。一般情况下,建议或者提案的题目基本上能代表本建议或者提案的主要内容,相对于上千字的文本内容,对十几个字的题目进行文本挖掘占有更少的内存开销。因此根据系统现状和实际业务的需求,本文提出了基于知识库和词频统计分析的建议或提案热点抽取方法。
词是文献中承载概念的最小学术单位。词频分析法常用于科技文献分析领域,是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法。如加拿大蒙特利尔大学的Robert教授等以加拿大国家研究理事会确定的79个纳米科技关键词为依据,采用词频分析的方法,分析了全球范围内纳米科技论文的产出和分布。
科技文献是学术论文,用语比较规范,学术化,而且一般都有关键词或者主题词。但是建议和提案是关系民生各个方面的内容,涉及范围广,目前分析方法采用的是一个建议或者提案的题目,而不是已经分好的关键词。因此需要进行切词处理,之后进行词频分析,包括词出现的数量和关系,去除多余的词。最后根据词出现的关系,形成小的词团,最终得出热点。
由于提案建议包括教育、民生、法律等社会多个方面的内容,也包括很多比较生僻的专有方向,例如口述史等。因此利用专门分词软件容易遗漏这些偏僻词,而且也容易把一个概念分为几个词。如中小企业,分为中小、企业两个词。虽然很多专门针对中文分词的软件如 IKAnalyzer,都设计有词典库,可以添加各个领域的专业词,但是词典维护需要时间积累,因此对初期没有信息积累的建议和提案系统,没有采用专门分词软件,而是采用多元N-gram分词方式。N取值区域为[2,6]。
由于建议或者提案题目中经常包含与热点没有太大关系的词,而采用N-gram分词方式且N取值空间为[2,6]会切出很多词,占据内存太多,最终计算量太大,考虑到服务器性能和效率,因此将常用词作为停用词,先从题目中去掉,去完后将题目分成几个段,之后对这些段进行分词。
如“关于进一步完善北京市最低生活保障制度”的提案,去除“关于、进一步、完善、北京市、制度、的提案”后,被分为“最低生活保障”进行切词,最终切词为:最低/低生/生活/最低生/低生活/最低生活。
此处停用词和一般做中文处理的停用词点不太一样,经常使用的停用词典,一般将数字和单个字母都当成停用词去掉,但在此处不行。首先此停用词用法和别的分词软件不一样,一般分词软件将停用词作为非单独的单词出现,本方法停用词是直接从分词句子中去掉,其次因为建议或提案的题目都是代表和委员精心设计的,不会出现没有意义的数字和字母,将此去掉将会错过新出现的词,如 pm2.5等;最后,由于最终目的是热点分析,因此在其他分词软件中认为是有意义的词在此处则没有用,如北京、首都、提高、完善等。
鉴于此,需要建立建议和提案专门应用的停用词典。一般建立停用词主要依靠 TF/IDF。词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的次数。以防止它偏向长的文件,这个数字通常会被归一化。由于热点搜索只在建议或者提案题目进行,而一个词在题目中基本上都只出现一次,因此TF在此没有实际的意义,进行停用词发现不用考察 TF。
逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:
由 IDF定义可知,可以把它作为停用词的一个判断标准,一般 IDF高的话很可能就是停用词,但是IDF究竟为多少时是停用词,还需要借助于其他的信息进行判断。
建议和提案因为工作需要都标识有主题词。主题词是一个三级的结构,一级大约有 13个,二级有40个,三级主题词大约有380个左右。下面所得主题词以三级为考察对象。一般热点问题也跨主题词,但基本上跨的都比较小,如养老问题,在三级主题词为老龄问题、社会保障、离退休、待遇、社区、津贴、救济、失业、安置等都有涉及,但是基本上都不超过10个。而停用词的主题词跨度比较大,在一次会议1,480条提案的题目中有 170条提案中出现,而且这些提案的主题词种类为 110个。将主题词映射为自然语言处理中的主题(即类别),则定义主题数TN(Topic Number):即一个词 term 所出现的提案对应的不同主题词个数。将此因素作为考察一个词是否为常用词的一个因素。
根据对已有 11次数据、两万多条的考察,则将idf>1.5且 TN>10为自动发现常用词,同时常用词还可以人为添加和删除。
在进行去除常用词和切词后,可以根据词频进行统计,这时候会对整个题目的 term 根据词频有个排序。排序后显示如下(格式为词及出现的次数):出租23,租车 21,出租车 21,车难 14,打车 8,打车难 8,世界城3,界城市3,世界城市 3,回龙观 17,居民 4,出行3,地铁29。
我们通过考察,直接计算出来的词频有以下几个问题:
①可以看出N-gram分词的弊端,如出租、租车和出租车应该分为一个出租车,但是3-gram分完为出租车,2-gram继续分就会出现出租和租车这两个词。后边的车难、打车、打车难也存在这个问题。
②另外一个问题是出租车和打车难,这个问题对于政府来说都归结为出租车问题。如有的代表或委员说出租车难打,有的人直接说打车难,其实意思都是一样的。一个问题不同的描述,导致按照词频排序统计热点时,同一个热点分几部分统计,导致热点分散或者本来是热点的词统计不出来。
③还有一个重要的问题是,词以独立的个体存在,很难看出词与词之间的联系,但实际上是词联系起来组成题目,词之间是有关连的,如回龙观出现了17次,那么大家可能更想了解,17个回龙观的问题都是什么问题,是零散的,还是集中的问题。
针对以上3个问题,提出了如下解决方案:
问题①对于世界城/界城市/世界城市类似的词,因为界城市和世界城没有特别的含义,基本上和世界城市出现次数是一样的,因此可以利用它们的出现次数进行考察,如果相近,则去除长度短的词,留下长度长的词。具体算法如下:
C是一个常量,根据经验取0.9;t ermi(n−k)意思是长度为n−k的词;∈符号的意思是左边的词包含在右边的词中;T F(termi(n-k))表示词 termi(n-k)在文档集中出现的次数。
经实际运行证明,这种算法可以很好地把类似世界城/界城市这样的词去掉,而且还能够保留城市这样的词。因为世界城市在题目中出现的次数和城市比相差较大,毕竟城市也可能指北京,不只是世界城市。
问题②的解决需要建立知识库,目前阶段采用手工建立,凭借多年积累的对建议和提案的理解,人工总结其中的知识存入知识库。目前,存入的主要是词汇间的关系,主要有同义关系和同类关系。同义关系是指同义词之间有完全的相等性,可以用其中的词代替另外一个。如地铁、城铁和城市轨道,首都和北京,交通拥堵和交通堵塞。同类的关系是指针对建议和提案,同类词说的是一样的问题,但不能用其中一个词完全代替另外一个,如出租车和打的,中小学、中小学生、初中生、高中生等。同义关系在处理中直接取词频最高的代替其他词。同类关系处理中不代替,但是在结果排序中(正常按照词频排序)将其排在词频出现最高的词后边,形成词汇聚类。
问题③比较复杂,但也是最有实际价值的问题。多个词语罗列出来让人们很难发现其中的关联,失去很多有价值的信息。解决这个问题我们借助于知识图谱(Mapping Knowledge Domain)的理论,它在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。该理论后来在Google搜索中应用,大大提升了Google的搜索效果,主要针对搜索的改进是:找到最想要的信息;提供最全面的摘要。有了Knowledge Graph,Google可以更好地理解用户搜索信息,并总结出与搜索话题相关的内容。例如,当用户搜索“玛丽·居里”时,不仅可看到居里夫人的生平信息,还能获得关于其教育背景和科学发现方面的详细介绍,让搜索更有深度和广度。
知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。我们借鉴知识图谱的理论,提出词汇关系图谱的概念。将节点代表词汇、节点之间由无向线段链接,其上的数值表示两个词共同出现在一条建议或者提案中的次数整个图形成无向图。我们将以一届数据中17条包含回龙观提案的一部分进行展示如下:
图1 回龙观提案的一部分Fig.1 Part of the Huilongguan Proposal
图1中圆球代表节点即词汇,记录一个词语和它出现的次数;同颜色的球代表出现次数一样,并按照次数高低进行距离中心点不同距离的排列。从这张图中,我们很容易看出17条回龙观的提案都是围绕什么问题的。
图中形成闭环的部分说明闭环节点所代表的词在一条建议或者提案中出现。例如,设施/阅览室/图书馆。看一个词所连的词,说明了它的相关问题。这样能让单个词汇语义联系起来,给人更丰富的信息,更直观呈现词汇之间的联系。
目前,因为服务器硬件条件的限制,热点抽取信息源仅来自于建议、提案的题目,虽然题目包含了提案核心思想,但是内容则含有更加丰富的语义和语用信息,利用内容进行计算机智能分析将会更加准确。其次,知识库太过简单,仅限于同义和同类,还应该定义更多的关系,隶属等,应能从知识库中推算出概念是什么性质,如是地点还是人,能推出概念联系起来组成的语义关系。另外,知识库是手工建立,之后还要研究自动建立。在切词和搜索热点方面可以加入更高级的自然语言处理方法,使得热点更加确切,关联关系更加清晰。■
[1]巩永强,刘莉. 基于词频分析法的情报学研究热点透析[J]. 图书馆学研究,2011(7):9-13.
[2]夏立新,程秀峰,桂思思. 基于电子政务平台查询关键词共现多维可视化聚类分析研究[J]. 情报学报,2012,31(4):352-361.
[3]吴小莉. 基于科技文献的科技热点监测方法研究与应用[D]. 北京:中国科学技术信息研究所,2007.
[4]刘剑兰,朱东华. 信息抽取技术在情报监测中的应用[J]. 情报学报,2004(23):103-107.
[5]邱均,平吕红. 基于知识图谱的国内知识管理发展研究[J]. 情报学报,2013,32(5):548-560.