辽河流域是我国七大流域之一,国家针对辽河流域的治理经历了漫长的过程,并得出了大量的技术成果。本文针对辽河流域水环境管理技术文档的存储现状,设计了辽河流域水环境管理技术库,并采用语义分析技术对库内的技术文档进行分析,实现了自动提取知识规则,并将其存入知识规则库。该方法提高了用户对大量技术文档的查阅效率和准确率。
【关键词】辽河流域 技术库 语义分析 知识规则库
我国水环境管理涉及各部委及各省、市、自治区相应机构,基本上属于分散型管理体制。鉴于我国的水环境特点和国情,加强对水环境有关方面的技术文档的利用,建立一系列的数据库表对其内容进行存储辨析,以实现智能提取文档内容,提高文档检索效率,加速推进水环境管理技术文档的利用。针对辽河流域水环境管理现状,本文提出了辽河流域水环境管理技术库的构建方法。
1 技术库构建方法研究
1.1 数据库构建技术
在系统的设计和开发过程中,数据库是系统的核心和基础,把大量相关的数据存入系统所设计的数据库中,可以按一定的模型组织起来,为这些数据的存储、维护、检索提供方便的操作,使系统可以方便、及时、准确地从数据库中获得所需的信息。在数据库构建过程中,需要遵循以下基本原则:
(1)实现数据库构建的标准化和规范化。
(2)对表中参数使用统一命名规则,并添加清晰易懂注释信息。
(3)使用自定义域定义出现频率高的字段,有利于调整和修改。
(4)设置常用的隐藏字段来满足特殊需要, 使数据库表的设计更加符合系统的具体应用。
1.2 语义分析技术
在一个社会网络中常有节点之间的信息交流。可以对这种社会网络进行分析的一种强大的用来获得和理解文本信息的技术被称为语义分析技术。作为一个在人工智能和计算语言学的方法,它为知识推理和语言提供了一个结构和过程。
对此,将技术文档中的句子提取出来,根据语义中包含的目标词内容进行语义类型的分析,并形成一种语义搭配,从而对传统的检索技术进行改进,找出语义相近的内容,设计检索系统可以检索到相近的语句内容。计算机的语义分析应用于技术文档的分析,可以消除专家们在提炼文档内容过程中的主观意见,计算机语义分析则客观的检索文档中可能与检索的关键词相关的内容。
由于检索时需要选定目标词汇,在系统设计过程中,根据用户检索不同目标词,系统设置了记忆功能,对用户感兴趣的内容进行整理归纳,并对新用户进行推荐,节约了用户再次对相同内容查询时检索的时间。而随着文档数逐渐增多,文档相关词汇也在不断增加,检索系统不断自我完善,区别文档语义和词义的精确度会有所提高。
2 水环境管理技术库设计
在技术库实现过程中,用户可根据系统的功能,在文档中自动提取技术文档的参数值,并作为计算参数存入知识规则库。系统可以根据文档内容自动分析文档成分,并提出有价值的知识供使用者查阅及学习。
2.1 技术库逻辑结构设计
辽河流域水环境管理技术库的构建主要包括技术文档信息表、关键字词典表、本地化参数表及参数属性表等试题。各实体的逻辑设计如下:
2.1.1 类别
根据“分区、分类、分级、分期”的基本理念,将技术库文档进行分类,将技术文档数据规范化管理,更加高效科学。
2.1.2 技术文档
技术文档可以存储在本数据表中,用户可以通过查询此数据表来查看技术文档的详细内容。
2.1.3 关键字词典
技术文档通过检索比对关键字词典表筛选有用内容和知识,系统可以对筛选内容作进一步处理。
2.1.4 本地化参数
根据对上述系统的详细分析,针对不同地域使用不同的数据进行计算,将数据更精确化,是计算结果更加准确。
2.1.5 参数属性
每一个本地化参数对应一个或多个属性,此数据表将用来存储本地化参数的属性。
2.2 技术库物理结构设计
对技术文档的主要相关内容采用Oracle数据库进行建表存储,辽河流域水环境管理技术库数据库构建了以下属性表:水环境管理技术文档类别表(编号,类别名称,类别描述),水环境管理技术文档表(编号,名称,描述,所属类别,上传时间,操作员,路径),水环境管理技术关键字词典表(编号,关键字,关键字描述,关键字等级),水环境管理技术本地化参数表(编号,文档编号,参数名称,参数描述,备注),水环境管理技术参数属性表(编号,属性编号,属性值,参数表示区域)。
通过对项目需求的分析及前期设计,完成了技术库表的建立,并建立了数据表之间的逻辑关系,实现了表之间的相互关联。
3 水环境管理知识规则库设计
根据水环境技术库的要求,将技术文档中各种内容进行整理,并将那些较为重要的内容存入辅助的知识规则库。知识规则库的设计是基于水环境管理的技术库以及政策库文档的收集分析而形成的。系统管理员根据实际情况收集技术、政策文档并上传,并将实际内容存储于数据库中,供分析模块分析使用。通过对技术库以及政策库内存储的文档进行分析,并将分析内容进行整理,存入知识规则库中。
系统通过使用者提交文档,并对文档内容形式进行划分,区别公式、表格以及文本等内容,并对不同的内容进行不同的处理方式。对文本内容才去传统的文本分析,提取有用的内容并将这些内容進行进一步的筛选处理,提供给用户;对表格内容,系统提取了表名并将表格内容呈现给用户;对于文档中的公式内容,文档提取出了部分公式介绍内容对公式进行注释,同时提取保存公式内容的图片存入数据库,而公式的存储则需要人工协助录入,实现对文档的半智能分析。
4 结论
本文根据辽河流域现阶段水环境管理现状,通过对水环境相关的技术文档进行整理存储,并采用语义分析方法对存储文档进行分析,根据关键字词典进行分析预测,将各种不规则的文档内容进行统一整理,提取表格、公式及关键文本等相关内容,并将其存储为知识规则,以便于用户对关键技术的查阅和学习。
参考文献
[1]孟伟.辽河流域水污染治理和水环境管理技术体系构建[J].中国工程科学,2013(03):4-10 .
[2]程丽丽.企业信息化建设中数据库的结构设计应用[J].福建电脑,2008(07):41-42.
[3]李博湘.数据库设计技巧[J].科技情报开发与经济,2006(19):237-238.
[4]王水利,黄广君.基于语义分析的查询扩展方法[J].计算机工程,2011(08):77-79.
[5]刘云峰,齐欢.中文信息的潜在语义分析[J].华南理工大学学报,2004.
作者简介
夏广锋,现任职于辽宁省环境科学研究院,主要从事水污染及大气污染治理方面研究工作。
付立冬,现任职于沈阳理工大学。主要研究方向为计算机应用技术。
吴赫,现为沈阳理工大学研究生。计算机应用技术专业。
作者单位
1.辽宁省环境科学研究院 辽宁省沈阳市 110161
2.沈阳理工大学信息科学与工程学院 辽宁省沈阳市 110159