王旭(大庆油田有限责任公司技术监督中心)
目前,已知的节能标准检索系统大多局限在标准名称、有效性情况、部分电子文本在线阅读以及标准文本订购的功能;而一些查询标准的网站也仅仅提供标准目录以及实施和发布时间的一些基本信息,而且这些网站有一个共同弊端:查询标准必须输入正规的标准词汇,而且顺序不能有误,一旦有误根本查询不到相关标准,让很多用户找不到自己需要的标准。包括各出版社注重的是传统标准文本的配备,由客户提出所需标准的具体名称、标准号。从根本意义来讲,没有了解标准使用者的真正用途。
1)国家标准馆研制开发了《国家标准文献共享平台》,该系统主要由前台展示子系统与后台分析子系统两部分组成。前台展示子系统是提供给未登录用户的展示界面,包括查看管理员预设的统计图以及标准文献检索功能。后台分析子系统是提供给注册用户的更加丰富详细的分析工具,用户可以自定义模板,对馆藏资源与订单资源进行查询和分析。但是他们对于节能方面的标准也只是限于目录查询和订购标准文本,只有一少部分的国际标准是有正规的电子文本可以查阅。一定程度上还未脱离传统的标准检索系统功能。
2)中国石油管道科技标准化研究所为天然气与管道专业建立的标准内容揭示系统平台,是一款新型的标准信息处理系统,该平台针对天然气与管道专业相关标准内容进行揭示,如技术指标、一般要求、引用标准等,用户可以直接检索或导航式检索相关标准化对象,系统直接反馈具有逻辑关系的标准内容,达到用户不同的查询目的。而这款平台也仅限于天然气与管道专业,并不完全适用于节能相关的技术专业。
随着标准化信息技术的不断创新,节能标准信息使用者的要求不断多样化,根据节能工作者对标准信息的不同需求,发现现有的标准信息检索技术无法满足以下需求:
1)在海量的节能标准数据中,需要对节能标准进行精确检索,以实现用户的检索目的。很多用户对标准名称不是很了解,只是想搜索里面的标准内容,在信息的检索过程中,人们在表达一个概念的时候,总是希望能够得到与此概念相关的一些东西,但是具体是一些什么东西,大多数用户不能够显性的表达出来,使得检索工具很难检索[1]。而且,现有的搜索平台,只是对标准的名称进行搜索。
2)节能检测和监测方面需要采集不同标准中的技术内容进行对比分析。例如,在现场进行检测时,需要多个标准中的标准数值进行对比分析。而带很多个标准文本去现场检测根本是不太现实的事情,也非常不方便。
3)为了紧跟标准化技术的发展方向,不落后于行业发展水平,需要在现有标准信息平台的基础上进行进一步的基于节能标准内容的研究。紧跟标准信息化建设的脚步。
搜集所有节能方面的标准,做成电子文本。原来的很多现有的标准电子模式都是PDF模式的,想从中截取相应信息,难度非常大,很难对PDF格式的文件进行提取相关信息处理。还需把PDF的图片格式转化为Word文本格式,才能从中提取相应的标准信息数据,做到内容检索。
现行节能标准体系的通用标准分类中包含了经济运行、节能监测、能源审计、统计计量及平衡通则类标准[2]。对相关标准内容关键分词和结构进行分析,提炼出标准中的相关重要标准数据。把Word文本的标准数据传输给负责做系统的计算机专业程序人员,让其在大庆油田信息网站上上传标准数据做出相应语义关联的检索程序。
目前的检索工具仅提供了基于关键字的检索,而忽略了关键字本身所含的语义内容。该文提出信息检索系统,利用本体论中概念规范、语义丰富的特点,将用户的检索要求扩充成语义集。并且将检索到的文档通过文档分析器进一步过滤,使用户最终的到与检索内容匹配度较高的文档[3]。做到用户可以从标准题录信息到标准技术内容的分层检索。通过此检索方法的研究,能够建立节能标准关键信息的检索库及索引库以及确定语义关联模型。
前文中涉及到本体论、搜索引擎技术、语义联想模型设计、标准化信息处理等关键技术,研究成果将代表大庆油田标准化手段进入新的发展阶段,代表大庆油田标准信息处理能力上升新的高度,预计未来将成为大庆油田标准化手段的重要信息处理工具。基于该项目成果开发的节能标准检索系统可与现有大庆油田标准化信息系统整合,形成一套综合的标准化服务产品,进一步提高标准化信息系统的效益空间。在油田各单位节能技术人员和管理人员进行推广,为节能的技术人员和管理部门提供便捷的标准信息查询工具,对开展实际工作带来了无限便利。