公共文化搜索平台的网络建设

2016-11-12 07:55赵云华
长江丛刊 2016年15期
关键词:本体网页检索

赵云华

公共文化搜索平台的网络建设

赵云华

文章从系统总体目标和功能需求两个方面对公共文化搜索平台展开需求分析,在此基础上,提出了平台的设计方案,最后论述了平台开发所需要的技术支撑。

公共文化 搜索平台 设计 开发

自改革开放已经,我国经济在不断地发展,正在想“创新驱动,转型发展”迈进,持续扩大了第三产业的比重[1],将极大地增强城市综合服务功能,在经济社会中进一步提升文化的地位,对于广大的人们来说,当保障了物质生活之后,就逐渐增长了对精神文化的需求,进一步的对精神文化有所要求。本文基于实际应用,对公共文化推送系统的实际应用进行了详细的探讨,力争达到公共文化服务信息中供需双方的对接,推动文化市场繁荣发展。文化知识的普及、先进文化的传播以及精神食粮的提供是由政府主导、社会参与的形式形成的,公共文化信息系统能经一部提高供需信息的紧密度,使人民群众的文化需求得到满足,对其基本文化权益提供保障。

计算机技术和网络技术在快速发展,同时在社会发展过程中也呈现出了大量化和多样化的信息,互联网上的信息扩大增长速度几乎是按照几何级数递增的。大量化的信息有助于人们对信息的获取,但是繁多的信息不仅能把便捷带给人们,同时还把筛选信息的烦恼带给人们[2]。公共文化搜索平台引入的推送技术和搜索引擎技术都较为先进,通过语义化理解相关问题,针对用户需求,寻求相关的科技资源,使提供给用户的公共文化资源反馈更加精准和全面。

一、公共文化搜索平台的需求分析

(一)系统总体目标

在文化信息资源共享工程中,基于网络设施,在镇村、街道文化站、各级公共图书馆以及社区文化活动室建设的基础上,可以建设公共电子阅览室,使构建公共文化信息化体系具有技术先进、传播快捷、内容丰富以及覆盖城乡的特点把更加便捷和丰富的公共数字文化服务提供给广大群众,在信息技术环境下保障公共文化服务的基本型、便利性、公益性以及均等性[3]。公共文化搜索平台的目标如下:首先确保开展的消息搜索具有多功能,公共文化搜索平台在搜索消息的过程中能实现其多功能性,确保广大群众信息获取的快捷和方便,同时体现出当代单位和新媒体信息获取的智能化和科技化。各个媒体、单位以及政府通过应用公共文化搜索平台,可以把多种公共文化消息推送出去,比如在最先的事件内把需要广大群众参与的通告、通知、调研、变动信息以及政策条例等方便快捷的以多种现代化方式向广大群众推送,依托平台强大的移动通信能力弥补传统信息发布方式的缺憾。其次是通过多种手段和方式确保信息覆盖的全面性,公共文化搜索平台内,具有繁多的信息量,而且具有多样性的信息推送方式,也即是说,信息推送平台的“内联性”很强[4]。在大多数信息的推送过程中,多是以邮件方式进行的,广大群众可以选择回复邮件或者其他处理方式,也可以通过设置邮件系统,对接收的邮件通知进行自动的回复,回复方式包括传真和短信两种,有助于信息发布方与群众之间的互动。同时邮件的功能还包括附件的上传,上传的附件可以为几百兆大小,具有非常大的信息量。最后,通过信息化手段的应用,可以使信息获取能力得到有效提高,减少纸张的使用。电子化信息处理和推送有助于对社会发展的促进和群众信息获取能力的提升。

总体目标是建设文化共享工程资源和广泛分布的文化类网站群资源进行查询检索的统一入口,其中结构化资源可以根据元数据字段准确检索,同时结构化数据与显示形式无关,可以支撑全媒体终端服务;其中海量非结构化的网站信息进行抓取后,与其他结构化数据资源进行整合,形成统一管理、索引、发布服务,实现结构化元数据与非结构化网络资源的统一检索。实时掌握各级单位数字文化资源建设情况,资源数量、文件格式、内容分类、分布情况,随时了解文化单位资源建设、保存、服务动态,为大数据挖掘,提供再利用条件。

(二)功能需求

公共文化搜索平台从功能上来说,在公共文化信息服务中是面向公众的出行需求出发的,在互联网站上通过网络技术的应用在电子地图可视化基础上实现地理信息服务。平台通过发布和推送公共文化信息内容如农业技术、益智游戏、红色历史以及社会公益标语广告,公共文化信息的推动以及信息发布功能得以实现,平台主要通过主动积极的方式把公共文化信息推送给广大用户,包括红色历史、农业技术、文化专题、实用技能、经典影视[5]。特色资源以及舞台艺术。公共文化搜索平台的具体功能如下所示:首先是信息传播推送,该子系统是把公共文化信息以一种主动积极的方式推送给广大用户,包括红色历史、文化专题、舞台艺术、地方特色、农业技术、经典影视以及使用技能,同时对于参与互动的市民进行提倡和鼓励,把双向沟通的桥梁和渠道积极搭建起来,该子系统的具体模块包括电子邮件推送、手机客户端推送以及手机短信推送;其次是公共文化信息采集,主要由两条收集系统信息的渠道,包括与公共文化信息相关的系统内设置的网站,在设定的时间内由网络爬虫完成信息的收集;信息管理员以手动形式添加的信息。对于公共文化信息来说,信息推送中的信息管理功能可以表现为信息服务系统,尤其是针对城市公众出行,通过注册公共文化推送平台并经过认证的用户,上述用户并不特指单一的个体,而是包含了政府机构、商家、公共媒体单位以及企业在内。系统对这些信息收集完成之后,还会进行相应的分类处理。最后是后台管理,根据具体要求后台管理员可以完成系统的设置,最终实现用户需求的满足,为了便于系统后期的维护,尽量不对内部代码进行修改,系统最好实现多样化以及多功能化的管理与配置功能,满足个性化的管理需求。

二、公共文化搜索平台的设计方案

依托现有的技术,为了使用户的个性化搜索需求得到满足,本文设计的系统充分结合了现代化的本体技术、中文自然语义理解基于以及数据挖掘技术对搜索系统进行构建,通过web平台上的操作界面,按照用户输入的关键词对关键词关联性较强的科技资源信息进行搜索。当用户向系统中输入某自然与关键词时,系统首先要语义理解该问题关键词,关于问题形成本体。再对本体间的关系进行充分的利用,把本体相关的所以本体项都找出来并指定为新的关键词,通过检索科技资源数据库,把用户搜索词内容相关的科技资源都搜索出来,最后按照组织、整理以及排序等操作反馈给用户检索的最终结果。

(一)平台的体系结构

利用本体,按照系统工作流程统一描述事物概念,为了便于计算机的理解,通过语义转换把用户提供的关键字变为标准词库的描述,通过本体间的关系对相关项进行搜索,检索出关键词相关资源。

在语义理解关键词、搜索相关项以及索引的建立,需要对预先建立的资源本体库进行调用,并对相关数据和信息进行处理。在语义理解的过程中,对于自然语句的词汇,本体的类概念会进行相应的归类和定义,使系统冗余得到有效减少,各种自然语言通过本体的概念化和形式化可以转换成标准词汇便于计算机的理解。在相关项搜索中,通过本体间关系的梳理,可以把相关的本体项找出,完成信息的查找和搜索。在语义标注环节,按照本体库可以实现科技资源的标注,匹配用户提供的关键词完成搜索。

(二)平台的层次结构

系统根据具体的执行功能,可以分为图1所示的四个层次:表示层、数据层、业务层以及实物层。

图1 系统层次结构

首先是表示层,在web页面上通过用户的操作,可以完成用户需求的输入以及结果的反馈;其次是数据层,构建的本体概念、实例、关系以及子类等本体库,并对科技资源的索引进行构建和数据库的建立;第三是业务层,在系统核心处理模块的建设过程中,需要相互提供数据通信接口;最后是实物层,公共文化搜索平台中的科技资源实体囊括了文献论文、样品标本、仪器设备以及科学数据等,首先要数字信息化这些科技资源,然后按照科技资源描述将关键信息搜集到资源数据库中。

(三)搜索平台的设计模型

图2给出了在本体基础上架构的资源搜索平台模型示意图。由图可知,在web基础上通过JsP、Java等技术开发了查询输入接口;通过JenaAPI实现相关项信息的处理以及语义理解。科技资源在信息化之后存放在科技资源库中,本体库中存储的文件是OWL形式的,描述科技资源库的相关信息存放在语义元数据库中。

图2 收索平台模型

三、公共文化搜索平台开发所需的技术

(一)非结构化数据搜索引擎

搜索引擎是把互联网查询服务提供给用户的一种搜索工具。在互联网中按照一定的策略可以搜索和发现信息,同时进行提取、组织和处理信息的操作,针对用户,通过检索服务的提供,发挥信息导航的作用。在互联网上搜索引擎会主动对网页信息进行搜索并按照一定的规则提供信息的索引,在可供查询的数据库中完成索引内容的存储,用户在查询过程中,只需要谁关键字,搜索引擎就把包含关键字的网址链接全部反馈给用户。搜集、索引和检索时搜索引擎体系框架之中的三个主要模块。

首先是搜集模块,通过互联网中网络蜘蛛的应用,可以实现对网页的自动浏览,进而实现对信息的收集。网络蜘蛛在B空间中能实现自动遍历功能,可以对网页上的内容进行扫描,从一个网页沿着网络链接可以扫描到另一个网页,通过链接的不断传递可以把几乎全部的网页信息都收集起来;其次是索引模块,阵地收集到的网页,索引模块可以完成分析操作,把页面中的无用信息排除在外之后对网页信息进行提取,比如页面生成时间、网页的URL地址、编码类型、页面的格式、与其余页面链接的关系、页面内容含有的关键字及其位置等[6]。在每个页面中,根据内容与超链接关键字之间的相关度,采用复杂的算法可以计算出两者之间的相关度,进而对网页索引数据库进行建设;最后是检索模块,通过关键词的输入,用户可以进行检索,对用户查询时输入的关键字进行分析,然后对建立好的索引进行访问,在搜索引擎系统中,已经计算得出所有网页与输入关键词之间的相关度,系统要按照高低对相关度数值进行排序,搜索结果中的网页关键信息和地址由页面生成系统组织起来向用户反馈就可以了。

(二)结构化元数据搜索引擎

结构化元数据搜索引擎是面向各级文化单位发布的结构化文化信息资源采用的收割方式,处理流程包括收割和整合两步。收割过程,即对分布在各地的元数据进行自动收集处理,该过程基于OAI-PMH协议,由中心收割服务器自动、定时对各级文化单位的加工层的元数据进行收割,元数据采用DublinCore格式,收割过程无需人工干预,系统按照既定设置自动运行。

整合,由于收割后的元数据内容采用XML统一格式,这些元数据可以快速、透明、经济的进行整合,管理人员可以方便对各地分布式资源进行管理、检索与统计。系统可以自动使相关资源产生关联,生成特色资源库、专业门户,对外提供元数据整合检索。各中心数据库通过门户可以自动产生横向关联,系统自动将相关数据同时发布,使得各中心资源形成有机整体。

(三)信息推送技术

作为一种公众服务,信息推送提供的信息是可靠的,首先信息推送系统要具有可靠的信息,才能进一步的实现信息的推送。所以,信息推送平台要把各类公共文化信息收集在一起,当然信息推送成员也可以自主添加这些信息。用户要想接收到推送平台发布的信息,首先要对自己的基本信息进行填写,然后在平台中对个性化的专属主题进行定制,形成自己的档案信息,主要包括信息的推送方式、推送内容以及推送时间段等等。在数据库中信息推送系统一旦检索到用户的需求信息,就会根据用户填写的兴起爱好等基本信息,把符合条件的信息推送给用户。图3给出了具体的推送流程。

图3 推送技术工作流程

四、结语

本文设计并实现的公共文化搜索平台对网络资源和结构化元数据进行收割并存储,可以直接搜索用户提交的关键词,是对相关以文化单位或互联网上的文化信息资源的采集资源的搜索,用户只需要指定搜索范围并给出模糊的关键词,就可以通过搜索引擎确定用户需求的相关资源,理解用户的搜索需求,同时,搜索平台可以对认证用户的搜索习惯进行记录和分析,实现定向信息资源的推送,使公共文化搜索的查准率和查重率都得到有效提升。

[1]由丽萍,秦雅楠.框架与Petri网相结合的中文情境知识表示方法研究.信息系统.2011,34:102~104.

[2]云健,王春霞.搜索引擎技术综述[J].河西学院学报.2008(6):21~25.

[3]周琦.基于关键词的语义搜索[D].上海:上海交通大学,2009.

[4]朱旭光,郭晶.双重失灵与公共文化服务体系建设[J].经济论坛,2010(3):32~35.

[5]沈泉生.公共文化服务重在社会效益[N].中国文化报,2010(07)01.

[6]巫志南.现代服务型公共文化体制创新研究[J].华中师范大学学报(人文社会科学版),2008(10):55~59.

(作者单位:广西壮族自治区图书馆)

赵云华(1971-),汉族,男,黑龙江依兰人,副研究馆员,本科,研究方向:图书馆信息化建设。

猜你喜欢
本体网页检索
基于MFI4OR标准的本体融合模型研究
眼睛是“本体”
基于HTML5与CSS3的网页设计技术研究
CNKI检索模式结合关键词选取在检索中的应用探讨
瑞典专利数据库的检索技巧
2019年第4-6期便捷检索目录
基于HTML5静态网页设计
英国知识产权局商标数据库信息检索
搜索引擎怎样对网页排序
专题