集成化动态信息跟踪的系统建设研究

2017-07-06 10:41谢建德庄承淮李水平王梦洁
中国高新技术企业 2017年7期
关键词:集成化信息管理网页

谢建德庄承淮李水平王梦洁

(1.福建省云创集成科技服务有限公司;2.三明市生产力促进中心,福建 三明 365000)

集成化动态信息跟踪的系统建设研究

谢建德1庄承淮2李水平1王梦洁1

(1.福建省云创集成科技服务有限公司;2.三明市生产力促进中心,福建 三明 365000)

文章通过对信息收集、信息处理、信息管理与分析的功能实现,介绍了动态信息跟踪的流程,通过功能的实现建立了可视化、集成化的动态信息跟踪系统,将来源于不同渠道的信息集成在一个管理系统中,从而对科技重大专项专题项目中的关键技术难点提供了解决方案。

集成化;动态信息跟踪系统;知识检索;信息收集;信息处理;信息管理

通常所建立的信息服务系统是自己建立信息资源或购买资源用账号登录的形式去阅读,然而信息资源不再是几个服务提供商就能满足需求的。尤其是现代信息处于爆炸式的发展,更新速度非常快,信息资源分布很广,因此探索建立一套适合收集互联网上的动态信息跟踪系统是非常必要的。本文以工业机器人的信息采集为例进行探索,建立一套信息搜索、采集、发布系统。不仅搜索现有的信息,还将跟踪这类信息的动态,随时更新信息。采集的数据回到本地服务器,再对数据进行去重、筛选、发布等处理。动态信息跟踪的最终结果,是要建立集成化的信息系统,为用户和其他系统提供有价信息。

1 关键技术难点需求

“海西装备云制造关键技术研发与应用”是科技重大专项专题项目,其中关键技术难点有一项需求是“整合、集成来自不同主体、不同渠道的多种资源,保证资源属性的集成性、完整性、一致性、通用性和访问安全性”。这项需求中不同渠道多种资源的特性,系统中采用建立规则、多方采集的方式来实现。对应集成性、完整性、一致性、通用性和访问安全性的需求,系统以自建信息数据库、规则制定、人工干预等的形式以及信息管理分析和处理的方法,以达到关键技术的解决目标。

2 集成化动态信息跟踪的核心

科技重大专项专题中的动态信息,其信息来源主要来自于互联网,通过设定规则、任务和采集,将这些信息收集并有效地组织起来,再对这些信息进行加工处理,处理后将按照用户要求的结构形成用户最需要的信息内容。在整个过程中最核心的是信息收集、信息处理、信息管理与分析部分。信息收集部分要保证信息能够被收集到。信息处理部分需要将各种格式的信息结构化,并保证信息的有效性、准确性、无重复以及信息的变化情况。信息管理与分析部分要对结构化的结果信息进行分析,以便用户能够发现海量数据中的价值,为决策提供更可靠的依据。

3 集成化动态信息跟踪的功能实现

3.1 系统信息收集的方法与流程

3.1.1 网站整理。针对互联网中相关网站,整理出需要收集的信息所在栏目,并汇编成《源网站汇总表》,方便信息的收集和日后信息的管理。

3.1.2 添加网站。在信息查询管理模块添加网站的名称、网址、pr值、状态、标签、主办单位、介绍、结果类型、分类目录等。

图1 动态信息跟踪流程

3.1.3 制作规则。通过规则生成器针对不同的网站或同一网站不同类别信息显示方式的不同,从源文件中选择一些通用的标记来定位信息的位置,建立统一的格式,以便更系统地管理网站上的数据。根据网页的源代码对列表页进行内容的截取和标记的抽取,选取所抽字段的开始和结束标记,确定采集的范围和确定的内容,抽取标题、地址和时间,并测试是否抽取正确。根据网页的源代码对详细内容页进行内容的截取和标记的抽取,选取所抽字段的开始和结束标记,确定采集的范围和确定的内容,抽取信息正文内容,并关联列表页。

3.1.4 制作任务。利用在规则生成器里制作的规则,在数据库中存储的一条可以采集网站列表中信息的记录,采集程序调用这条记录进行数据采集,一条记录叫做一条任务。任务的添加和地址编码、网页编码可以调整。对采集的信息可设置运行时间,包括手动操作或定时自动操作以及设置下次运行时间。如果网站包含外部链接而导致信息无法采集,通过对某些字段的过滤来增强抓取信息的准确性。还需处理设置关键词的提取和去重设置,对收取的信息根据目录进行分类。

3.1.5 信息管理。在信息查询管理工具中,可以查询添加网站、规则、任务所有数据,也可通过状态、ID、名称、结果类型(或根据提供的字段手动输入条件)进行查询。任务状态包括规则制作完成、规则制作失败、等待采集、采集中等,也可修改其状态。

3.1.6 信息采集。采集程序从数据库中调用任务,分别将每条任务对应下的信息以数据的形式存储到数据库,这样采集程序在这个过程中就完成了单条任务到多条信息的转换。当信息需要在页面显示时,从数据库中调出该条数据即可。采集程序的主要功能主要包括五部分,分别为当前状态、任务列表、历史记录、运行设置和高级设置。从当前状态界面通过完成数和剩余数可以查看采集程序运行是否正常。任务列表包括任务ID、任务名称和任务开始执行的时间。任务列表显示的任务是按照开始时间升序排列。历史记录查看采集程序已经执行过的任务,包括任务ID、任务名称、任务的开始时间和结束时间,可设置和查看程序的执行时间,配置数据库等。

3.2 系统信息处理的方法与流程

去重包括基于来源地址的去重、基于标题的去重、基于结构化信息的去重、基于摘要的去重、基于全文内容的去重,并可以综合以上方式进行综合去重。通过筛选信息来源网站、基于链接地址过滤、基于标题过滤、基于内容过滤、基于发布日期过滤等方式对结果信息进行过滤。利用Html网页分析技术和自然语言处理技术从网页中提取出网页主题词。利用Html网页分析技术和自然语言处理技术对网页全文内容进行分析,并形成全文摘要。全文摘要的长度、比例等各项参数可以灵活定制。

3.3 系统信息管理与分析

统一的管理后台可以对用户、分类目录和内容进行有效地管理。可在后台添加或删除分类目录,还可以查看采集的信息是否有误,并对错误的信息进行修改。系统可以通过信息的来源进行分类,还可以根据自动提取的文章主题词以及权重,结合预定义类别进行分类。系统能够对指定范围内信息的特征关键词进行统计分析,得到这些信息的热门标签,以便快速发现热点内容。

4 结语

系统建立后,以工业机器人为例进行动态信息跟踪。系统能自动将指定网站栏目信息采集到后台,管理人员再根据发布规则对信息进行自动发布或人工发布。已经能满足科技重大专项专题中的相关需求,给用户最全、最新的信息,大大减少人力成本。由于信息来源于不同网站,因此有些信息是由不同部门发布的,就产生信息重复的现象。重复率约10%,目前还没有有效的自动解决方法,而人工去重的成本较大,但不影响系统的运营使用。

[1]黄永文,张智雄,吴祯新,谢靖.集成化可视化的知识检索服务平台建设[J].科研信息化与应用,2013,4(2).

(责任编辑:黄银芳)

TP391

1009-2374(2017)07-0031-02

10.13535/j.cnki.11-4406/n.2017.07.014

福建省科技重大专项专题“海西装备云制造关键技术研发与应用”(2015HZ0002,2015HZ0002-1)。

谢建德(1964-),男,福建省云创集成科技服务有限公司工程师,EMBA,研究方向:信息系统、智能信息处理、数字资源集成等电子信息;庄承淮(1967-),男,三明市生产力促进中心副研究员,研究方向:科技咨询及科技创新服务平台的建设、管理与服务;李水平(1982-),男,福建省云创集成科技服务有限公司工程师,研究方向:信息系统、网站程序开发、计算机应用;王梦洁(1990-),女,供职于福建省云创集成科技服务有限公司,研究方向:信息数据处理、网站需求分析定位和功能测试等。

A

猜你喜欢
集成化信息管理网页
造价信息管理在海外投标中的应用探讨
评《现代物流信息管理与技术》(书评)
博格华纳向集成化转型
基于CSS的网页导航栏的设计
基于URL和网页类型的网页信息采集研究
基于电子商务的计算机软件系统集成化维护思路探索
在高速公路信息管理中如何做好QC小组活动
网页制作在英语教学中的应用
集成化供应链项目转变药学管理模式
10个必知的网页设计术语