信息抽取技术在地方社科院网站建设中的应用

2015-06-29 21:33党蕾
科技资讯 2015年13期
关键词:社科院信息检索文档

党蕾

摘 要:信息时代,特别是大数据时代的到来,引发了文献和信息量剧增,地方社科院在新环境新形势下大力推进哲学社会科学繁荣与发展面临着更多机遇和挑战。针对地方社科院的发展,各研究所的科研人员需要的学科研究领域的资料信息却无从查找,只有在社科类方向和一些专业研究机构网站中搜索与自身研究相关的信息内容,但这一工作量无疑是巨大的,由此可见,信息抽取技术的合理应用能够有效的解决研究人员资料储备不足的问题,只有丰富充沛的信息量,才能使得专业课题研究、学科领域研究在良好的前提下取得事半功倍的效果。

关键词:信息抽取 地方社科院 主题文档

中图分类号:G202 文献标识码:A 文章编号:1672-3791(2015)05(a)-0011-01

1 研究现状

在各地方社科院网站建设运行中,一方面一般的站内搜索引擎具备通用搜索引擎的构架和功能,通过设定的关键字来进行匹配查询,查询条件比较单一,比如:作者、标题。而另一方面在网站信息中对于新闻的抓取和各学科领域研究的信息拓展则反映较少,能将信息抽取技术应用到现有网站建设结构中的较少,网站功能上来看,只是简单的作为新闻的传播渠道,与网络中聚结的大量WEB信息量无法做到有效交互,对研究人员进行学科研究提供的帮助不大。

2 存在的问题

(1)信息检索的缺陷:目前信息检索的正确率不是很高,需要人工自己进行判断。它的根本原因是文档内容和查询的表示都是一种不精确性表示。另一方面自然语言的同义性和多义性也造成了检索的正确率不高,因为词和意义的关系是多对多的关系。计算机如果没有语义知识和背景知识,就很难作出正确判断。

(2)信息抽取技术的局限性:web信息抽取方法主要有基于HTML、基于本体、基于数学模型等多种技术方法,但是在信息抽取中不能准确对区域中的主题信息进行区分,并且噪声大,启发式算法需要较长的页面处理时间,在这些方法中,准确度高的信息抽取方法大多需要人工参与,并且需要建立复杂的知识库,过程比较复杂。自动化程度较高的信息抽取方法一般页面处理时间较长,并且准确度比较低。

3 研究意义

社科院在社会理论研究的前沿,其网站功能的发展也需要随之改革创新。因此,在现行以新闻信息发布为主要功能的前提下,不断提供更多新型的交互式功能,比如扩展信息检索的条件,以主要理论研究网站和社科类相关网站为备选,返回更多的相关文档新闻以供选择;其次根据时间节点抓取随时更新的信息,基于主题的信息抽取技术能够较准确的返回用户所需要的新闻信息。

该文研究目的不仅使地方社科院网站建设更加完善,提供畅通的搜索反馈渠道满足对信息的多样化需求,促进地方社科院各项学科领域建设的蓬勃发展。

4 研究的基本思路和方法

该文从一般信息抽取技术的应用方法入手,将web文档进行抽取。典型的信息抽取系统包括一个预处理过程,目的在于过滤掉与抽取目标不相干掉文本;然后通过词法分析和标引,识别所有相关的词汇;句法和语义分析只应用于所有包含了关键词典句子的集合,对每个句子的分析结果近似于该句子的语义框架表示;最后对这些框架进行合并和综合,便可得到所需的信息的各种数据项。

该文采用基础改进的方法,主要根据现有的信息抽取技术结合站内检索的特点,将信息抽取技术加到信息检索中,增加约束条件的检测和命名实体的抽取,满足用户输出的要求,对站内搜索功能进行拓展和完善;在新闻发布的同时对WEB信息中本院新闻和学科研究领域进行信息抽取,呈现在地方社科院网站中予以展示,促进地方社科院网站发展的新模式。

5 主要观点及理论创新程度

(1)改进的站内检索功能:站内搜索引擎具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索、句子搜索,大大提高了用户操作的友好度;而这就需要基于学习统计模型的主要基准词确定好,随后查询与之相关度较高的词汇,计算PMI值(词汇相关度)来进行判别。句子搜索则要根据句子结构分析判别出句中短语结构和搭配模式,确定该句中主题词,根据主题词进行匹配计算,并抽取出相似度最高的文章或报道。

我们可以在此基础上将输入关键字的某些相关的信息加入搜索条件,联合进行查找。比如:按照一个主题把所有相关文档提供给访问者,可以让访问者更全面的了解他所想要的东西,这增加了网站信息间的组织性和逻辑性,方便了访问者的使用,提升用户体验度。通过上述方法能够根据用户的需求进行数据挖掘,从而提高地方社科院网站系统的价值。

(2)信息抽取模块功能:信息抽取技术能够根据关键字匹配方法自动获取网络资源信息,它能够抓取网站上的信息标题和详细内容,而且可以对信息进行自动判别和分类。从社科院网站建设规划来看,信息抽取不是盲目的新闻抓取,而按照关联程度和时间顺序对国内外社科类新闻进行采集并审核后发布。

针对社科院网站建设,我们通过应用属性对比技术,在一定程度上避免了对社科类网页的重复分析和采集, 提高了信息的更新速度和全部搜索率。同时,对不同时期需要提取的网页给予修正。搭建WEB管理平台便于信息处理人员处理和校验数据,对于一些网站,无法用软件采集的就用人工处理。需要对所有信息源进行实时监控,如有新的数据则进行更新。

(3)信息抽取技术应用的效应:信息抽取技术的应用使得地方社科院网站建设更加多元化,不仅体现在各学科领域研究方面,将专业领域的相关主题文档等做自动分类的搜索返回,这一应用产生的效应可以提升地方社科院网站在推进社科研究方面应有的功能和和作用;同时信息抽取技术的应用还反映在能够挖掘更多不同角度和层次的新闻信息,能够更加详尽的展示出地方社科院广泛的影响力,在网络环境下发挥社科发展的更大优势。

除此之外,添加信息抽取技术的信息检索方法可以拓展多种检索条件,使得检索结果更为准确,满足研究人员的多种需求,同时也可建立会议检索等媒体搜索通道,又便于院内人员进行查询相关会议资讯,及时掌握专业领域动态,对于地方社科院各个研究所的领域研究发展也具有积极的意义。

参考文献

[1] 杨文清,黄宜华,张福炎.中文web文档库全文检索技术研究与实现[J].中文信息学报,1999(4):50-57.

[2] 吴立德,等.大规模中文文本处理[M].上海:复旦大学出版社,1997.

[3] 黄萱菁.大规模中文文本的检索、分类与文摘研究[D].上海:复旦大学,1998.

[4] 王晔,王晓玲,周傲英.学术搜索引擎的技术研究和系统实现[J].知识科学和知识工程进展,2011.

[5] 李芳,盛焕烨,姚天昉.信息检索与信息抽取技术的研究[J].计算机应用研究,2002(1):16-18.

猜你喜欢
社科院信息检索文档
省委常委、省委宣传部部长王纲到省社科院调研
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
陕西省社科院为离休干部过百岁生日
基于RI码计算的Word复制文档鉴别
医学期刊编辑中文献信息检索的应用
2016年西藏社科院16项院级课题结构
基于神经网络的个性化信息检索模型研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
教学型大学《信息检索》公选课的设计与实施