基于自动文本摘要的中文移动简讯系统

2015-09-28 07:20徐涛惠州学院计算机科学系惠州516007
现代计算机 2015年30期
关键词:特征词终端设备简讯

徐涛(惠州学院计算机科学系,惠州 516007)

基于自动文本摘要的中文移动简讯系统

徐涛
(惠州学院计算机科学系,惠州 516007)

0 引言

如何更加有效地使用移动终端设备浏览和查阅网上的海量信息是当前信息科学和移动互联网领域的研究热点之一,与传统的电脑PC平台相比,手机等移动终端设备带给人们极为便利的通讯环境[1-4],因此开发移动终端新闻简讯服务平台具有很高的实用和商业价值。

移动终端设备与传统的电脑上显示的新闻有所不同:移动终端设备的网速和屏幕大小明显受限,因此通常无法将新闻的全文显示,只能考虑将新闻里面次要、重复的内容删除,仅保留重点内容。如果采用人工手段进行简化摘要虽然可行,但明显会造成额外负担,如果需要发布大量新闻,会极大的影响新闻发布的进度和时效性,因此采用自动文本摘要技术显得尤为必要。近年来已经出现了一些自动文本摘要技术,针对网页文档结构往往组织和结构散乱、包含主题杂乱无章,网页文档摘要领域出现了一些较新的自动摘要技术,具有代表性的在iOS上运行的新闻阅读类应用Summly,采用了自然语义算法,生成的摘要可将原文凝练为不足400词。

本文设计了一个基于移动终端设备的中文简讯系统,采用自动文本分析的方式对新闻生成摘要,可以有效降低人工成本、提高新闻发布的时效。

1 移动简讯系统的运行平台构建

移动简讯系统的运行平台如图1所示,自动文本摘要服务器从互联网上对重要的新闻进行数据采集,生成原始新闻文本的数据文件,然后执行文本自动摘要算法,生成文本摘要后转发给各移动客户终端。

图1 移动简讯系统运行平台

2 新闻自动摘要处理框架及原理

新闻文本自动摘要的工作原理如图2所示,通过互联网对新闻进行采集得到传统新闻文本数据,然后进行分词处理得到一组候选词集合,在候选词集合中提取特征词并计算权重,得到一组带权重的特征词集合,然后再计算每个句子的权重,得到带权重的句子集合,最后计算句子相似度,过滤多余语句,选择权重最高的句子形成新闻摘要。

图2 新闻文本自动摘要工作流程图

3 新闻摘要平台关键技术的原理及分析

作为新闻文本摘要来说,特征词指的是那些最能代表文本主题的词语,因此选择一个有效的方法对新闻文本中的特征词进行选取显得尤为必要,许多文献中已经采取各类方法对特征词提取以实现自动文本摘要[5-8]。一段新闻文本中出现的大量词汇基本可分为两类:功能词和内容词,其中功能词不具备实际意义,又可以认为是虚词,而内容词则具备实际意义,可认为是实词。很明显,一段新闻文本的主要表达内容需要靠实词来完成,因此在进行特征词提取时,重点需要考虑去除和过滤虚词。至于“的、地、得、和、了”这些助词基本上大量出现在新闻文本中,可将其视为停用词。本文使用常用的TF-IDF统计方法实现特征词的权重评估,具体采用的TF-IDF公式如下:

由于在计算句子权重本项目采取的是侧重段落首句和侧重首段落,但是在新闻报道中首句有可能会是“某某记者报道”、“XX网X月X日讯”、“XX社北京X 月X日电”等不对新闻内容有影响的新闻文体首句,所以在处理时首先将这一类新闻文体首句过滤。在进行新闻摘要是一般不会考虑纳入疑问句、感叹句之类句式。

一般来说,新闻的标题对新闻正文具有极强的的概括作用,甚至而言,某些重大新闻的标题就直接反映了新闻文本的中心思想,因此在进行句子权重计算的如果结合标题的相似性会产生更好的效果,具体做法可让权重值参考标题和句子相似度进行加权。

在汉语表达的文本中,一个句子的特征基本可以认为具有以下三类:词特征、语义特征、句法特征。在语句相似度计算时,需要综合考虑以上的这三类特征,让它们进行有机的加权组合和互相补充。

汉语文本的句子可分为核心部分和修饰部分,核心部分可认为是那些能够句子的语义起至关重要的作用,通常表现为主谓宾结构,而修饰部分则表现为次要,通常表现为定状补结构。由于主谓宾结构中的主语和宾语往往为名词或代词,谓语则多为副词或形容词,而因此在进行句子相似度计算时,应当对句子中出现的各类词语进行词性标注,然后保留关键词,过滤掉非关键词。

4 结语

本文设计了一个基于移动终端设备的中文简讯系统,使用自动文本摘要技术,该系统所有的新闻原文和摘要的形成均在服务器上执行,然后将摘要后的新闻文本推送到到安装相应移动端软件的移动终端设备上。可以满足各类即时新闻的快捷简讯发布,节省人力资源,可以推广到各类企事业单位公共信息传播平台使用。

[1]茆意宏.移动信息服务的内涵与模式[J].情报科学,2012,30(2):210-215.

[2]茆意宏.面向用户需求的图书馆移动信息服务[J].中国图书馆学报,2012,38(1):76-86.

[3]杨超,陈璐.基于手机短信的订餐系统设计与开发[J].计算机工程与设计,2008,29(2):472-476.

[4]刘慧,张军.基于Internet的移动短信互通设计方案[J].计算机工程与应用,2007,43(31):5-8.

[5]江开忠,李子成,顾君忠.自动文本摘要方法[J].计算机工程,2008,34(1):221-223.

[6]马汉华,邵志清,过弋.基于认知心理学模型的自动文本摘要生成技术[J].华东理工大学学报(自然科学版),2009,35(6):886-891.

[7]余永红,柏文阳.基于特征项权重自动分解的文本聚类[J].计算机工程,2011,37(11):25-27.

[8]张虹.基于自动文本分类的关键词抽取算法[J].计算机工程,2009,35(12):145-147.

Mobile Newsletters;Mobile Messaging;Mobile Devices;Automatic Text Summarization

A Chinese Mobile SMS System Based on Automatic Text Summarization

XU Tao
(Department of Computer Science,Huizhou University,Huizhou 516007)

1007-1423(2015)30-0003-03

10.3969/j.issn.1007-1423.2015.30.001

徐涛(1974-),男,山东淄博人,副教授,博士学位,研究方向为移动互联网信息技术和信息安全技术

2015-09-01

2015-09-25

设计一个基于自动文本摘要的中文移动简讯系统,采用自动文本分析的方式对互联网上的新闻信息进行加工提炼后生成摘要,然后推送到移动终端设备,可以有效地降低人工成本、提高新闻发布的时效。

移动简讯;移动短信;移动终端设备;自动文本摘要

2013年惠州市科技计划项目(No.2013W20)、惠州学院2014年度教研教改项目(No.JG2014011)、惠州市科技计划项目(No.2013W12)

Presents a Chinese mobile SMS system based on automatic text summarization,generates a summary of news and information which collect from the Internet after refining procedure then push it to the mobile device.Automatic text summarization can effectively reduce labor costs and improve the timeliness of the news release.

猜你喜欢
特征词终端设备简讯
简讯
基于类信息的TF-IDF权重分析与改进①
基于MAC 认证的终端网络准入控制系统方案*
简讯
视频监视系统新型终端设备接入方案
基于改进TFIDF算法的邮件分类技术
Abstract
产品评论文本中特征词提取及其关联模型构建与应用
行车记录仪通信连接方法、行车记录仪及终端设备
简讯