语音文摘研究综述

2013-06-25 09:00:36张剑潘晓衡邓见光
东莞理工学院学报 2013年3期
关键词:书面文摘研究者

张剑 潘晓衡 邓见光,2

(1. 东莞理工学院 工程技术研究院,广东东莞 523808;2. 华南理工大学 计算机科学与工程学院,广州 510006)

语音交流是人们日常生活中最主要和最便利的信息沟通媒介。每天人们通过互联网和手持设备,接触到大量的多媒体信息,比如:电话语音信息、广播和电视节目、视频课程、各类电话视频会议等。通过直接收听语音或收看视频来获取自己所需信息,是非常费时和低效的。为了帮助人们能快捷地从这些信息当中抽取感兴趣的部分,越来越多的研究者将研究兴趣放在自动语音理解与组织的任务上面[1]:比如:语音识别[2]、语音文档检索[3]、语音文摘[4]、语音文档信息抽取[5]、主题分析与组织[6]等。

自动语音理解与摘要技术作为语音文档理解与管理系统的核心技术之一,主要完成从大量的原始语音中抽取出含有最有信息量或者与用户最“感兴趣”的语音部分的任务。语音文摘抽取与书面文档文摘抽取相比,是一个新兴和待发展研究领域。早在20 世纪50年代,书面文档文摘抽取技术的研究就已经开始发展,现已拓展出更多新的方向,如:多文档、多语言、和多媒体文摘抽取[7]。文摘抽取大体上可以分为摘取式文摘抽取(Extractive Summarization)和概括式文摘抽取(Abstractive Summarization)两类。摘取式文摘抽取是按照目标压缩率从原始文档中选取最重要的或最有指示性的部分来构成简略版本的过程;而概括式摘要的提取,是根据原始语音文档的主要意思,重新组织语句,生成一个概括性的简略版本。概括式文摘因其没有包含足够的信息量,无法满足人们的需求[8]。相比之下,抽取式摘要能帮助人们更准确地理解整个文档,并且更快地定位到感兴趣的信息。现今文档理解与摘要的研究主要集中在抽取式摘要上。

论文将从两个方面即:1)书面文档文摘技术在语音文档文摘提取的应用研究;2)新兴的基于结构建模的语音理解与文摘的研究,对自动语音摘要领域现有的研究成果进行综述。

1 从书面文档文摘到语音文摘

1.1 书面文档摘要提取方法的应用

对于目前有一些研究者把用于书面文档摘要提取的方法应用到语音文档理解与摘要任务中[9-13]。

Christensen 等[9]提出了如何将报刊新闻摘要提取技术应用于新闻广播语音摘要的提取。首先,他们同样把语音文摘的提取问题看作是一个二元分类问题,即:先用特征向量来表示每一段语音,再通过二元分类器对每一语音段进行判断,认定该语音段是或者不是文摘中的语句。他们发现与在报刊新闻摘要任务中的作用相比,语音段在文档中的位置特征对于新闻广播语音摘要提取的作用不是那么大。同时发现,没有任何一组特征的作用特别突出,而包括结构特征如:句子位置、长度等和词汇特征如:词条权重、专有名词等在内的特征组合的作用最大。另外,他们还发现语音识别的错误给人们阅读所生成摘取式文摘造成了相当大的困难,尤其是抽取出的摘要没有段落和标准语句的停顿,给人们理解文摘带来了很大的挑战。

Zhu & Penn[10]提出使用最大边界相关(Maximal Marginal Relevance,MMR)权重[14]作为单一的特征来表示每一语音段,然后再训练摘要提取模型,以提高摘要提取性能。他们首先计算候选语音段与待生成文摘的语音文档核心主题的相关度,以及候选语音段与已选语音段间的相似度,进而计算出该候选语音段的MMR 值,即:

Hori & Furui[11]提出了对每个语音段进行摘要权重计算的方法来抽取摘要,这种摘要权重包含了语音段中每个词的重要权重的累加以及从语音段中抽取出的各类词法或句法特征的权重。

Kolluru et al.[12]提出了一种基于多层感知器网络的文摘提取算法。首先,他们根据语音识别器生成的语音段对应抄本语句以及识别置信值,来删除一些置信值低的候选语音段;然后,根据剩余的语音段所对应的词条权重和专有名词特征来训练多层感知器网络,用于文摘提取。他们发现该系统生成的摘要,在用疑问-回答(question-answering)评测准则和ROUGE 分析评测准则评判时,性能表现良好;但如果用主观流畅度准则评判时,摘要稍显不畅。

Chen et al.[13]提出了一种摘取式文摘算法:首先计算语音文档对应的口语文本中潜在主题信息的概率,并以此作为文档的一个有效特征;然后对于同一语音文档和候选文摘用传统的向量空间模型与潜在语义索引模型以及隐马尔可夫模型(Hidden Markov Model,HMM)等模型进行表示,再通过比较不同的模型,来判定该候选文摘对此语音文档的概括程度。并在台湾收集的中文广播新闻文档上进行了验证实验,结果表明该潜在主题信息概率能提高文摘提取的准确度。

以上这些算法都是传统的书面文摘抽取方法在语音文档方面的迁移应用,而语音文档所对应的识别口语抄本中,语句边界不清晰,表达意思不连贯,含有不少语音识别错误;并且摘要本身没有包含结构信息,不易理解。如果只是应用那些书面文摘抽取方法处理语音文档,所得到的文摘是无法让人满意的。如何利用语音文档中所特有的语音信息,成为了研究者关注的热点。

1.2 语音特征在语音文摘抽取的应用

有研究者[4,12,15-20]发现,从语音文档的语音信息当中,可以提取出能帮助抽取摘要的语音特征,比如:能量,F0,韵律等。这些现有的语音文摘系统已经表明:语音文档中,说话人的讲话语气、方式与讲话内容在整个文档中的重要程度有紧密联系。

Hori & Furui[16]提出了一种基于有限状态转换器的多级语音文摘抽取算法。将语音识别的解码过程与摘要抽取过程综合在单一的有限状态转换器完成,并在演讲语音数据库上进行了验证实验。

Inoue et al.[15]提出了基于词法特征和语音特征来表示语音文档中的各个词汇的方法,并通过统计算法来判断每个词汇是否属于文摘。并且在日文广播新闻语料库上进行了验证实验。

Mckeown et al.[4]对书面文档摘要提取的研究进行了综述,并讨论了如何将书面文档摘要提取的方法应用于语音文档中。对抽取广播新闻和会议录音这两种不同类型的语音文档摘要过程中出现的挑战进行了描述,并比较了各特征在摘要抽取的作用。发现对于会议录音,韵律特征(prosodic)和词法特征与会议主题的转换相关。还发现其中贡献最大的特征是语音的停顿和关键短语,而这两类特征同时也可以帮助多人对话语音文档中的语音分割。

Maskey & Hirschberg[17]提出了将语音特征与句法特征,词法特征结合起来,进行语音理解并抽取摘要,并且在英文广播新闻语音进行了验证实验,发现最好性能的摘要抽取模型是用所有特征的组合来表示语音段所训练出来的。所用的语音特征包括音调(pitch),能量(energy),语速(speaking rate)以及语句持续时间等。最好的文摘抽取F-measure 为0.544(满分为1.0)。将语音特征与结构特征(structural features)相结合训练而成的文摘系统,其文摘抽取性能为:ROUGE scores 介于0.68 到0.76。

Maskey & Hirschberg[18]进一步提出了无需识别语音文档,直接应用语音信息进行文摘抽取的基于隐马尔科夫模型算法。模型中的隐状态的值表示语音段包括或不包括在文摘中,而表示各语音段的语音特征向量是模型中的观测向量。模型解码的最佳序列对应的就是语音文档的摘要。实验结果表明:单用语音特征向量表示语音段来进行语音文摘的抽取,是可行的。这就避免了语音识别的错误对语音摘要抽取的影响。

2 结构信息在语音文摘抽取的应用

目前大多数研究者没有充分利用隐藏在语音文档中的结构信息来帮助抽取文摘,下面将对结构信息在文摘抽取的应用进行介绍。

2.1 结构信息在书面文摘抽取的应用

有研究者[21-22]提出了如何从书面文档中提取结构特征,并将特征用于文档的主题分割和文摘的抽取。

Barzilay et al.[21]提出了一种无监督学习算法用于特定领域书面文档的内容导航,即文档主题选择以及结构组织。同时将算法应用于信息重要性排序和文摘抽取。实验表明:抽取具有结构组织信息的文摘,比传统文摘抽取算法所得无结构摘要,要更易让人理解。

Branavan et al.[22]提出了一种结构化区分性(structured discriminative)算法用于书面文档目录的生成。它使用了大量基于习语和语料库的文本特征。目录作为一种导航性文摘,非常适合用于检索长篇书面文档。典型的目录主要是列举出目标文档中的所有主题,并提供各个主题在文档中所处的位置。

有研究者[23-25]提出了主题建模算法用于提取书面文档库的摘要,如:电子邮件、科技论文和报纸等。

Blei et al.[23]提出了Latent Dirichlet Allocation(LDA)算法,一种非监督学习生成式概率模型,并用于书面文档库的文摘提取。LDA 是一种三级层次的贝叶斯模型。文档库相关的每一主题都由主题词集合的主题间相关度加权的向量表示。每一个主题又由一关键词列表来表示。每篇文档由主题词集合的概率分布来表示。在对书面文档上下文进行建模时,各主题的概率分布就用于表示该文档的主题。Blei& Lafferty 进一步提出了LDA 的两种扩展算法:the Dynamic Topic Model(DTM)[24]和the Correlated Topic Model(CTM)[25]。

以上主题分割算法如果用于对语音文档所对应的口语抄本进行处理,有如下两个缺陷:1)忽略了语音文档中各个主题出现次序和所展现的故事流(story flow);2)自动语音识别生成抄本中的识别错误对于算法性能有明显的影响。

鉴于此,有研究者[18,26-28]提出了针对语音文档或者其口语抄本的结构信息建模,实验结果表明:有效的结构建模信息有助于主题分割和文摘提取。下面将对这一类研究成果进行介绍。

2.2 基于结构建模的语音文摘的抽取

Eisenstein et al.[26]提出了新的基于无监督学习词汇粘连驱动的贝叶斯算法,用于口语抄本的主题分割。该算法能将词汇粘连特征与关键短语特征相结合。并且在口语抄本语料库上进行了验证实验。

Tatar et al.[27]和Kawahara et al.[28]都提出了应用Hearst 算法[29]对长篇的口语抄本进行主题分割,并运用主题信息帮助进行文摘抽取以及语音识别系统的主题适应性训练。

Hirohata et al.[18]考虑到在演讲语音当中,人们总是把重要的部分放在演讲的介绍部分和总结部分,提出了一种基于结构特征的文摘提取算法。首先应用Hearst 算法[29]找到介绍部分和总结部分的边界,然后通过计算各语句与演讲的介绍部分和总结部分之间的相似度,来判断语句是否作为文摘语句。

语音文档及由语音识别系统产生的口语抄本信息,提供了文本信息和语音信息[30],而之前所提的算法当中,都没有考虑语音信息。目前已有少数研究者已经开始考虑同时使用语音信息和文本信息,来对语音文档中的结构信息进行建模。而提取出的结构信息同时又可以帮助文摘的抽取。

有研究者发现语音特征能用于对语音文档结构的建模[30-32]。Hirschberg & Nakatani[33]研究了讲话风格(书面语和口语)对语音文档主题分割算法的性能影响。并且比较了在同一讲话片段的开始、中间、结尾部分语音特征的不同。

3 结语

本文对近年来语音文摘领域所取得的研究成果进行了全面的综述。一方面,由于语音识别系统所产生口语抄本含有不可避免的错误,对传统书面文档摘要提取方法在语音文档的应用,造成了不小的挑战。另一方面,语音文档中含有丰富的语音信息,而这些信息对于语音文档的结构乃至文摘的提取都有重要的作用,而如何充分运用这些语音信息,则是更具有挑战性的任务。

基于结构建模的语音理解和文摘提取,能够帮助人们从语音文档中抽取出隐含的结构信息,更快速准确地理解语音。在未来几年中,它将成为本领域研究热点和前沿。如何分析深层次语音文档结构;寻找对抽取语音文档结构帮助更大的新特征;应用不同的机器学习算法,提高抽取语音文档结构的性能,并运用抽取的结构信息,改善语音理解与文摘抽取的性能等都将成为研究者关注的主要方向。

[1]Lee L,Chen B. Spoken document understanding and organization[J]. Signal Processing Magazine,IEEE,2005,22(5):42-60.

[2]Rabiner L. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE,1989,77(2):257-286.

[3]Schauble P. Multimedia information retrieval:content-based information retrieval from large text and audio databases[M]. Springer,1997.

[4]McKeown K,Hirschberg J,Galley M,et al. From text to speech summarization[C].Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP’05),2005,5:997-1000.

[5]Furui S. Automatic speech recognition and its application to information extraction[C]. Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics,Association for Computational Linguistics,1999:11-20.

[6]Kurimo M. Thematic indexing of spoken documents by using self-organizing maps[J]. Speech Communication,2002,38(1):29-45.

[7]Mani I,Maybury M. Advances in automatic text summarization[M]. MIT Press,1999:293.

[8]Teufel S,Moens M. Summarizing scientific articles:experiments with relevance and rhetorical status[J]. Computational Linguistics,2002,28(4):409-445.

[9]Christensen H,Gotoh Y,Kolluru B,et al. Are extractive text summarization techniques portable to broadcast news?[C]. Proceedings of the 2003 IEEE Workshop on Automatic Speech Recognition and Understanding,IEEE,2003:489-494.

[10]Zhu X,Penn G. Comparing the roles of textual,acoustic and spoken language features on spontaneous-conversation summarization[C]. Proceedings of the Human Language Technology Conference of the NAACL,Companion Volume:Short Papers on XX. Association for Computational Linguistics,2006:197-200.

[11]Hori C,Furui S. Advances in automatic speech summarization[J]. Proc Eurospeech 2001,2001,3:1771-1774.

[12]Kolluru B,Christensen H,Gotoh Y. Multi-stage compaction approach to broadcast news summarization[C]. Proc of Eurospeach 2005,2005.

[13]Chen B,Yeh Y M,Huang Y M,et al. Chinese Spoken Document Summarization Using Probabilistic Latent Topical Information[C]. Proceedings of the IEEE Insternational Conterence 2006 on Acousties,Speech and Signal Proccssing,IEEE,2006,I:969-972.

[14]Inoue A,Mikami T,Yamashita Y. Improvement of speech summarization using prosodic information[C]. Proceedings of the International Conterence 2004 on Speech Prosody,2004.

[15]Hori C,Furui S. A new approach to automatic speech summarization[J]. IEEE Transactions on Multimedia,2003,5(3):368-378.

[16]Maskey S,Hirschberg J. Comparing lexical,acoustic/prosodic,structural and discourse features for speech summarization[J]. Proceeding of Interspeech 2005,2005:621-624.

[17]Maskey S,Hirschberg J. Summarizing speech without text using hidden markov models[C]. Proceedings of the Human Language Technology Conference of the NAACL,Companion Volume:Short Papers,Association for Competation Linguistics,2006:89-92.

[18]Hirohata M,Shinnaka Y,Iwano K,et al. Sentence extraction-based presentation summarization techniques and evaluation metrics[C]. Proceedinging of the ICASSP 2005,2005,I:1065-1068.

[19]Chen Y T,Chiu H S,Wang H M. A unified probabilistic generative framework for extractive spoken document summarization[C]. Proceedings of the Europcan Conterence on Speech Communteation Technology,2007:2805-2808.

[20]Zhang J,Chan H Y,Fung P. Improving lecture speech summarization using rhetorical information[C]. Proceeding of the IEEE Workshop 2007 on Automatic Speech Recognition & Understanding,IEEE,2007:195-200.

[21]Barzilay R,Lee L. Catching the drift:Probabilistic content models,with applications to generation and summarization[C]. Proceedings of HLT-NAACL,2004:113-120.

[22]Branavan S R K,Deshpande P,Barzilay R. Generating a table-of-contents[C]. Proceedings of the Annual Meeting-Association For Computational Linguistics 2007,2007,45(1):544.

[23]Blei D M,Ng A M,Jordan M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research,2003,3:993-1022.

[24]Blei D M,Lafferty J D. Dynamic topic models[C]. Proceedings of the 23rdinternational conference on Machine learning,ACM,2006:113-120.

[25]Blei D M,Lafferty J M. A correlated topic model of science[J]. The Annals of Applied Statistics,2007,1(1):17-35.

[26]Eisenstein J,Barzilay R. Bayesian unsupervised topic segmentation[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2008:334-343.

[27]Tatar D,Tamaianu-Morita E,Mihis A,et al. Summarization by logic segmentation and text entailment[J]. Advances in Natural Language Processing and Applications,2008:15 –26.

[28]Alota N,Nemoto Y,Kawahara T. PLSA-based topic detection in meetings for adaptation of lexicon and language mode[C]. Proceeding of Interspeech 2007,2007:602-605.

[29]Hearst M A. TextTiling:Segmenting text into multi-paragraph subtopic passages[J].Computational Linguistics,1997,23(1):33-64.

[30]Garofolo J,Auzanne C G P,Voorhees E M. The TREC spoken document retrieval track:A success story[J]. NIST Special Publication SP,2000(246):107-130.

[31]Halliday M A K. Intonation and grammar in British English[M]. The Hague:Mouton,1967.

[32]Ladd D R. Intonational Phonology[M]. Cambridge University Press,2008.

[33]Hirschberg J,Nakatani C H. A prosodic analysis of discourse segments in direction-giving monologues[C]. Proceedings of the 34th annual meeting on Association for Computational Linguistics,Association for Computational Linguistics,1996:286-293.

猜你喜欢
书面文摘研究者
书面表达之叙事描写类
高等教育中的学生成为研究者及其启示
IAPA文摘
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
英语文摘(2019年2期)2019-03-30 01:48:40
研究者调查数据统计
中华手工(2018年6期)2018-07-17 10:37:42
文摘
宝藏(2017年2期)2017-03-20 13:16:46
书面表达
医生注定是研究者
中国卫生(2015年7期)2015-11-08 11:09:50
参考答案
2013年《时代英语》高三第九期参考答案