唐小石+梁洪利
摘要:本文提出了一种基于关键词检索技术的PowerPoint文档自动生成方法,并简要介绍了该方法的总体构思和实现步骤。
关键词:信息技术;关键词检索;PowerPoint
● 背景
目前,PowerPoint(以下简称PPT)被广泛应用于院校、机关、企事业单位等多个领域的教学、演示工作,并发挥着重要的作用。PPT容易上手,方便操作,但制作一件内容丰富、图文并茂、样式美观的优秀作品却费时费力,往往需花费数天甚至数周的时间。开发软件工具,充分利用目前成熟的计算机信息检索和媒体资源管理技术实现PPT演示文档自动生成,能够为PPT的使用者提供极大的方便。
● 总体构思
要实现PPT演示文档的自动生成,首先需对制作文稿进行初级解析,确定各级标题、自然段及自然句,组合成为初始分页,将初始分页自动套入事先定义好的PPT模版;其次对初始分页中的正文进行二级解析,提取关键词,依据该关键词搜索、拾取媒体资源库中的图片素材,计算版面空间,将这些图片合理布设到PPT的空白位置,实现PPT的图文混排,最终生成PPT演示文档,供用户直接使用或进一步修改完善。方案原理示意图如图1。
● 功能实现
1.制作、整理关键词库
合理选择关键词并科学编目建库是本方案最终实现的基础和先决条件。用户制作PPT演示文稿针对各自行业,题材固定,内容明确。应针对本行业建立相应关键词词库,并进行合理优化,以缩小搜索范围,提高使用效率。关键词的来源多种多样,目前可以在网上方便查找一般行业的关键词词库;对于一些特殊行业关键词库可以利用软件通过对行业日常公文、报告的推测获得。
2.利用关键词对图片素材进行编目标注,建立媒体资源库
利用本方案自动生成后的演示文稿,其内容的丰富程度是由可以搜索到的图片资源数量决定的。网上的图片资源较多,可以通过关键词方便地搜索、下载,但是利用软件自动批量拾取比较困难。应该充分利用单位现有媒体资源管理系统或者建立一个本地图片资源库,并利用关键词库对其进行标注、编目。在使用中利用关键字比对的方法实现自动搜索、拾取。
如果无法获得大量的图片资源供搜索使用,也可以利用有限的背景底图生成几乎同样效果的演示文档。背景底图是指没有明显指向,不针对某个具体关键字,但能够呼应主题、烘托氛围、提示内容的图片。底图背景一般可由对优秀的美术、摄影作品进行适当降低透明度或透明度渐变处理得到。利用软件自动生成PPT演示文稿,应将背景底图作为一种特殊的图片资源进行积累和管理。
3.制作PPT模版库
PPT模版决定了PPT演示文稿的格式和艺术性。互联网提供了大量优秀的PPT模版,要利用这些资源,首先应对其进行严格规范。规范的内容包含样式和规格两个方面,其中样式涵盖配色、装饰、构图、底图等要素;而规格包含标题、正文字体、字号,图片大小、布设位置等要素。另外,应充分考虑PPT模版应用的灵活性和适应性。比如,不同的文稿中标题文字字数差别很大,为避免套入模版时过长文字发生溢出现象,应对文字段落格式的相应选项进行设置。
同时,软件应具有PPT模版库查询预览功能,模版库按照文档内容、演示规格以及艺术特点等项内容进行整理、分类,以方便用户根据具体情况和个人喜好查阅调用。
4.对制作文档的解析、拆分(如图2)
用于制作演示文稿的文档一般由Word软件编辑完成,将Word文档转为PPT演示文稿原本十分方便快捷,但要利用这项功能要求用户严格套用Word软件的版式设计,而我们在使用Word软件时往往缺乏这种习惯;另外还有一些文档来自其他文字编辑软件或者直接复制粘贴得到。软件应首先对这些文档进行去格式化处理,再进行解析与分切。以换行符分割为自然段,以句号、感叹号等为隔断分切为自然句,依照标题与层次格式、体例编排确定各级标题。通过分析句子的起始字符确定句子的类型,如根据传统编排法,遇到“一、”、“二、”起始的句子可以定为一级标题,遇到“(一)”、“(二)”起始的句子定为二级标题,以此类推。其他编排方法同样照此处理。对于无任何标题内容匹配的句子则定义为正文。
将每句正文以及所对应的各级标题组合成为初始分页,用于生成演示文稿的单个演示页面。
5.查询关键词,拾取相应图片
将正文与关键词库内容逐条比对,提取该正文中包含的关键词,以此作为图片资源拾取依据。如果该段正文中关键词较多,应按照关键词出现频率或主次顺序适当删减,保证最终添加到演示文档页面中的图片数量不超过4个;如未提取到关键词,或者关键词未能查询到相应图片,为避免演示页面出现图片空缺,应从底图背景库中选择适当底图图片作为页面背景,以对画面内容进行补充。选择的依据可以是段落关键词、上一页关键词等,或者采用手工选取的方式完成。
6.套用模版自动生成PPT文档
初始分页中的文字和图片内容确定后,便可套入选定的PPT模版,其中标题及正文内容较为固定,方便套用;而图片内容因为数量、规格无法预知,应将版面剩余空间、留空,图片数量、尺寸等作为变量,利用相应计算公式得出图片具体布放位置和搭接方式。
目前微软公司针对Visual Studio.net提供了Office软件函数库用于二次开发,如利用C#等软件进行编程时应首先调用Microsoft PowerPoint对象库,并引用相关COM组件。具体可参考微软网站(HOWTO:在Visual C#.NET中使用自动化创建并显示PowerPoint演示文稿)。
● 结束语
PPT演示文档的制作工作充满艺术性,利用计算机软件进行自动设计目前只能说是处于起步阶段。但经过探索和实践,目前已能够利用软件在短短几分钟内将一篇数千字文稿解析、分切,制作出样式美观、内容较为丰富、图文并茂的PPT演示文档初稿,为后续的艺术加工节省下大量时间。
相信随着计算机视频媒体资源管理系统功能的日益完善,利用更大规模的全文搜索及信息提取技术对电视制作脚本进行解析,并进而实现视频节目的自动初编同样具有技术可行性。
参考文献:
[1]罗刚.使用C#开发搜索引擎[M].北京:清华大学出版社,2012.
[2]Kathleen McGrathPaul Stubbs. VSTO开发者指南[M].李永伦,译.北京:机械工业出版社,2009.
endprint
摘要:本文提出了一种基于关键词检索技术的PowerPoint文档自动生成方法,并简要介绍了该方法的总体构思和实现步骤。
关键词:信息技术;关键词检索;PowerPoint
● 背景
目前,PowerPoint(以下简称PPT)被广泛应用于院校、机关、企事业单位等多个领域的教学、演示工作,并发挥着重要的作用。PPT容易上手,方便操作,但制作一件内容丰富、图文并茂、样式美观的优秀作品却费时费力,往往需花费数天甚至数周的时间。开发软件工具,充分利用目前成熟的计算机信息检索和媒体资源管理技术实现PPT演示文档自动生成,能够为PPT的使用者提供极大的方便。
● 总体构思
要实现PPT演示文档的自动生成,首先需对制作文稿进行初级解析,确定各级标题、自然段及自然句,组合成为初始分页,将初始分页自动套入事先定义好的PPT模版;其次对初始分页中的正文进行二级解析,提取关键词,依据该关键词搜索、拾取媒体资源库中的图片素材,计算版面空间,将这些图片合理布设到PPT的空白位置,实现PPT的图文混排,最终生成PPT演示文档,供用户直接使用或进一步修改完善。方案原理示意图如图1。
● 功能实现
1.制作、整理关键词库
合理选择关键词并科学编目建库是本方案最终实现的基础和先决条件。用户制作PPT演示文稿针对各自行业,题材固定,内容明确。应针对本行业建立相应关键词词库,并进行合理优化,以缩小搜索范围,提高使用效率。关键词的来源多种多样,目前可以在网上方便查找一般行业的关键词词库;对于一些特殊行业关键词库可以利用软件通过对行业日常公文、报告的推测获得。
2.利用关键词对图片素材进行编目标注,建立媒体资源库
利用本方案自动生成后的演示文稿,其内容的丰富程度是由可以搜索到的图片资源数量决定的。网上的图片资源较多,可以通过关键词方便地搜索、下载,但是利用软件自动批量拾取比较困难。应该充分利用单位现有媒体资源管理系统或者建立一个本地图片资源库,并利用关键词库对其进行标注、编目。在使用中利用关键字比对的方法实现自动搜索、拾取。
如果无法获得大量的图片资源供搜索使用,也可以利用有限的背景底图生成几乎同样效果的演示文档。背景底图是指没有明显指向,不针对某个具体关键字,但能够呼应主题、烘托氛围、提示内容的图片。底图背景一般可由对优秀的美术、摄影作品进行适当降低透明度或透明度渐变处理得到。利用软件自动生成PPT演示文稿,应将背景底图作为一种特殊的图片资源进行积累和管理。
3.制作PPT模版库
PPT模版决定了PPT演示文稿的格式和艺术性。互联网提供了大量优秀的PPT模版,要利用这些资源,首先应对其进行严格规范。规范的内容包含样式和规格两个方面,其中样式涵盖配色、装饰、构图、底图等要素;而规格包含标题、正文字体、字号,图片大小、布设位置等要素。另外,应充分考虑PPT模版应用的灵活性和适应性。比如,不同的文稿中标题文字字数差别很大,为避免套入模版时过长文字发生溢出现象,应对文字段落格式的相应选项进行设置。
同时,软件应具有PPT模版库查询预览功能,模版库按照文档内容、演示规格以及艺术特点等项内容进行整理、分类,以方便用户根据具体情况和个人喜好查阅调用。
4.对制作文档的解析、拆分(如图2)
用于制作演示文稿的文档一般由Word软件编辑完成,将Word文档转为PPT演示文稿原本十分方便快捷,但要利用这项功能要求用户严格套用Word软件的版式设计,而我们在使用Word软件时往往缺乏这种习惯;另外还有一些文档来自其他文字编辑软件或者直接复制粘贴得到。软件应首先对这些文档进行去格式化处理,再进行解析与分切。以换行符分割为自然段,以句号、感叹号等为隔断分切为自然句,依照标题与层次格式、体例编排确定各级标题。通过分析句子的起始字符确定句子的类型,如根据传统编排法,遇到“一、”、“二、”起始的句子可以定为一级标题,遇到“(一)”、“(二)”起始的句子定为二级标题,以此类推。其他编排方法同样照此处理。对于无任何标题内容匹配的句子则定义为正文。
将每句正文以及所对应的各级标题组合成为初始分页,用于生成演示文稿的单个演示页面。
5.查询关键词,拾取相应图片
将正文与关键词库内容逐条比对,提取该正文中包含的关键词,以此作为图片资源拾取依据。如果该段正文中关键词较多,应按照关键词出现频率或主次顺序适当删减,保证最终添加到演示文档页面中的图片数量不超过4个;如未提取到关键词,或者关键词未能查询到相应图片,为避免演示页面出现图片空缺,应从底图背景库中选择适当底图图片作为页面背景,以对画面内容进行补充。选择的依据可以是段落关键词、上一页关键词等,或者采用手工选取的方式完成。
6.套用模版自动生成PPT文档
初始分页中的文字和图片内容确定后,便可套入选定的PPT模版,其中标题及正文内容较为固定,方便套用;而图片内容因为数量、规格无法预知,应将版面剩余空间、留空,图片数量、尺寸等作为变量,利用相应计算公式得出图片具体布放位置和搭接方式。
目前微软公司针对Visual Studio.net提供了Office软件函数库用于二次开发,如利用C#等软件进行编程时应首先调用Microsoft PowerPoint对象库,并引用相关COM组件。具体可参考微软网站(HOWTO:在Visual C#.NET中使用自动化创建并显示PowerPoint演示文稿)。
● 结束语
PPT演示文档的制作工作充满艺术性,利用计算机软件进行自动设计目前只能说是处于起步阶段。但经过探索和实践,目前已能够利用软件在短短几分钟内将一篇数千字文稿解析、分切,制作出样式美观、内容较为丰富、图文并茂的PPT演示文档初稿,为后续的艺术加工节省下大量时间。
相信随着计算机视频媒体资源管理系统功能的日益完善,利用更大规模的全文搜索及信息提取技术对电视制作脚本进行解析,并进而实现视频节目的自动初编同样具有技术可行性。
参考文献:
[1]罗刚.使用C#开发搜索引擎[M].北京:清华大学出版社,2012.
[2]Kathleen McGrathPaul Stubbs. VSTO开发者指南[M].李永伦,译.北京:机械工业出版社,2009.
endprint
摘要:本文提出了一种基于关键词检索技术的PowerPoint文档自动生成方法,并简要介绍了该方法的总体构思和实现步骤。
关键词:信息技术;关键词检索;PowerPoint
● 背景
目前,PowerPoint(以下简称PPT)被广泛应用于院校、机关、企事业单位等多个领域的教学、演示工作,并发挥着重要的作用。PPT容易上手,方便操作,但制作一件内容丰富、图文并茂、样式美观的优秀作品却费时费力,往往需花费数天甚至数周的时间。开发软件工具,充分利用目前成熟的计算机信息检索和媒体资源管理技术实现PPT演示文档自动生成,能够为PPT的使用者提供极大的方便。
● 总体构思
要实现PPT演示文档的自动生成,首先需对制作文稿进行初级解析,确定各级标题、自然段及自然句,组合成为初始分页,将初始分页自动套入事先定义好的PPT模版;其次对初始分页中的正文进行二级解析,提取关键词,依据该关键词搜索、拾取媒体资源库中的图片素材,计算版面空间,将这些图片合理布设到PPT的空白位置,实现PPT的图文混排,最终生成PPT演示文档,供用户直接使用或进一步修改完善。方案原理示意图如图1。
● 功能实现
1.制作、整理关键词库
合理选择关键词并科学编目建库是本方案最终实现的基础和先决条件。用户制作PPT演示文稿针对各自行业,题材固定,内容明确。应针对本行业建立相应关键词词库,并进行合理优化,以缩小搜索范围,提高使用效率。关键词的来源多种多样,目前可以在网上方便查找一般行业的关键词词库;对于一些特殊行业关键词库可以利用软件通过对行业日常公文、报告的推测获得。
2.利用关键词对图片素材进行编目标注,建立媒体资源库
利用本方案自动生成后的演示文稿,其内容的丰富程度是由可以搜索到的图片资源数量决定的。网上的图片资源较多,可以通过关键词方便地搜索、下载,但是利用软件自动批量拾取比较困难。应该充分利用单位现有媒体资源管理系统或者建立一个本地图片资源库,并利用关键词库对其进行标注、编目。在使用中利用关键字比对的方法实现自动搜索、拾取。
如果无法获得大量的图片资源供搜索使用,也可以利用有限的背景底图生成几乎同样效果的演示文档。背景底图是指没有明显指向,不针对某个具体关键字,但能够呼应主题、烘托氛围、提示内容的图片。底图背景一般可由对优秀的美术、摄影作品进行适当降低透明度或透明度渐变处理得到。利用软件自动生成PPT演示文稿,应将背景底图作为一种特殊的图片资源进行积累和管理。
3.制作PPT模版库
PPT模版决定了PPT演示文稿的格式和艺术性。互联网提供了大量优秀的PPT模版,要利用这些资源,首先应对其进行严格规范。规范的内容包含样式和规格两个方面,其中样式涵盖配色、装饰、构图、底图等要素;而规格包含标题、正文字体、字号,图片大小、布设位置等要素。另外,应充分考虑PPT模版应用的灵活性和适应性。比如,不同的文稿中标题文字字数差别很大,为避免套入模版时过长文字发生溢出现象,应对文字段落格式的相应选项进行设置。
同时,软件应具有PPT模版库查询预览功能,模版库按照文档内容、演示规格以及艺术特点等项内容进行整理、分类,以方便用户根据具体情况和个人喜好查阅调用。
4.对制作文档的解析、拆分(如图2)
用于制作演示文稿的文档一般由Word软件编辑完成,将Word文档转为PPT演示文稿原本十分方便快捷,但要利用这项功能要求用户严格套用Word软件的版式设计,而我们在使用Word软件时往往缺乏这种习惯;另外还有一些文档来自其他文字编辑软件或者直接复制粘贴得到。软件应首先对这些文档进行去格式化处理,再进行解析与分切。以换行符分割为自然段,以句号、感叹号等为隔断分切为自然句,依照标题与层次格式、体例编排确定各级标题。通过分析句子的起始字符确定句子的类型,如根据传统编排法,遇到“一、”、“二、”起始的句子可以定为一级标题,遇到“(一)”、“(二)”起始的句子定为二级标题,以此类推。其他编排方法同样照此处理。对于无任何标题内容匹配的句子则定义为正文。
将每句正文以及所对应的各级标题组合成为初始分页,用于生成演示文稿的单个演示页面。
5.查询关键词,拾取相应图片
将正文与关键词库内容逐条比对,提取该正文中包含的关键词,以此作为图片资源拾取依据。如果该段正文中关键词较多,应按照关键词出现频率或主次顺序适当删减,保证最终添加到演示文档页面中的图片数量不超过4个;如未提取到关键词,或者关键词未能查询到相应图片,为避免演示页面出现图片空缺,应从底图背景库中选择适当底图图片作为页面背景,以对画面内容进行补充。选择的依据可以是段落关键词、上一页关键词等,或者采用手工选取的方式完成。
6.套用模版自动生成PPT文档
初始分页中的文字和图片内容确定后,便可套入选定的PPT模版,其中标题及正文内容较为固定,方便套用;而图片内容因为数量、规格无法预知,应将版面剩余空间、留空,图片数量、尺寸等作为变量,利用相应计算公式得出图片具体布放位置和搭接方式。
目前微软公司针对Visual Studio.net提供了Office软件函数库用于二次开发,如利用C#等软件进行编程时应首先调用Microsoft PowerPoint对象库,并引用相关COM组件。具体可参考微软网站(HOWTO:在Visual C#.NET中使用自动化创建并显示PowerPoint演示文稿)。
● 结束语
PPT演示文档的制作工作充满艺术性,利用计算机软件进行自动设计目前只能说是处于起步阶段。但经过探索和实践,目前已能够利用软件在短短几分钟内将一篇数千字文稿解析、分切,制作出样式美观、内容较为丰富、图文并茂的PPT演示文档初稿,为后续的艺术加工节省下大量时间。
相信随着计算机视频媒体资源管理系统功能的日益完善,利用更大规模的全文搜索及信息提取技术对电视制作脚本进行解析,并进而实现视频节目的自动初编同样具有技术可行性。
参考文献:
[1]罗刚.使用C#开发搜索引擎[M].北京:清华大学出版社,2012.
[2]Kathleen McGrathPaul Stubbs. VSTO开发者指南[M].李永伦,译.北京:机械工业出版社,2009.
endprint