Word/Excel 辅助快速提取方正书版.fbd文件中文摘数据的方法研究

2012-11-21 02:54黄鹂

长江大学学报(自科版) 2012年34期

关键词：对话框分类号文摘

黄鹂

(长江大学期刊社，湖北荆州 434023)

Word/Excel 辅助快速提取方正书版.fbd文件中文摘数据的方法研究

黄鹂

(长江大学期刊社，湖北荆州 434023)

针对《中国石油文摘》稿件提交系统需要逐条输入分类号、篇名、作者、作者单位、摘要、关键词、起止页码等信息，操作起来比较机械、烦琐的问题，提出了一种利用Word中的宏和Excel中的宏、自动筛选、分列、自动计算等功能来快速提取上述信息的方法。以《石油天然气学报(江汉石油学院学报)》数据为例，通过宏按钮可以直接提取出“分类号、摘要、关键词”，其他数据通过分列、自动计算再经过一定的加工均可快速提取出来。这种方法使文摘数据的提取效率大大提高。

文摘；数据提取；Word；Excel

石油类期刊很多都向《中国石油文摘》提供文摘数据，采用《中国石油文摘》稿件提交系统(以下简称“提交系统”)需要逐个从正文中将篇名、作者、作者单位、摘要、关键词、中图分类号等复制并粘贴到提交系统中。操作虽然简单，但比较机械、烦琐。为了改变这种方式，笔者提出利用Word中的宏[1]和Excel中的宏、自动筛选、分列、自动计算等功能[2]来快速提取期刊论文中的这些数据项。下面以《石油天然气学报(江汉石油学院学报)》为例，说明如何提取方正书版系统的.fbd文件中的文摘数据。

1 数据提取过程

1.1目次页文件中的数据——Word宏

在Word中打开欲提取文摘数据的《石油天然气学报》目次页文件(文件名为：石油天然气学报目次.fbd)(见图1)，选择“工具-宏-录制新宏”，在打开的“录制宏”的对话框中输入宏的名称，如输入“目次页分列”，将其指定到工具栏上并保存在所有文档中，关闭对话框(见图2)。以下的操作将被记录在这个宏中：选择“编辑-替换”，打开“查找和替换”对话框，选择目次页文件中的方正排版命令“汉体五号楷体居右排”将其换为“|”(见图3)；按同样的方法，将“(”换成“|”，将“汉体五号书宋”删除，然后全选数据，点击“表格-转换-文本转换成表格”，在打开的对话框中选择“其他字符”，在其后的输入框中输入 “|”(见图4)，按提示要求完成后，停止录制宏。此时目次页文件已被转换为一个具有篇名、作者及页码这3列的一个表格了(见图5)。

图1 目次页节选

图2 Word中录制宏对话框图3 查换和替换对话框图4 文本转换成表格对话框

1.2正文文件中的数据——Excel宏

图5 文本转换结果

在Word中打开欲提取文摘数据的《石油天然气学报》正文文件(文件名为：石油天然气学报正文.fbd)，全部选中后复制、粘贴到新建的Excel工作簿中的Sheet1中，先录制一个提取数据的宏，以后只需执行这个宏，就可以完成数据提取。Excel中宏的录制过程如下：“工具-宏-录制新宏”，在对话框中给新宏取名为“筛选文摘数据”，将其保存在“新工作簿”中，关闭对话框(见图6)，接下来的按键操作和快捷键操作的过程都将被记录下来：

1)选择“数据-筛选-自动筛选”，此时在单元格(如A1单元格)右下角出现一个向下的三角形筛选按钮，点击该按钮，选择“自定义…”，打开“自定义自动筛选方式”对话框，点击左框的下拉箭头，选择“始于”，在右框中输入“[摘要]”，按“确定”后(见图7)，即把始于“[摘要]”的数据筛选出来，选中该数据列，用快捷键Ctrl+C，将选中数据列复制到剪贴板中，再点击“Sheet2”工作表标签，光标定位在A1单元格，按“Ctrl+V”，将筛选出的“[摘要]”粘贴到A列。

图6 Excel中的录制新宏图7 定义自动筛选对话框

图8 筛选结果

2)点击“Sheet1”，点击筛选按钮，选择“全部”之后，全部数据显示出来，此时再点击筛选按钮，选择“自定义”，打开“自定义自动筛选方式”对话框，点击左框的下拉箭头，选择“始于”，在右边的输入框中输入“[关键词]”，按“确定”后，把始于“[关键词]”的数据筛选出来，选中该数据列，用快捷键Ctrl+C，将选中数据列复制到剪贴板中，再点击“Sheet2”工作表标签，光标定位在B1单元格，按“Ctrl+V”，将筛选出的“[关键词]”粘贴到B列。

3)重复步骤2)，此时可将筛选内容换为“[中图分类号]”“汉体小五号细圆”，就会分别将“中图分类号”和“作者单位”筛选出来，将其分别粘贴到Sheet2中C列和D列(见图8)。此时停止宏的录制，“筛选文摘数据”的宏就录制完成了。下次进行文摘数据提取时，只需执行“筛选文摘数据”这个宏即可。

1.3提取数据的加工

提取出来的数据还带有许多不需要的内容，仍然可以通过录制宏的方式将这些词删除。图8中D列数据为“作者单位”，其中还有单位所在城市及邮编，这2项内容是文摘数据库中不需要的信息，需要删除。因为《石油天然气学报》作者单位与城市名称和邮编是用“逗号”分开的，可以利用这一点，选择Excel中的“数据-分列”，根据对话框的提示，选择分隔符为“逗号”，按提示信息即可将作者单位与城市、邮编分为2列，此时直接选取作者单位数据即可。

图9 加工完成的文摘数据

“文章起始页码”可手工输入，之后的“止页码”是下一篇文章的“‘起始页码’-1”,可通过Excel中的公式快速生成。

2 数据提交

按照《中国石油文摘》提交系统的要求，将前文经过加工的提取数据逐一复制、粘贴到包含所有字段的Excel文件中相应的字段下，对其中的“图、表、参”的具体数据，需要逐个录入，之后的“图、表、参”可以利用Excel中的字符连接运算自动生成。加工好以后，将Excel文件导入Access数据库中(见图9)，将数据库文件压缩后即可发送给《中国石油文摘》编辑部，完成数据的提交。

3 结语

通过Word和Excel中的“目次页分列”“筛选文摘数据”这2个宏按钮，可轻松提取“篇名、作者、起始页码、摘要、关键词、中图分类号”，再配合使用Excel数据分行、自动计算等功能就可将“作者单位、起止页码”提取或计算出来。这种方法将机械、枯燥的数据提取过程变为了轻松、有趣的过程，同时还提高了数据提取的效率。

[1]人力资源和社会保障部人事考试中心.Word2003中文字处理[M].北京：中国人事出版社，中国劳动社会保障出版社，2010.

[2]人力资源和社会保障部人事考试中心.Excel2003中文电子表格[M].北京：中国人事出版社，中国劳动社会保障出版社，2010.

[编辑] 洪云飞

10.3969/j.issn.1673-1409(N).2012.12.032

TP391.13

1673-1409(2012)12-N099-03

Word/Excel 辅助快速提取方正书版.fbd文件中文摘数据的方法研究

1 数据提取过程

2 数据提交

3 结 语

3 结语