基于文本挖掘和可视化技术的主题自动标引方法

2019-08-23 05:38陈博陈建龙
现代情报 2019年8期
关键词:格萨尔

陈博 陈建龙

关键词:可视化标引;自动标引;可视化自动标引;格萨尔

文献标引是针对文献的情报内容和特征,从目标文献中抽取检索标识的过程。当前的标引研究主要聚焦于关键词标引、分类标引等方面,在标引方法上以基于关键词等文本信息的统计分析和语言分析为主。主题法是从内容角度进行文献标引和检索的主要方法,主题标引是文献标引工作的核心之一,其“通过主题词及主题词组配所构成的主题标识,来揭示文献的学科内容”,在实践中常与分类标引互相补充。随着全文检索需求和相关技术的提升,文献标引相关研究与实践也逐渐由文献层深入到文献内容层。

可视化的认知增强功能,能够在人们找寻信息和理解信息时提高人们的认知效率与认知能力,减轻人们的信息压力与信息负荷;可视化的语言文化功能,可基于视觉语言的特性,传达信息中“不可言说的部分”,为观察者提供更方便快捷的信息获取方式,以及更全面直观的信息内容。

本文研究通过将文本挖掘与可视化技术结合,对文本中的主题相关信息与文献章节、段落的关系进行可视化呈现,尝试将标引单元细化到文献具体内容,探索了一种新的可视化主题自动标引方法,并设计了可视化主题自动标引系统。该系统主要包括文本挖掘模块、统计模块、可视化展现模块三大核心模块和主题词全文标引数据库,为用户提供可视化、交互式的主题标引和主题检索途径,帮助用户直观高效获取信息。

1可视化主题自动标引方法

当前的自动标引研究主要基于关键词自动标引技术,依靠关键词来刻画和描述文献。随着相关技术不断发展,标引效果也得到了提升,但关键词文本所提供的信息量有限.而且无法体现其背后所指代的核心概念之间的关系;同时,文献的关键词数量也十分有限,无法收入读者需要的所有词语。另外,传统的自动标引均以文献整体为标引对象,以统计分析与语言分析为主要方法,近年来的文献标引工作逐渐深入到文献内容中,文献标引词的发现、全文标引方法的探究受到了许多学者的关注。

本文提出的可视化主题自动标引方法,可基于文本挖掘技术,针对特定主题进行文本内容挖掘,发现更具文献特征的主题词.并将其在文献中的分布情况进行可视化呈现。在可视化图像中以文本的章节或段落为横坐标,以特定主题的主题词为纵坐标,以图形将主题词在各章节、段落中的出现次数进行可视化表示,来揭示特定主题下的主题词在文本中的分布情况,可精确定位到主题词所在的章节、段落,甚至句子,方便读者和研究人员进行主题词的高效检索,并辅助其发现主题间的潜在关系。读者可通过上述视觉表现自主获取文中的多元主题信息,并在直观的视觉观察和交互式探索中确定关键词,直接定位到其所出現的具体位置,实现一种全新的基于可视化交互的文献主题自动标引方法。

2可视化主题自动标引系统

本文尝试将可视化技术引入文献标引工作,构建可视化主题自动标引系统,以实现精确到内容的可视化文献标引。如图1所示,该系统核心由三大模块和章节信息数据库构成,三大模块分别是用以实现数据文献全文处理及主题词自动提取的文本挖掘模块、基于用户输入和主题词全文标引数据库的统计模块,以及支撑用户完成交互化操作的可视化展现模块。

2.1实现数据文献全文处理及主题词自动提取的文本挖掘模块

要实现具体文献的全文标引.首先需要获取相应的全文数字文献。对于可直接提取全文文本的数字文献,如TXT、Word、文本PDF等格式的数字文献,直接通过自然语言处理(Natural LanguageProcessing)来完成文本挖掘。对于纸质文献,需要在文本挖掘之前进行扫描前处理,获取图片形式的PDF全文.通过OCR(Optical Character Recog.nition)技术将PDF转换为JSON文本。该文本包含语句所在PDF的文本内容及位置信息.将其文本内容转换为TXT文本的数字文献,位置信息转换为对应的卷、章、页、段、句等信息。

在完成全文文本信息提取后.进入文献标引主题词自动提取和计算流程,主要包括4个技术环节:1)利用分词器进行文本自动分词,分词过程中引入通用的《现代汉语词典》、文献相关的领域词典等外部词典,帮助提升分词器性能;2)通过支持向量机模型对分词结果进行词性标注,得到词语的诃l生分类结果;3)基于最大熵模型完成命名实体识别,获取在文献中具有特定意义的实体,如人名、地名等;4)基于命名实体识别结果进行特征词计算.在当前文献中算出目标词的词频,再使用《人民日报》数据集计算词语的逆文本频率指数,进而算出相应的TF-IDF值,数值越大说明该主题词对于本篇文献的重要程度越高。

选取数值较高文献主题词的重要依据。经由如上步骤,就可以根据标引需求从数字文献中挖掘并筛选出文献主题词。

基于上述的全文数字文献和主题词构建起该文献的主题词全文标引数据库,为后续研究提供数据支持。

2.2搭建基于主题词全文标引数据库的统计模块

在主题词全文标引数据库中.正文文本以句为基本单位储存,由其构建出包含卷、章、页、段、句等的文献层级结构。以倒排库形式构建数据库,可以从关键词出发去定位数据库中的文档.快速获取包含该词的文档列表,精确统计出其相应的位置信息,及其在某一章节、段落中出现的频率。

基于主题词全文标引数据库的统计模块.通过关键词匹配的方法,匹配到用户输入的关键词所在的句子,获取其在文本的卷、章、页、段、句的位置以及频率信息,进而完成数据统计。匹配过程中.系统将基于输入的关键词自动输出由数组矩阵的形式表示的关键词分布情况,其中关键词出现的词频可以章节或段落为单位进行统计和呈现,以实现关键词在文本的卷、章、页、段、句等各层级中的精准定位。

2.3实现用户交互式可视化展现模块

确定待标引的主题.以其包含的主题词作为关键词,通过统计模块获取相应数据后,即可利用可视化工具ECharts中的散点图模块,生成相应的可视化表示。在可视化图像中以文本章节、段落,甚至句子为横坐标,以主题词为纵坐标,将主题词在各章节和段落中的出现次数用大小不同的点进行表示。具体主题词在横向和纵向空间的分布情况,能直观地展示出其在文本中的分布规律及重要程度,也可揭示各主题词之间的相关性与权重。

用户可基于可视化呈现效果.根据其中图形大小、共现位置等的视觉相关关系发现信息,利用可视化展现模块支持的放大、点击等交互式操作进一步探索相关信息。交互过程中本模块将根据用户输入反馈相应的可视化分析结果,比如在点击、放大主题词所在章节、段落位置的节点后,系统将进一步展现相关信息.让用户清晰获取相关主题词在各章节、段落中的出現情况,或通过系统直接定位到关键词在章节段落数据库中所在的具体位置,详细呈现相应的正文文本内容信息。

3以《英雄格萨尔》为例的可视化主题自动标引

《格萨尔》是广泛流传于我国藏区的英雄史诗,素有“东方荷马史诗”之美誉,其篇幅宏大、情节复杂、版本多样、说唱体特点鲜明、语言词汇极具领域性,艺术文化价值巨大,文本处理难度也极高。自11世纪以来,越来越多的研究者和相关人员对其展开整理工作.随着学科研究的深入,高效便捷地进行全面的文献研究成为了学科研究面临的一大挑战。可视化主题自动标引的方法,有助于优化文献的全文标引结果,提升学科文献检索等相关研究与应用的效果。从文献内容来看,史诗围绕格萨尔展开,主要描述众多人物在各个部落发生的事件,人物、地域宗族是文献中的重要数据,本文研究即以这两大主题进行自动标引探索。

3.1《英雄格萨尔》主题自动标引的数据准备与预处理

本文选取降边嘉措主编的《英雄格萨尔》作为史诗文本,先通过OCR技术对文献图片进行文字识别,完成图片到文本的自动转换,再经人工校对得到3.95MB的全文文本数据,其中正文部分包含5卷书、220个章节、1833页、28444个段落和47571个句子,构成了待标引的数字文献。

鉴于格萨尔领域存在大量领域性显著的词汇,文献主题词的选取过程较为复杂。首先利用Jieba分词器以句为基本单位对文本进行分词.并在过程中添加《现代汉语词典第5版》和《常见藏语人名地名词典》以提升分词效果,之后由手工验证分词结果。接着使用哈工大LTP词性标注模型,通过支持向量机模型和863词性标注集对分词结果进行诃l生标注,再手工筛选出人物和地域宗族主题词汇。接下来对哈工大的LTP命名实体识别模型进行训练,将《英雄格萨尔》(卷一)标注为人名、地域与宗族名等8类,并将该文本按照9:1的权重分为训练集与测试集。根据50轮的最大熵模型训练结果来看,第29轮测试集调和平均值最高,用此轮模型对《英雄格萨尔》第二至五卷的分词与词性标注结果进行命名实体识别.将人名标记为Nh,地名标记为Ns。接下来计算人名、地域与宗族名相对于2000年1月至12月的《人民日报》TF-IDF值,按照数值从高到低进行词语排序,再通过人工筛选就可得到文献在人物、地域与宗族主题中的主题词。

基于文本挖掘技术完成《英雄格萨尔》的数字文献获取和主题词选取后.即可利用相关数据构建主题词全文标引数据库,配合文献统计模块和ECharts中的可视化模块.以可视化的主题自动标引方法,从人物和地域宗族主题角度进行主题自动标引的实践探索。

3.2单一主题单个主题词的可视化主题自动标引

分别从人物主题和地域与宗族主题中选取一个主题词,以其为例对主题词在全文章节中的出现情况.及其在某一章节段落中的出现情况进行可视化主题自动标引研究。

根据统计模块显示.格萨尔王的王妃之一阿达娜姆在全文中共在64个章节里出场311次,是史诗中的一个重要人物.我们将其作为人物主题的示例进行可视化主题自动标引研究。以章为单位,根据其在全文中的出现次数绘制出图3,其中横向坐标对应人物出现的章节位置,散点大小表示出现次数的多少。

观察图3可知.阿达娜姆自出场后就开始就持续、有规律地出现在文本中,其中最后几章的词频显著高于其他章节。统计模块反馈的数据显示,阿达娜姆在史诗尾声的214~218章中词频突增,点击该区域获取主题词出现段落的可视化表示,可对人物进行深入了解。以第215章的出现段落分布为例,通过可视化主题自动标引结果,可观察到人物在该章具体段落中的出现情况如图4所示。

点击人物在215章中首次出现的节点,即可于标引系统中Book:5;Chapter:215;Page:48;Para.graph:656;Sentence:1位置检索到句子:“过了七七四十九天,阿达娜姆的灵魂到了生死沙山山口,此时阎罗王已经感应到了有个非同寻常的人到了地狱中来”.说明与阿达娜姆相关的情节发生的地点转到了地狱。由“阿达娜姆”在本章的密集分布,推测后续有大量情节与其相关,点击查看本章其他节点,可知故事围绕阿达娜姆在地狱接受审判展开,验证了推测。若想完整了解史诗塑造的人物,则可定位到其在全文中其他章节的节点,获取人物身份、关涉情节、人物结局等相关信息,通过直观观察和便捷的检索交互即可较清晰地梳理出人物发展脉络。

在地域与宗族主题中,我们选择“财宝城”为例进行分析.根据图5所示的可视化分布结果来看.主题词集中出现的位置大致在第100~110章,并且其词频在最后出现的章节激增。

选中财宝城的出现区域并放大,可清晰查看到其出现位置和次数,如图6所示,可知第108章是主题词出现的核心章节。

点击查看主题词在第108章的段落分布情况如图7所示,主题词在该章节中的分布具有显著的规律性,出现段落中的词频数量均衡,而且前半部分的出现间隔差异较小。

通过点击段落分布图节点,定位到该章节中的具体句子.发现财宝城在第108章中Paragraph:4599 Sentence:1、Paragraph:4607 Sentence:1等7个位置的句子内容均为“请攻下大食财宝城”,一方面揭示了本章情节以攻打城堡为主线:另一方面也由主题词所在的唱词部分体现出史诗文本说唱体的特点。

根据以上可视化主题自动标引结果可知,单一主题单个主题词的可视化在揭示主题词分布规律和主题词在章节中的重要性方面效果显著,与其对应的主题自动标引在深入揭示主题词相关的文本内容、故事情节、人物发展,甚至文本语言特点等方面都有良好表现。

3.3单一主题多个主题词的可视化主题自动标引

为从整体视角了解人物主题的情况,我们基于人物主题词的章节出现数据,以章为单位,对词频50以上的人物进行研究。可视化主题自动标引显示,人物在文本中的出场情况大致可分3种:全文贯穿型人物,如格萨尔、丹玛、绒察查根,出现于史诗全篇,但各人物的出场频率存在差异;区间出现型人物,如玉拉、白帐王,出现于特定章节,主要与所处章节中的其他人物产生直接关联:孤立存在型人物,以隆纳巴姜为代表,仅出现于单一章节,体现出人物在史诗的整体故事和人物网络中处于相对独立的状态。其中几个代表人物的出场情况如图8所示。

分布图的横向数据体现出领域人物在全文的出场情况,揭示了各人物在史诗全篇及各章节中的地位,以及人物与故事情节的相关性;纵向数据则可说明各人物间的共现情况,可基于此挖掘人物间的相关性,了解不同人物在同一章节中的重要程度。以图7中的格萨尔和玉拉为例,虽然主人公格萨尔在史诗中占绝对核心地位,但从第63章到第70章的多个章节中,玉拉的出现词频显著高于格萨尔,一定程度上揭示出玉拉在该部分的权重要高于格萨尔。

从地域和宗族主题的整体情况来看,我们以相同的方法对词频10以上的地域与宗族主题词进行出现章节的可视化主题自动标引.并选择其中有代表性的主題词展示如图9所示。

图9系统地呈现了各主题词的分布情况.可帮助受众快速建立对该主题的整体认知,还可从多个主题词的纵向分布情况进行相关信息的挖掘。主题词的共现位置一致性越高,其存在相关关系的可能性越大。我们重点对图9共现位置高度一致的两组主题词进行研究,挖掘财宝城与大食国、雪山国与达玛拉雅国的相关信息。根据标引定位的Book:2Chapter:103 Page:323 Paragraph:3977 Sentence:3内容:“但按照预言中‘时值木虎年,去攻大食财宝城.为岭地藏地辟财源的说法,该是征服大食国的时候了”,确认财宝城与大食国存在归属关系。基于雪山国和达玛拉雅国的共现情况定位到的Book:4 Chapter:166 Page:16 Paragraph:123 Sen-tence:1和Sentence:2 Content:见收回赤谷部落如此轻松……想不动刀枪使他们继续向雪山国纳贡。谁知第一个送信的使臣就碰了钉子.达玛拉雅国拒绝投降。验证了雪山国与达玛拉雅国的敌对关系。

如上所述,对单一主题多个主题词的可视化主题自动标引,可以从整体视角掌握该主题中的主题词分布情况,还可以对不同主题词间的权重和相关关系进行分析,并利用系统直观便捷地获取相关信息。

3.4多元主题多个主题词的可视化主题自动标引

从多元视角对史诗进行分析时.可通过多元主题的可视化自动标引发现多维度视角下的新信息。我们汇总人物主题和地域与宗族主题数据.对其进行可视化自动标引,得到多元主题词的呈现,本文从中选择主题词“霍尔、雅泽城、白帐王”进行分析。

如图10所示,“霍尔、雅泽城、白帐王”的出现位置一致性高,基于三者的共现,可由自动标引系统精确定位到Book:2 Chapter:62 Page:42 Par.agraph:305 Sentence:2位置的“唐泽赶到那儿后,向梅乳泽说明了:‘岭国大军到霍尔以后.早就占领了雅泽城,格萨尔王已把白帐王消灭多时了.我已诚心诚意地向格萨尔投诚”等,描述三者关系的句子,明确其间的层级和归属关系。可见,这一方法除了能提升文本内容的标引效果和读者获取信息的体验之外,还能发现多维度主题下主题词间的隐含关系,对领域内多层级的地理区域和部落宗族系统的构建,以及人物与地域宗族关系网络的梳理等起到辅助作用。

显然,以可视化方式呈现主题词的出现情况,能够在简化信息获取流程的同时提供比文字描述更多的信息,特别是隐含信息,进而提升信息获取的效率。将多元主题结合,多维度综合主题词信息进行可视化,可直接观察多主题内容间的相关性。通过本文提出的可视化主题自动标引系统,用户可以从不同视角观察文献、获取信息,并基于主题词在全文的章节、段落、句子中的精确定位,快速进行内容检索。

4结束语

本文研究将文本挖掘与可视化技术结合应用于文献标引,提出了一种主题自动标引的方法。基于文本挖掘技术从文献中自动发现更具代表性的主题词.构建主题词全文标引数据库.再引入可视化技术,搭建可视化的主题自动标引系统。将此系统在格萨尔学科领域的人物主题和地域与宗族主题进行标引验证,其可视化呈现结果揭示了史诗中的主题相关内容.实现了深入到文献内容层的自动标引,并以可视化的方式取得了比传统标引更直观便捷的标引效果.证实了可视化主题自动标引系统的可行性和有效性。

从信息服务角度看.这一主题自动标引方法以可视化呈现、交互式操作、内容级定位的特点对传统标引方法进行了革新,深入到文献内容对主题内容进行可视化标引和展现,实现到篇章、段落,甚至句子级的标引定位。同时,本文的主题自动标引验证系统在格萨尔领域的可视化验证表明,该系统可以帮助史诗读者和研究人员以更高效精准的方式进行领域文献内容级的检索与利用,还可以在丰富领域知识检索、问答对话等相关应用的同时,提高格萨尔史诗的学习和学科研究效率,推动学科发展。

本文研究囿于文章静态呈现形式和篇幅限制,在研究结果的展现上仅截取了部分静态的可视化图像,在后续研究中需推进搭建动态交互系统;在主题自动标引的可视化呈现上,除采用以章节为横轴的散点图外,还需扩展到更丰富的视觉表达形式;在主题词类型选取上,文章基于史诗文献的题材特点,针对人物、地域与宗族的主题词展开了自动提取和标引工作,后续应在更广泛的主题领域中展开相关研究;在标引方法上,研究仅基于关键词标引展开,未来应引入最新的自然语言处理技术,深入挖掘关键词背后的概念及相关概念知识.以实现基于语义的知识标引。

猜你喜欢
格萨尔
走进格萨尔石刻艺术
故事重述与文化反思——阿来《格萨尔王》的二重维度
《上河降魔记》所见《格萨尔》在舟曲境内的流传
关于建立“格萨尔文献数据中心”的初步构想
《格萨尔》的音乐体系
40年西藏《格萨尔》工作回顾
格萨尔王
略论《格萨尔》在德格地区的流传
《格萨尔》向何处去?——后现代语境下的《格萨尔》史诗演述歌手
从史籍及《格萨尔》看丝绸之路与西藏的关系