卢章平 邵澍赟
(江苏大学科技信息研究所 镇江 212013)
随着信息技术的迅猛发展和数字化浪潮的不断推进,计算机与网络技术应用逐渐深入,本体特有的语义关联和知识聚合能力在信息资源组织与管理中展现出极大优势,一些学者试图在学位论文本体构建的基础上展开内容分析[1],但具体操作方法还在研究之中。本文以中美赛珍珠主题硕博士学位论文为例,通过建立匹配的本体模型,创新性地将学位论文的文献外部特征与研究对象、研究方向等内容特征放在一个整体中描述,通过中美两国语种本体库的构建实现比较过程中内容知识的对应,利用可视化图谱直观呈现两国文献概况,有效实现知识挖掘,迅速获取比较结果。本体库支持重复调用,相较于传统的文献计量方法,不仅操作过程更加方便易行,深层次的知识挖掘还能增强比较结果的全面性和深度。
本研究选择CNKI中国知网硕博士学位论文全文数据库和PQDD学位论文数据库作为中美赛珍珠主题硕博学位论文主要的数据来源,同时利用中国学位论文全文数据库(CDDB)结合谷歌学术等开源的学术文献搜索引擎检索补充。考虑到数字资源的延时性,将检索时间限定至2015年。检索词选择赛珍珠及其英文名Pearl S. Buck 或Pearl Buck,检索项选择主题、题名、关键词、摘要,数据清洗后得到密切相关中国硕博士学位论文242篇,美国硕博学位论文23篇。
在此基础上,采用统计法、归纳法等方法提取文献核心知识框架并进行科学整理,借助领域专家的知识和经验判断评估并确定了规范化的本体概念定义,设计了本体库对应的类及类目间层次关系、类的属性。
以国内赛珍珠研究硕博学位论文文献为基础,提出构建一个由学位论文基本信息本体、学位论文研究对象本体、学位论文研究方向本体三部分组成的具体的中国赛珍珠硕博学位论文本体库。基本信息本体集中展示作者、机构等文献外部特征信息,研究对象和研究方向本体则主要揭示内容层面的学位论文具体研究对象信息和研究方向信息。
参考已有的学位论文元数据标准[2-4],在学位论文基本信息本体中定义题名、作者、学校、专业、学位、导师、主题、日期、关联文献、语种、资源标识、资源格式、馆藏信息类,关系属性写作(write)与被写作(be written by)、指 导(direct)与被 指 导(be directed by)、 引用(quote)、获得(receive)、来自(from)、时间(time)。其中时间(time)属性包含两个子属性,发表时间和授予时间。题名和日期通过发表时间相关,学校和日期通过授予时间相关,专业与作者、学校通过来自相关,与学位通过获得相关。笔者在《基于内容的学位论文本体库构建研究——以赛珍珠〈大地三部曲〉专题研究学位论文为例》[5]一文中详细列出了具体设计原则及设计过程。
中国赛珍珠主题硕博学位论文的研究对象涉及赛珍珠创作的一系列作品,利用文献调查与内容分析,结合专家咨询法等对研究对象进行分类,发现文献研究对象主要包括两部分:赛珍珠本人创作的小说《大地三部曲》、《东风西风》、《群芳亭》等及赛珍珠翻译的中国古典小说《水浒传》。相关硕博学位论文文献对其小说的研究大多集中在作品本身,而对赛译《水浒传》的研究则多从翻译语句角度切入,因此,为明晰结构,将中国赛珍珠研究硕博学位论文研究对象本体的构建分原著与译著两部分设计。
赛珍珠原著作品多为历史类小说,因此参考历史领域本体,定义原著研究对象本体人物、事件、时间、地点四个基本类。添加各类数据属性,如人物类数据属性姓名、性别、职业、籍贯等。利用自定义的关系属性相关人物(Related characters)、发生时间(at Time)、发生地(in Place)、参与事件(Participate in)进行类间关联。
采用综合法,选取两端同时构建的方式,首先确定宏观上的顶层概念,再从相关硕博士学位论文文献中提取关键词并归纳细化,最终确定译著《水浒传》研究对象的本体类目结构,如图1所示。
图1 译著《水浒传》概念类目结构
相关文献对赛译《水浒传》的研究内容集中在语言表达层面,研究对象主要涉及词汇语句,因此设置“书名”、“词汇”、“语句”和“片段”四主类。其中词汇类包含人物绰号、社会称谓、俗语和成语四个二级子类,语句类包含章节标题、人物对话、旁白语和诗词句四个子类。设置关系属性组成(compose)与被组成(be composed of),对词汇、语句和片段三类实现关联。同时设置词汇的数据属性“结构”(词语结构可分为单纯词、合成词等)和“词性”。
对选择的学位论文文献进行知识分析和抽象,在领域专家的帮助下进行了中国赛珍珠主题硕博学位论文研究方向本体设计。依据权威优先和少数服从多数原则协调确定知识节点,并且在构建过程中对概念层次划分进行动态修正与补充,最终确定研究方向面向原著小说和赛译《水浒传》两部分。其中原著小说研究方向包括人物形象、中国文化、外国文化、比较研究、写作风格5大类及14个子类。
图2 原著研究方向本体概念层次
图2 为原著研究方向本体概念层次结构。同时定义关系属性:描述(describe),被描述(be described by),展示(show),被展示(be showed by),关联(related)。描述(describe),逆属性为被描述(be described by),用于写作风格与人物形象、中国文化、外国文化之间。展示(show),逆属性为被展示(be showed by),用于人物形象与中国文化、外国文化之间。关联(related),表示两者间具有相关关系,用于比较研究与写作风格之间。
关于赛译《水浒传》的研究方向,主要确定为翻译策略和翻译理论两大类。部分文献从文化阐释角度出发,讨论赛译《水浒传》中体现的具体文化内涵、文化冲突和创作意象,也有从多版本《水浒传》译作出发,进行译者个人及语言特色上的比较。为避免重复划分,将其与原著研究方向合并,划入版本对比与文化异同子类。
为保证比较结果呈现的规范化和直观性,将美国专题学位论文本体库的构建同样分为学位论文基本信息本体(Dissertation Literature Information)、学位论文研究对象本体(Dissertation Research Object)和学位论文研究方向本体(Dissertation Research Direction)三部分。
美国学位论文基本信息本体的类和属性同样在已有的学位论文元数据方案基础上进行设计,由于美国高校拥有各自的学位论文数据库,设置的论文基本著录项也不尽相同,目前尚未有针对学位论文统一的元数据标准。应用较广泛的电子学位论文元数据标准有ETD-MS (an Interoperability Metadata Standard for Electronic Theses and Dissertations),《电子博硕士学位论文互操作性元数据》)、DC Simple等[6-7],其中DC元数据使用最为广泛。ETD-MS作为由美国发起的NDLTD(《基于网络的博硕士学位论文数字图书馆》)项目元数据,对于DC的元素和限定词进行了完全复用,仅增加了针对学位论文本身特点的“degree”学位项。因此,本文美国赛珍珠主题硕博学位论文基本信息库以DC元数据标准为基础,参考主要文献来源PQDD学位论文数据库著录项,同时选择图情学科世界排名第一的伊利诺伊大学香槟分校情报学院(School of Information Sciences at Illinois)学位论文数据库展开调研,最终制定了美国学位论文基本信息本体的类及相关属性。表1为DC元数据标准、PQDD学位论文数据库、伊利诺伊大学香槟分校情报学院学位论文数据库元数据元素项和美国赛珍珠主题硕博学位论文基本信息本体类的对应。
表1 三类元数据项与美国学位论文基本信息本体类对应
考虑到中美学位论文基本信息库的相似性和后续中美比较的一致性,在美国学位论文基本信息本体类设计时,与中国本体库进行了对应并尽量保持了统一。定义十个大类,包括Title题名、Creator作者、School学校、Major专业、Degree学位、Contributor导师、Subject主题、Date日期、Relation关联文献、Language语种。设置Contributor(导师)的数据属性Name、Institution,Subject(主题)的数据属性 Abstract、keywords,Relation(参考文献)的数据属性Author、title、Source,复用中国对应本体关系属性写作(write)与被写作(be written by),指导(direct)与被指导(be directed by),引用(quote),获得(receive),来自(from),时间(time)。
以共计23篇美国赛珍珠主题硕博学位论文为基本语料,借助词频统计,对词频列表排名前二十位的高频词进行观察,发现美国的赛珍珠主题硕博学位论文研究对象主要涉及作品与个人两部分,且彼此具有互斥关系,因此抽取基础概念原著作品与个人经历,并逐步扩展概念集合。
将美国赛珍珠主题硕博学位论文研究对象主要分为原著作品与个人经历两大类别,其中原著类复用中国原著研究对象本体子类及属性设计,设置子类 Personage,Event,Annals,Place,关系属性at Time,in Place,Participate in等。
通过文献调研及专家访谈,发现赛珍珠个人经历具有鲜明的阶段性特征。结合其人生经历,进一步对美国赛珍珠主题硕博学位论文文献进行内容提取,发现相关文献研究对象覆盖赛珍珠个人生平各个时期,且呈现出阶段性分布特征,因此以时间为轴,在个人经历类下设Childhood,Youth,Middle age和Old age四个子类,根据时间段的连贯性和传递性,定义关系属性“affect”,将 Childhood与 Youth、Youth与 Middle age、Middle age与Old age类进行单向关联。图3为美国学位论文研究对象本体概念模型,其中East Wind,West Wind,My Several Worlds,Pavilion of women,The good earth等为文献涉及的具体原著研究对象。
图3 美国学位论文研究对象本体概念模型
美国赛珍珠主题硕博学位论文研究方向本体中概念的抽取主要来源为题名、关键词、文档大小标题以及文献内容中出现频率较高的词条,在领域专家帮助下,考虑复用性,确定了Chinese culture,Cultural identity,Social influence,Comparative study,Characters in the work和Writing traits六 个 类。其中 Chinese culture、Comparative study、Characters in the work和Writing traits类分别与中国赛珍珠主题硕博学位论文研究方向本体中的中国文化、比较研究、人物形象和写作风格类相对应。图4为美国学位论文研究方向概念分类及部分实例。
图4 美国赛珍珠主题硕博学位论文研究方向概念分类及部分实例
确定关系属性describe,be described by,affect,be affected by,show,be showed by,related。其中Cultural identity类与Social inf l uence,Charactersin the work和Writing traits类通过互逆属性affect、be affected by相关联,Characters in the work和Writing traits类通过describe、be described by属 性 关 联,Chinese culture和Characters in the work通过show、be showed by,Comparative study和Writing traits通过related相关联。
Protégé软件面向对象语言Java,数据库功能强大,为资源组织与知识查询提供了便利。本次本体构建采用的软件工具为Protégé5.0版本。利用Protégé建模,将学位论文基本信息本体、学位论文研究对象本体、学位论文研究方向本体三者通过关系属性“研究对象(Research Object)”、“研究方向(Research Direction)”进行知识关联,分别得到中国和美国的赛珍珠主题硕博学位论文本体库模型,如图5、图6。
图5 中国赛珍珠主题硕博学位论文本体库模型
图6 美国赛珍珠主题硕博学位论文本体库模型
将从中美硕博学位论文文献中提取并经过领域专家规范后的基础实例元数据添加至两国赛珍珠主题硕博学位论文本体库。图7为实例输入界面。由于本文涉及到的具体实例较多,因此设计相关程序语言来完成实例的批量导入。以“类名###实例名”格式将规范化的实例存储于TXT文档中,启动run.bat windows批处理文件,完成按类别的批量导入操作。
图7 实例输入界面
利用构建完成的中美硕博学位论文本体库,可以对赛珍珠主题中美硕博士学位论文的时间分布、机构分布、学科专业分布等外部文献信息进行全景式的呈现和具象比较,也能对研究对象及热点研究方向等内容信息展开全面的横向和纵向分析,使用本体可视化知识图谱结合本体的推理与知识发现功能呈现比较结果。这里以外部文献信息中时间分布和研究内容《大地三部曲》为例做具体说明。
学位论文发表时间作为学位论文文献的外部特征,属于学位论文基本信息,对照学位论文基本信息本体中类的设定,在本体库可视化界面检索“日期”和“Date”,可完成对两国赛珍珠主题硕博学位论文时间分布的全景比较。发现美国以赛珍珠为研究主题的学位论文最早可追溯至1993年,领先中国近十年,但时间分布密度小于中国,后劲不足,近五年内发文寥寥;中国硕博士赛珍珠研究虽然开始的时间较晚,但时间分布较为密集,学术连贯性强。
在年代分布全景的基础上进一步拓展延伸,将“时间(time)”属性关联至具体研究篇目,形成中美赛珍珠主题硕博学位论文年代与题名关联具象图谱(图8)。结合本体的推理与知识发现功能,可以查询到不同年份具体的论文数量,即在本体库中与相应年份关联的题名实例数量(图9),统计后得到中美赛珍珠主题硕博士学位论文具体时间分布。发现中国自1999年开始,每年都有相关研究论文选题,且数量总体呈增长趋势,其中发文量最多的为2012年,年发文量达到30篇。美国发文量最多的年份包括1993、1997、1999、2003四个年份,年度发文量均为3篇,仅占中国年发文量最多年份的十分之一,学位论文总数远少于中国,呈现不规律分布。
图8 中国学位论文年份与具体篇目
图9 美国学位论文年份与具体篇目
图10 本体库中与年份关联的题名实例数查询(示例:2004年)
学位论文研究对象信息作为本库的特有信息进行形式化存储,通过基于学位论文研究对象本体的检索,可以查询到目前两国赛珍珠主题硕博学位论文研究对象分布全景,本节选取赛珍珠诺贝尔文学奖获奖作品《大地三部曲》展开具象比较。图11、图12呈现本体知识发现后中美两国《大地三部曲》相关学位论文具体研究对象图谱。可以看到,国内文献涉及到的具体研究对象覆盖面更广,总数更多,包含事件类实例52个,地点类实例11个,时间类实例14个,覆盖主要人物王龙一家祖孙三代人物形象,还涉及到对王家旁支亲戚爱兰、王孟等人的描写,对于作品中出现的次要人物形象,如外国修女、中国老头等也有所涉及。而美国研究对象相对集中,涉及到的事件、人物关系较为简单。人物研究仅针对作品主人公一家,明确提及的地点实例仅有Southern city、homeland两个。总结归纳后发现两国出现部分研究对象的重叠,美国研究涉及到的人物对象在中国均有涉及,且两国对事件阿兰之死、买卖土地等都进行了重点探讨,与中国横跨祖孙三代的研究不同,美国的研究事件虽然集中在父辈一代,但出现了阿兰处理儿子对父亲小妾莲花的感情,王龙应小妾要求在宅子里另建炉灶等事件的研究,这在中国相关研究对象中并无提及。
图11 中国《大地三部曲》研究对象具象图谱
图12 美国《大地三部曲》研究对象具象图谱
在中美赛珍珠主题硕博学位论文本体库中,研究方向本体与研究对象信息通过关系属性“研究对象”相关联,通过对某一研究对象的关联检索,可以获得与该研究对象下属具体实例相关的研究方向信息,从而实现对两国同一研究对象具体研究方向异同的比较。完成全部对应查询后,得到中美《大地三部曲》具体研究方向图谱(图13、图 14)。
图13 中国《大地三部曲》具体研究方向图谱
图14 美国《大地三部曲》具体研究方向图谱
中国以《大地三部曲》内容为研究对象的研究方向覆盖人物形象、中国文化、外国文化、比较研究、写作风格、翻译理论、翻译策略七大类。美国相关的研究方向在数量上远不及中国,但中国文化、人物形象、写作特点、比较研究、社会影响、文化身份六大类均有囊括。分布比例上来看,人物形象和中国文化相关研究方向在两国均占主流,但中国的硕博士生还将研究的重点放在对写作风格的探索上,而美国则创新地将《大地三部曲》与赛珍珠社会影响和文化身份联系起来作探讨。
本文设计构建了针对中美两国赛珍珠主题的硕博学位论文本体库,从理论层面提出了本体库的总体架构和构建流程,在实践层面使用Protégé进行本体库建模和实例填充,并在此基础上开展了以外部文献信息中时间分布和研究内容《大地三部曲》为示例的比较研究,分析得到在中美赛珍珠主题硕博学位论文的时间分布上美国起步较早,但发展缓慢,后劲不足;中国虽然早期文献产量低,但上升速度快,文献产量高,后来居上。《大地三部曲》是两国共同关注的核心研究对象,相比而言,中国学位论文研究的人物、事件更多,时间的跨度更长,而美国论文选择的研究对象和涉及到的人物关系相对集中。研究方向上两国有同有异,对人物形象和中国文化的研究是两国共同的主流。
本研究将本体的知识表示功能和关联推理机制有效应用到学位论文文献知识组织和管理中,一方面有助于文献比较过程中知识的梳理和信息的自动挖掘,另一方面,可视化图谱使不同国别学位文献的概况更直观形象的展现,比较结果更为清晰明朗。借助本体工具实现文献资料的数字化与可视化,有效地节省了文献计量比较研究中花费的人力和物力,也是创新文献计量学研究方法的一次尝试。