赵红改,肖诗斌,王洪俊,吕学强
(北京信息科技大学中文信息处理研究中心,北京100101)
随着万维网的不断发展与互联网信息量的增加,搜索引擎成为人们获取新知识的重要手段,而如何提高搜索引擎的检索效率和精度逐渐成为近几年信息检索中的热点关注方向。当今主流的搜索引擎都是以关键词匹配来查找信息,这样对用户输入的关键词要求很高。余慧佳[1]对用户提交的查询关键词的长度进行了分析,发现查询的长度通常比较短,而且以短语的形式出现。由此可见,基于搜索引擎日志,将搜索引擎用短语词典中的短语进行定义,进一步对其语法结构进行分析研究显得尤为重要,它有利于提高搜索引擎的检索准确度。
在现代汉语中,“N+V”型组合是一种比较常见的组合,这种组合包含三种不同句法关系:①定中偏正结构(如银/饰);②状中偏正结构(童心/处事);③主谓结构(飞机/坠毁、孩子/发烧、蚂蚁/搬家)。在之前唐昱[2]就对同形异构的偏正结构进行了详细的介绍,但对主谓短语的研究不够详尽。本文是建立在搜狗日志语料的基础上,从短语的各组成要素、音节特点和功能用法三个方面对“N+V”型主谓短语进行详细研究,这为后期对“N+V”型短语的句法消歧提供参考意见,为搜索引擎用短语词典构建提供重要的理论依据。此外,还介绍了该类型短语挖掘与校对的基本方法,从而为短语在搜索引擎中的应用以及搜索引擎用短语词典构建提供基础研究服务。
“N+V”型主谓短语中的“N”主要具有陈述意义,双音节名词占绝大多数,此外还有少量的单音节名词、三音节名词和四音节名词。参考刘顺[3]的《现代汉语名词研究述评》中提到的关于名词的分类相关方法,对进入“N+V”型主谓短语中的“N”进行研究。
对搜狗日志语料中的“N+V”型主谓短语进行分析与统计,将“N”分为指人名词、指物名词、机构名、专名、地域名五类。
【指人名词】:阿妹/n出嫁、邓小平/nr逝世、刘真/nr表演、倪萍/nr离婚、张佩昌/nr受贿、人民警察/n辞职
【指物名词】:猫/n扑、手/n放开、右眼/n跳、鼻/ng出血、肌/ng无力、狮/ng跑
【专名】:瑞星/nz升级、超女/nz劲舞、百度/nz裁员/vi、黑鹰/nz坠落、猎豹/nz飞腾
【地域名】:蒙古/ns回归、江西/ns崛起、缅甸/ns迁都、甘肃/ns缺水/v、遂溪县/ns换届/vi、金城/ns开业/vi
【机构名】:北京大学/nt招生、北京银行/nt面试、联合国/nt降半旗、苏宁电器/nt连锁、审计局/nt检查
基于搜狗日志语料,通过分析“N+V”型主谓短语中的“N”,其在各类名词中的分布是有差异的,指物的名词在语料中出现的次数最多,其次依次是指人的名词、专名、其他,地域名和机构名则出现最少。出现这种不均匀分布的原因主要依赖于搜狗日志语料,指物和指人的名词多为高生命度的名词,它出现在“V”前,激活了“V”的典型功能而专名则属于高个体度的名词,它能进入“N+V”型主谓短语。
动词的典型性功能是充当谓语,搜索引擎日志中“N+V”型主谓短语中的“V”体现的是动词的典型功能。“N+V”型主谓短语中的“V”可按不同的标准来分类,不同的分类有不同的意义和用途。本文借鉴赵元任先生[4]对动词的分类标准,从意义角度出发,结合搜狗日志语料的特点,进行以下分类。
(1)动作动词
动作动词是表示动作行为的动词,在动词中占多数。它包括及物的动作动词和不及物的动作动词。由它构成的“N+V”型主谓短语或表示动作发出者做某件事的过程,或表示通过讲话交流信息的过程,下面进行分类论述。
1)表示动作发出者做某件事的过程。例如,“婴儿打喷嚏”,“婴儿”是动作发出者,“喷嚏”是目标,整个主谓短语以谓语动词“打”为核心,表示动作发出者做“打喷嚏”这件事的过程。按照动词的具体语义,分为以下四类。
【表全身动作的】:妃子/n笑/v、鹧鸪/n飞/vi、周恩来/nr落泪/vi
【表行为的】:桥/n断/v、黑鹰/nz坠落/v、李卫/nr当官/vi
【表腿部动作的】:儿童/n摔倒/v、狮/ng跑/v
【表手臂动作的】:手腕/n扭伤/vi、幼儿/n画画/v
2)表示通过讲话交流信息的过程。例如,“区长谈解放思想”,讲话者“区长”讲话,交流的信息是“解放思想”。
【表口部动作的】:王宏伟/nr演唱/v、歌女/n唱/v、阿六头/nr说/v
【其他言语类的】:幸存者/n讲述/v、妓女/n口述/v、陈安之/nr演讲/vi
(2)状态动词
状态动词主要表示人或动物的心理和生理状态。同样地,由它构成的“N+V”型主谓短语多表示“感觉”、“反应”和“认知”等心理活动或生理状态的过程。因此,可以分为以下两类。
【表心理状态的】:陈慧琳/nr希望/v、企业家/n喜欢/vi、顾客/n满意/v
【表生理状态的】:口腔/n起泡/vi、宝宝/n呕吐/vi、月经/n延长/v
郝倩[5]指出词的语音构成单音节与双音节形式,语音形式也制约着词语的组合和词语的搭配。从搜狗日志语料提取出的“N+V”型主谓短语,对单音节动词,与其搭配的名词成分在音节选择上比较自由;对于双音节动词,在音节选择上却受到限制,一般只跟双音节名词搭配,极少数可与单音节和多音节搭配;除此之外的三音节动词一般与双音节名词搭配。
(1)“2+2”音组模式
汉语的组合一般要求成双成对,节奏对称。搜索引擎日志中“N+V”型主谓短语也不例外,“2+2”音组模式是语料最基本的音节组合模式。
第一组指人:孕妇/n感冒/vi、阿妹/n出嫁/vi、农民/n增收/v、倪萍/nr离婚/v、妓女/n口述/v、苏三/nr说/v
第二组指物:污水/n发红/vi、蟒蛇/n捕食/vi、汽车/n降价/vi、细雨/n纷飞/vi
第三组专名:博客/nz升级/vi、超女/nz劲舞/v、百度/nz裁员/vi
第四组地域:江西/ns崛起/v、蒙古/ns回归/v、三峡/ns蓄水/vi
在搜狗语料中,“2+2”音组模式下,N部分多分布于指物名词,其次是指人的名词,再者是专名和地域名词;V部分主要是动作性较强的行为动词、生理状态的动词,而表示心理状态的动词出现较少。
(2)“3+2”音组模式
第一组指物:人民币/n升值/vi、霓虹灯/n耗电/vi
第二组指人:宋丹丹/nr再婚/vi、张佩昌/nr受贿/vi、金静华/nr主演/v、中年人/n再婚/vi
第三组地域:石狮市/ns扩大/v、崇文区/ns招租/vi
第四组表其他言语类:陈安之/nr演讲/vi、黄健翔/nr解说/v
第五组表生理心理状态:内分泌/n失调/vi、婴幼儿/n发烧/vi、企业家/n喜欢/vi
在“3+2”音组模式中,N部分多分布于指物的名词,其次是指人的名词,再者地域的名词;V部分主要是动作性很强的行为动词、生理状态的动词和其他言语类的动词,而表心理状态的动词出现较少。
(3)“2+1”音组模式
第一组指人:专家/n说/v、歌女/n唱/v、区长/n谈/v、明星/n哭/v
第二组:鹧鸪/n飞/vi、贵妃/n醉/v、右眼/n跳/vi、肚子/n疼/v
在“2+1”音组模式中,N多为高生命度的名词,表人身体某一部位的名词、指人的名词;V部分主要是表生理状态的动词、言语类的动词、动作性很强的动词,而表腿部、眼睛和手臂动作的动词出现较少。
(4)“1+2”音组模式
第一组表生理状态:牙/n出血/vi、脑/n出血/vi、脑/n 梗塞/vi、手/n 浮肿/vi
第二组表行为动作:铅/n超标/vi、手/n放开/v、心/n飞扬/vi
第三组名词性语素:鼻/ng出血/vi、蝶/ng起舞/vi、蝶/ng 飞舞/v、肌/ng 无力/vi
在“1+2”音组模式中,N部分多是指物的高生命度名词、指人身体某一部位的名词,而名词性语素出现的较少;V主要是动作性较强的行为动词、表生理状态的动词。
(5)“1+1”音组模式
第一组表生理状态:面/n瘫/vi、眼/n肿/vi、马/n疯/vi
第二组名词性语素:鸢/ng飞/vi、石/ng破/v、鹤/ng飞/v、狮/ng跑/v
第三组表行为动作:风/n吹/v、桥/n断/v、鹤/n啼/vi
“1+1”音组模式中,N部分多是名词性语素、高生命度的名词、身体某一部位的名词;V部分主要是表全身动作、腿部动作的动词,其次是表生理状态的动词。
(6)“3+1”音组模式
第一组指人:张火丁/nr唱/v、阿六头/nr说/v
第二组植物:茉莉花/n开/v、栀子花/n开/v
第三组表生理状态:小肚子/n疼/v
“3+1”音组模式中,N部分多是指人的高生命度名词,其次是表身体某一部位的名词,而表植物的名词则出现较少;V部分主要是表言语类的动词,其次是表全身动作的动词,表生理的动词出现较少。
(7)多音节的组合模式
第一组指人:欧阳中石/nr题词、韩李东旭/nr报导/v、民主党派/n换届/vi、人民警察/n辞职/vi
第二组机构名:北京大学/nt招生/vi、北京银行/nt面试/vi、苏宁电器/nt连锁/v
第三组专名:维吾尔族/nz居住/v
第四组三音节动词:婴儿/n打喷嚏/vi
由上面的几组例子,可以得出:N由多音节构成的“N+V”型主谓短语中,N大多是机构名、专有名词;V多为双音节行为动词,三音节动词出现较少。
综上所述,对“N+V”型主谓短语从语义、音节方面对各组成要素进行了详细的分析,这为后期借助语义信息资源和音节语言学知识,将其作为对“N+V”型短语进行结构消歧的候选特征,为“N+V”型短语的句法结构消歧提供了理论依据。
康健[6]对主谓短语的功能类别进行详细研究,他指出主谓短语的造句功能很强,可以充当主语、谓语、宾语、定语、状语和补语。搜索引擎日志中的“N+V”型主谓短语,可以在句子中充当主语、谓语、宾语、定语和状语。除此之外,还可以单独作为一个查询关键词,进行信息检索。
(1)作主语
“N+V”型主谓短语作主语,一般是出现在判断句、说明句、描写句中,谓语往往具有判断性、评论性或者描写性,谓语动词大多为表示判断或者说明的动词,也有少数的动作性很强的动词[7]。例如:
A.【月经/推迟】主要考虑两个方面的原因。
B.【手/浮肿】是什么病?
(2)作谓语
“N+V”型主谓短语作谓语,主语大都含有话题的性质,谓语一般是对主语进行描写或者说明。一般句子的主语与N之间有领属关系或者整体与部分的关系,而且N是V的强制性语义成分,N与V有语义上的选择关系[8]。例如:
A.儿童【喉咙/发炎】。
B.小儿【面/瘫】。
C.小儿【支气管/感染】。
(3)作宾语
“N+V”型主谓短语作宾语,做句子谓语的动词不能附带“着、了、过、起来、下去”等体标记,而且不能重叠,不能用反复体,而且“N+V”型主谓短语多为体谓型的主谓短语[9]。例如:
A.如何治疗【内分泌/失调】?
B.怎样使【头发/增多】?
C.如何写【领导/重视】?
(4)作定语
“N+V”型主谓短语作定语,N主要为受事型名词或者施事型名词[10],起限制作用。针对搜狗日志语料,N主要为施事性名词。例如:
A.【邓小平/逝世】记录片、【农民/增收】措施、【吉雪萍/结婚】照
B.【心肌/缺血】症状、【儿童/识字】卡片、【孕妇/分娩】视频
C.【月经/推迟】的原因、【顾客/满意】的案例、【小儿/咳嗽】的治疗方法
(5)作状语
A.【婴儿/便秘】怎么办?
B.【月经/不调】怎么办?
(6)作为独立查询
“N+V”型主谓短语可以独立地作为查询关键词,进行信息检索。例如:
A.【明星/卸妆】
B.【蚂蚁/搬家】
C.【女兵/蒙难】
由以上的分析可以看出,“N+V”型主谓短语在句子中可以充当多种成分。因此,针对“N+V”型短语的结构消歧,可以考虑利用“N+V”型短语的上下文信息,作为短语消歧的候选特征。
“N+V”型主谓短语的挖掘与校对是通过自动、半自动的语言知识挖掘技术相结合的方法实现的。下面介绍“N+V”型主谓短语的挖掘与校对的步骤。
(1)数据预处理:对搜狗日志语料进行词条去重、分词、词性标注工作;
(2)“N+V”型短语的界定:用二元统计模型和互信息方法对短语进行界定;
(3)“N+V”型短语的抽取:根据“N+V”型短语的特点,建立规则知识库,对合法短语进行抽取;
(4)人工校对:对抽取的“N+V”型短语进行标记的改写工作,得到最终的“N+V”型主谓短语、“N+V”型短语,以及“N+V”型非短语;
(5)数据统计:对“N+V”型主谓短语按照名词和动词的分类标准进行分类统计。
其中,前三个步骤和第五步骤通过程序实现,提高了短语挖掘的高效性;而第四步骤主要通过人工校对的方法,提高了短语识别的准确性。最终,完成了“N+V”型主谓短语识别。同样地,这种校对方法,也适合于搜索引擎日志中的其他类型短语。
本文通过二元统计模型和互信息的方法实现了搜狗日志中“N+V”型短语的自动识别。其中,规则方法是根据搜狗日志语料的特点和“N+V”型短语的词法特点而获取的规则知识,下面主要介绍规则方法。
按照中国科学院分词系统中词性标注的特点,规则“N+V”短语的识别步骤如下。
(1)将每个短语分割成为词语序列、词性序列存入字符串数组中;
(2)将第一个单词词性和第二个单词的词性与模式串(名词匹配串和动词匹配串)进行匹配,如果相匹配,则说明该短语是“N+V”短语,将其在文本中输出,并用符号(dj)进行标注说明;
(3)短语的匹配,直到短语识别完毕。
汉语中词语定义的模糊性、大量新词语的涌现,以及“N+V”型短语在句法语义关系上存在着三种不同的结构,使得在“N+V”型主谓短语的识别上存在着错误识别的现象。因此,需要通过人工校对的方法将非“N+V”型主谓短语过滤掉。本文主要通过对非“N+V”型主谓短语的标记改写来实现校对,具体步骤如下。
(1)如果是“N+V”型短语,如果格式部分和要求,要修改格式,使其规范规则“N+V”短语的识别语料中的词语以一个空格为分隔符规则“N+V”短语的识别,标注范例见表1。
表1 格式校对规范
(2)如果不是“N+V”型主谓短语,则在该短语后标记“no”。其中包括不完整词串和搭配不合适的词串;如果不是“N+V”型主谓短语,则在该短语后标记“nd”。标注示例见表2。
表2 非“N+V”型主谓短语标注示例
续表
将识别出的短语按照N、V的分类标准,以及音节模式的特点,将识别出的每一条短语主谓短语进行分类,将其存储在不同的记录文件中,并进行分类统计。
(1)表3为“N+V”型短语在整个“N+V”词串中的分布情况。
表3 “N+V”型短语分布
挖掘方法是否有效主要是通过抽取出的“N+V”型短语的正确率来衡量的。从表3可以看出,挖掘方法是高效性的,正确率高达95.21%。
(2)表4给出了“N+V”型主谓短语在“N+V”型短语中所占比例。
表4 “N+V”型主谓短语分布
从表4可以看出“N+V”型主谓短语在“N+V”型短语中仅占36.58%,造成这种现象的原因是:①“N+V”型短语存在三种不同的句法关系:状中偏正结构、定中偏正结构和主谓结构;②同一个“N+V”短语可以分析为两种不同的句法关系,如“大学毕业”,本实验将有歧义的“N+V”型短语视为非主谓结构,这种结构歧义需要借助音节等语言学知识和语义知识资源,寻找汉语语义类之间存在的句法关系,实现对“N+V”型短语的句法歧义消歧。
(3)“N+V”型主谓短语音节分布情况,见表5。
表5 “N+V”型主谓短语音节分布
表5给出了“N+V”型主谓短语在音节上对词语的组合和词语的搭配的制约程度。从表中的数据可以发现,“2+2”音组模式所占比例最大,为60.71%,出现这种现象主要原因为:汉语的组合一般要求成双成对,节奏对称,这使得人们习惯用这种音组模式进行信息查询;其次,“3+2”音组模式在所有的音组模式中占21.05%,其中“N”多为专有名词和生命度比较高的指人名词。其他的音组模式在“N+V”型主谓短语所占比例较少,总共为11.53%。
(4)表6给出了各类动词在“N+V”型主谓短语分配情况。
表6 动词的分类情况表
通过表6的数据分布,可以得出行为动词短语在所有短语中所占的比例最大,为84.06%;其次是涉及生理状况的短语,占9.85%,剩余短语只占6.09%。这些数据反映了人们的兴趣爱好和对某领域信息的关注程度。由此可见,基于搜索引擎日志对“N+V”型主谓短语进行研究,对挖掘用户兴趣和目的,研究用户行为,提高搜索引擎的检索质量,具有重要意义。
本文针对搜狗日志语料,对“N+V”型主谓短语进行分析研究。从其各组成要素特点、音节特点和功能用法三个方面进行了论述,为网络信息检索提供极其重要的理论依据和重要的应用背景。此外,还介绍了“N+V”型主谓短语的挖掘和校对方法,这种方法也适合于搜索引擎日志中的其他类型短语。在对搜狗日志语料中的“N+V”型主谓短语进行校对时,发现“N+V”型短语存在同形异构的现象,针对这种结构消歧,需要借助音节等语言学知识,以及知网和同义词林等语义知识资源,来实现对“N+V”型短语的句法结构消歧。下一步的研究任务是利用音节、N和V的语义类别,以及“N+V”型短语的上下文信息,实现对“N+V”型短语的句法结构消歧。
[1]余慧佳,刘奕群,张敏,等.基于大规模日志分析的网络搜索引擎用户行为研究[C]//第三届学生计算语言学研讨会,2006:204-205.
[2]唐昱.现代汉语名动式偏正结构研究[D].华中科技大学,2006:1-8.
[3]刘顺.现代汉语名词研究述评[J].韩山师范学院学报,2004,25(1):77-78.
[4]黄宇红.现代汉语主谓结构的语义研究[D].苏州:苏州大学,2009:4-10.
[5]郝倩.近义单双音节名词对比研究[D].上海:上海师范大学,2007:21-24.
[6]唐建.谈谈主谓短语的功能类别[J].四川师范学院学报(哲学社会科学版),2003,2(2):98-102.
[7]丰爱静.现代汉语主谓结构作主语考察[D].武汉:华中科技大学,2005:5-24.
[8]冯丽萍,肖青.主谓谓语句研究中有关主语的分歧及其原因探讨[J].云南师范大学学报(哲学社会科学版),2007,39(6):132-134.
[9]郭家翔.宾位主谓结构及其述语的相关考察[D].武汉:华中科技大学,2004:2-30.
[10]江轶.现代汉语中主谓结构作定语的多角度考察[D].山东:山东大学,2004:16-41.