田 丽
(韩城市司马迁图书馆,陕西 韩城 715400)
主题内容、主题词与关键词的收集和统计分析是情报分析的常规工作。某时间段大量出现的类似主题、主题词或关键词基本能够反映相关事物的发展动态[1-3]。多个学科共同出现相关主题、主题词或关键词还能反映出热点事物的动态[4-5]。随着互联网和各种互动平台的出现,有关主题内容挖掘和分析的研究成为情报与信息领域共同关注的问题。例如,文献[6-11]在不同架构、不同模式下探讨了网络主题信息的采集方法,文献[12-13]针对科技文献和项目的主题演化进行了研究。
一个主题往往由若干核心要素组成,这些要素通常成为该主题的关键词或者与关键词密切相关,主题及其要素往往需要一定时间和一定数量的文献经充分论证、达成共识后凝集而成。鉴于论证者的分散独立个体特性,单一文献拟定的关键词也具有个性特征,因此靠自然过程凝集出主题信息往往需要较长时间。情报分析的价值之一是对事件的预见性。从主题信息挖掘该主题涉及的核心要素,有利于解析主题信息的覆盖和影响面,也是情报分析的一个非常重要的工作。
现有的有关主题信息挖掘的文献报道,大多数都是采用网络爬虫技术从关键词或主题词综合演绎出主题内容,是“关键词主题信息”的挖掘模式。这个结论可以从文献[14]的综述得到。这个挖掘模式不能“通过主题信息挖掘主题的核心要素”,即无法实现“主题信息关键词”的挖掘。鉴于此,本文开展“主题信息关键词”的挖掘模式研究,建立一个情报主题空间的模型,给出一种挖掘方法。本文的模型和方法可实现从主题信息中分析挖掘出相关的关键词。
根据统计学原理,大量频繁出现与某事物相关联的个性数据能反映该事物的部分本质。本章基于该原理,结合向量空间与随机事件空间的构造理论,建立情报主题空间的数学模型,并通过例子说明模型的意义。
将全体与情报主题有关的信息集合视作一个情报主题空间,简称主题空间。例如,若情报主题为科研选题,则全部有关科研选题的情报信息集合构成科研选题主题空间,记为Σ。根据统计学原理,主题空间是一个随机信息事件空间,空间的每个事件(每条信息,也称元素)是由若干独立的基本事件经布尔运算(交∩、并∪、差-)形成的。主题空间里独立基本事件称为空间的基。基是主题空间表示事件的基本单位。任意2个基之间的交集是空集。这是基的独立性表现。基信息连同其同义与近义信息称为基的扩充。扩充可以用程度词关系进行量化。例如,“新”扩充为“很新”、“半新”、“9成新”和“高新”等等。“创造”、“原创”、“创新”都是“创”的扩充。也就是说,如果α是主题空间的一个基,则kα是其扩充,这里k≥0。其中,k=0的情形称为基的剔除,表明某个事件中不包含该基的关联信息。如无特别说明,基α及其扩充kα统称为基,其中α称为基核。基中核以外的部分kα-α称为基裹,这里的减号是布尔差运算。主题空间全体基的个数就是空间的维数。
如α1,α2,…,αN是主题空间Σ的N个基,则它们具有以下性质:
1)确定性,也称作有效性。任意基与自身的交、并都是其自身,即αi∩αi=αi,αi∪αi=αi。基与自身的差是一个剔除,即αi-αi=∅。
2)扩充性。任意基的核都可扩充,即kα运算是有效的运算。
同时结合集合运算法则,引进各种运算律:
1)数乘律:(kα)∩β=k(α∩β),(kα)∪β=k(α∪β)。
2)交换律:α∩β=β∩α,α∪β=β∪α。
3)结合律:(α∩β)∩γ=α∩(β∩γ),(α∪β)∪γ=α∪(β∪γ)。
4)分配率:α∩(β∪γ)=(α∩β)∪(α∩γ),α∪(β∩γ)=(α∪β)∩(α∪γ)。
有了基的概念,就可以建立主题事件的概念。
主题空间的一个信息事件e是由空间的基通过布尔并聚合而成的元素:
(1)
在N维主题空间中,不足N个基聚合而成的事件称为残缺事件。残缺事件是主题空间里面信息不全面的事件。由同一组基聚合的事件构成空间中的子空间。残缺事件也可构成残缺子空间。限于篇幅,这里不延伸相关内容。
由基α1,α2,…,αN决定的主题空间Σ记为:
Σ=span{α1,α2,…,αN}
(2)
事件的模数是度量事件大小(影响程度)的一个数量。约定基核的模数是1,按照式(1)聚合的事件e的模数记为‖e‖,其计算方法为式(3):
‖e‖=k1+k2+…+kN
(3)
(4)
与同向量空间每个向量在基的方向上有分量一样,e在基αi方面的分量定义为式(5):
ei=e∩αi
(5)
由此得到聚合事件e的分量表示法如式(6):
e=(e1,e2,…,eN)
(6)
第i个分量ei的模数‖ei‖为:
‖ei‖=kii=1,2,…,N
(7)
据此,每个分量对整个事件影响的权重(程度)P(ei)为式(8):
(8)
这正好是事件中某个要素出现的概率值或频度。至此,完成了主题空间基本结构的数学建模,并得到了通过事件挖掘关键词的基本方法,即式(5)~式(8)。
为便于应用,本节给出2个实例说明主题空间。
1.2.1 生产力主题的主题空间
根据生产力的三要素,劳动力、生产对象和生产资料是生产力主题空间的3个基;劳动力、生产对象和生产资料3个信息要素之间的任意2个没有交集,但是它们的任意组合都会产生与生产力主题相关的信息元素。因此,以生产力为主题的主题空间是一个三维主题空间。这是最便于理解主题空间的例子。
1.2.2 金融主题的主题空间
金融对象、金融方式、金融机构、金融场所和金融制度是金融的5大要素。其中,除第五要素金融制度以外,其他都具有扩充性。例如金融对象可以是货币或者有价标的物;金融方式有借贷、证券投资等;金融机构有各种银行、证券交易所和其他机构,金融场所则包括但不限于银行和证券交易所的多个场合。
由此可见,金融主题衍生的主题空间是一个很复杂的高维空间。据此可知,目前比较受关注的“科技金融融合”主题将会衍生更加复杂的主题空间。这也是为什么国家非常重视这个主题的发掘的原因。
主题信息大致可以分为3类:第一类是经历史发展已成型形成共识、基本要素大致固定的主题信息,如前述例子所述生产力、金融等;第二类是虽未成型但大体有了共识、基本要素趋于固定;第三类是新产生、基本要素处于发散状态的。第一类信息对人们工作和生活的影响已经成为固定模式,第二类信息通常对人们近阶段的工作和生活产生较大影响且具有引导性,而第三类则尚不能对人们的生活和工作产生引导性的影响。例如,金融、金融科技融合分属第一、第二类信息。前者的模式已经固定,而后者则产生了像“互联网+金融”等模式的各种发展。鉴于此,本文重点关注第二类信息。
第二类信息的特点是:主题信息的要素集趋于收敛,需要通过挖掘和分析才能得到最大化反映主题核心思想的要素。这类似数学中求极限的过程:一个无穷序列的极限是存在的,请找到合适方法把它求出来。
为了达到所述目的,首先将主题空间拓展为无穷维空间。假定空间Σ有无穷个基,即:
Σ=span{α1,α2,…,αN,…}
那么根据式(5)可知,第i个基αi将对空间事件的第i个分量产生影响。根据式(8),这个影响将以该分量出现的概率或频度表现。根据统计学原理,舍弃那些出现频度较小的基,得到一个最大近似空间:
s.t P(αi)≥P(αi+1), i=1,…,m-1;P(αm)≫P(αm+j), j=1,2,…
在文献中,关键词是反映主题信息的重要要素。一个作者撰写文章公开其思想、方法或结果,都需要拟定最能反映其主题的关键词。2.1节给出了通过主题信息提取构成主题关键要素的基本思想——通过分析主题信息相关联关键词的频度来获取最大近似主题空间。本节介绍一种具体实现方法,笔者称之为“种子培育法”。
种子培育法包含选种、育苗和收获这3个环节。
1)选种阶段。
第一步:随机地从文献库中挑选出与主题信息相关的若干文献,形成备种文献集合W0;
第二步:提取W0中的关键词形成备种词集K0;
第三步:在K0中挑选频度高(>75%)的关键词作为种子集S0。
2)育苗阶段。
第一步:将S0关键词分拆成单字得到集合K1;
第二步:将K1的单字组合成有效词语集合K2;
第三步:分别将K1、K2的元素作为检索条件,在文献库里检索与主题信息相关的文献得到S1与S2。检索策略为:
主题信息*(k1,1OR k2,1OR … OR kN,1);
主题信息*(k1,2OR k2,2OR … OR kN,2);
这里,ki,1∈K1,ki,2∈K2。
3)收获阶段。
第一步:将S1和S2里的关键词提取出来汇集成K3;
第二步:按照频度高低对K3里面的关键词进行排序;
第三步:选取高频度(>80%)的关键词作为主题要素。
从种子培育法的3个阶段及其具体做法可以看出,选种阶段可获取少量样本中有代表性的关键词。在育苗阶段,将前阶段的关键词进行单字分拆和再组合,实际上是扩大了有关联关键词的范围,从而增加了搜索样本的数量,确保样本的广泛性。收获阶段在已经扩大广泛性的样本里面提取高频度的关键词,确保这些关键词在广泛基础上的代表性。根据统计学原理,它们属于“大量频繁出现与主题信息关联的个性数据”,能反映主题信息的本质。整个提取过程好似“播下几粒种子,培育一片样本,收获厚实的果实”。
从主题信息挖掘该主题涉及的核心要素,与从关键词挖掘主题信息是逆向的操作,相关的应用场合不尽相同。本章分析这种差异,并给出一个本文模型的应用案例。
表1 2种不同挖掘模式的比较
科研选题是每个科技工作者面临的问题。一个好的选题往往能使科研工作顺利获得立项、开展研究并产生预期效果。过去20多年来,如何开展科研选题也是众多学者关注和研究的课题。从CNKI数据库里可以检索出10多万篇涉及选题原则和要素的文章。但是这些文章都是基于作者个人的主观论述,缺乏科学层面的数据支持。为此,笔者基于前述模型和策略,对科研选题这一主题的核心要素进行挖掘。
利用关键词挖掘分析工具“金花关键词软件”,从CNKI选取近20年有关科研选题的文献,发现有20多个相关的关键词,其中“前瞻性”“超前性”“新颖性”“创新性”“科学性”“务实性”“必要性”“充分性”“可行性”“可靠性”“可能性”“实用性”“应用性”等是出现频率较高的词语。
分别采用单字统计和合字统计的分析表明,单字“新”“学”这2个字出现的频度超过95%,“要”“行”“用”这3个字的频度超过90%,“靠”“能”这2个字的频度大于75%,而“瞻”“前”的频度低于65%。以频度超过75%的单字来组合“创新”“新颖”“科学”“学术”“必要”“需要”“实用”“应用”“可行”“可能”“可靠”“充分”的分析结果见表2。采用其他组合分析出频度都低于70%,限于篇幅这里不列举。
表2 关键词双字出现频度
考虑到“必要”“需要”“实用”“应用”都属于务实性的范畴,“可行”“充分”“可靠”属于同一范畴,由此总结出科研选题需要关注的5大要点:创新性、科学性、务实性、必要性和可行性。在此基础上,可建立选题评价模型。笔者对此也做过研究,相关研究结果即将在《人类工效学》见刊,限于篇幅,这里不赘述。
一个主题概念往往是在大量的分散论证后趋于集中和成型的。由于分散论证通常具有强烈的个性特征,任何一个个案的论述都不能形成主题概念的核心要素。只有大量出现、趋于统一、具有共性的关键要素才能形成公认的权威的观点。基于这样的考虑,笔者通过建立主题空间模型、践行“种子培育法”,得出从主题信息挖掘其要素的基本策略。本文对于帮助情报分析人员从大量个案论述中挖掘权威共识要素的工作具有参考价值;对于科技人员确定研究突破点也有一定的帮助。笔者也希望本文能够抛砖引玉,得到更多同行的关注并取得更多成果。
致谢:王兴波教授对于本文主题空间建模给出了诸多指导,笔者在此表示由衷的感谢。