知识图谱算法之于阅读与出版智能服务探析

2023-01-05 00:08王建文
出版广角 2022年20期

【摘要】嵌入知识图谱算法以自动识别、关联、分析庞杂而海量的大數据,从中挖掘出有价值的信息,为读者提供精准的信息服务,已成为当今知识服务的核心目标之一。文章基于知识图谱算法之于知识服务智能化应用方向的思考,从智能化功用层面概述了知识图谱算法的应用方向,探讨了知识图谱算法之于阅读服务智能化的应用理解,提出打通出版与阅读服务智能化的融合路径,构建新的运维模式,以推动知识服务发展创新。

【关  键  词】知识图谱;知识服务;AI技术;智能阅读;智能出版

【作者单位】王建文,湖南师范大学图书馆。

【中图分类号】G237【文献标识码】A【DOI】10.16491/j.cnki.cn45-1216/g2.2022.20.015

伴随智媒时代的迅速演进,阅读和出版服务智能化的个体期待与业态高度不断出现新的问题,一定程度上造成了阅读需求与内容推送的体验落差。为此,相关学者试图通过AI(人工智能)技术重塑智能化阅读服务,探寻阅读与出版服务协作互促,实现二者的有机融合。笔者认为,知识图谱算法作为一种新的AI技术,对知识服务的智能化构建具有强大的助力,可为智能化阅读与出版服务融合提供可行的路径。

一、知识图谱算法之于知识服务智能化的应用概要

知识图谱算法的出现,使智能化知识服务具备可解释、可理解和可推理的能力。作为一种数字世界的载体,知识图谱基于网络语义知识库的规模使用,通过建立便于计算机理解和表达的知识关联,利用图结构建模,识别和推断事物间的复杂关系,实现资源整合,进而为个性化知识服务提供智能化支持。可以说,知识图谱融合了自然语言处理(NLP)、深度学习等算法模型,从非结构化的自然语言文本中自动抽取用户感兴趣的信息,并以结构化、可视化形式进行表达,从而“实现对网络、文本、图片、音频、视频、社会行为轨迹等海量资料的数据化生成、结构化处理和计算”[1],极大便利用户捕捉感兴趣的知识特征。在这一过程中,知识图谱除了要进一步融合和完善个性化推荐系统、机器翻译、关系抽取和情感分析等复杂结构的建模,还要充分发挥高度发达的网络技术全域挖掘关联信息的潜力。

结构上,知识图谱可划分为数据层和模式层两个层次,其中,数据层存储真实的数据,模式层在数据层之上,存储数据中经过识别、抽取、提炼后形成的知识信息。可以说,知识图谱展现一种随时间而变化的可扩展结构,呈现一个需要并保持迭代更新的过程。而每一轮迭代基于本体建模包含了知识抽取、知识融合、知识计算、知识储存四个阶段,其中各类存储知识包括基本属性知识、关联知识、事件知识、时序知识和资源类知识等,其目的在于为机器实现理解、解释、推理、规划等一系列人类所独有的认知能力赋能。

基于此,知识图谱构建的数据资源作为背景知识可供各类智能化系统融合使用,相关应用场景包括:把多源异构的知识结构化,构建数据间关联;以其丰富的语义关系驾驭分词、语义理解、文本挖掘等基本NLP(自然语言处理)任务,广泛参与搜索、推荐、用户画像、智能问答、语言语义理解、大数据决策分析等系统级应用。其可解释性智能主要应用于问答、推荐等场景,能极大提升用户对系统的信任感和满意度;其可推理性智能可用于“不一致性检测、推断补全、知识发现、辅助推理决策”[2]等常见逻辑型应用。

二、知识图谱算法之于阅读服务智能化的应用解析

知识图谱算法最重要的应用,既在于提取关键信息,精准刻画用户画像,又在于通过用户画像积累数据,将用户行为信息与资源精准对接,同时基于知识图谱算法的个性化推荐、行为洞察、需求画像、问题评估、资源推送等服务,构建知识服务的“智脑”,由此应用于不同的阅读场景,赋能智慧学习,实现阅读效率和阅读质量的提升,使出版资源更精准地服务于读者的个性化学习。但阅读智能服务作为知识服务的高阶形式,业内更多地视之为技术层面的问题,操作层面难以体现知识图谱算法之于智能化阅读服务的赋能。因此,我们应从认知层面对知识图谱算法的应用理解有一个较为完整清晰的认识。

1.资源整合

知识图谱算法技术通过高效利用不同类型的知识体系来生产、组织、供给内容产品和库群,并将其融入算法“推荐池”,帮助读者利用智能服务平台提供的强大挖掘功能,从“异质信息网络(Network schema)”积累的大数据富矿中持续不断地挖取所需知识。所谓异质信息,指多种类型的对象或关系,每个对象属于一个特定的对象类型,每种关系属于一个特定的关联类型。而异质信息网络模式,则指在特定的对象类型和关联类型上的一个有向图[1—2],如科技文献数据(或书目)构成的典型异质信息网络包含四种实体对象:论文、场所(即会议/期刊)、作者和术语,每篇论文都有从作者到会议的链路关系,每条链路属于一种相应的关联类型(撰写与被撰写、出版与被出版、引用与被引用)[3]。这种对异质信息数据类型的智能化关联整合,构成了层次分明、结构清晰、异质互联的知识网络图,使碎片化知识信息通过收集、整理、提炼、传递,突破时间与地域的界限,拓展读者的学习边界,整合多维学习资源,进而帮助读者提升阅读学习效率。同时,知识图谱还把多源异构的知识结构化,通过构建数据间的智能化关联,解决垂直领域内数据分散、多样、复杂和孤岛化等问题。

2.读者画像

知识图谱算法构造的读者画像更为精细全面,具有对读者相关背景及其文化偏好、专业学科关注度等进行分析与预判的能力,不仅有助于精准地诊断学情,还可通过强大的算法功能分析用户感兴趣的内容特征,快速实时捕捉用户的阅读兴趣与趋向,同时,还可关注读者的学习过程与思想动态,记录读者解决问题的数据,并根据知识关联图利用大数据将知识地图与个人数据进行匹配分析,帮助读者把准薄弱的知识点位,清晰了解问题所在。可以说,知识图谱算法的读者画像有助于读者及时获得学习评价和信息反馈,调整自我规划与学习路径,促使平台为读者推荐匹配更合适的阅读资源。这种对读者阅读趋向的分析和个性需求预测,实质上就是一种对智能化阅读服务预测性极强的前瞻性实践。

3.个性化推荐

平台推荐系统主要分为两类:一是預测用户对物品的评价,如影视推荐系统通过预测用户对影视的评分,以此为依据推送用户喜欢的影视作品;二是预测用户是否点击物品,如产品推荐中预测用户点击某产品的概率优化方案,使用的数据为用户点击/未点击,此为体现用户喜爱程度的隐式反馈。从目前的实践探索看,一方面是基于特征的推荐方法,即从知识图谱中抽取用户和物品的属性作为特征放入传统模型中,引入实体特征;另一方面是基于路径的推荐方法,即将知识图谱视为一个异构信息网络,构造物品之间的“meta-path(元路径,即一种实体类型和关系交替而成的序列)”或“mata-graph(元图,即一种解决小样本链路预测问题的方法)”的特征。简言之,“meta-path”是连接两个实体的一条特定路径,如“演员→电影→导演→电影→演员”,这条“meta-path”连接两个演员,可视为一种挖掘演员之间潜在关系的方式,这个方法直观地利用了知识图谱的网络结构。

知识图谱算法凭借对读者阅读趋向的精准把握,为平台将读者阅读需求融入“推荐池”提供支撑。基于此,平台可根据读者用户画像适配情况及其权重配比,加大与个人用户界面关联度较大的信息推荐力度,从而大大提升阅读资源推送的主动性与精准度。显然,构建基于内容与算法功能的推荐图谱,在满足读者个性化需求的同时,还能改进并完善精准信息推送主导下的推荐方法,有助于推动智能化知识服务基于高度个性化的发展。

4.学习导引

鉴于读者阅读兴趣的多样化和不确定性,知识图谱算法必须根据数据捕捉与分析向读者适时推送,方便读者“第一眼”即可“巧遇”阅读资源,而无须撒大网捕小鱼式浏览。更重要的是,知识图谱算法有助于读者“把新获取的知识与已有的认知结构相联系”,进而自主“建构新的认知结构和知识体系”[4],促进知识学习向目标精确、过程精细的智能化方向发展。这个过程一方面通过对读者画像类知识图谱分析,帮助读者自动屏蔽无关内容,专注于问题知识,从而有效提高学习效率;另一方面通过将读者画像与学科知识图谱精准对接,以智能算法助力读者分析问题,并根据读者已有的理解能力推荐新知,从而导引读者进入自适应主动学习。

三、知识图谱算法之于出版服务智能化的驱动场景

知识图谱算法为出版服务智能化带来了现实机遇,其驱动场景应用于多个出版环节。

1.驱动主题关联,掌握研究热点

知识图谱具有强大的信息搜索与知识关联功能。例如,我们可通过智能算法搜索绘制期刊发文高频词联络图(见图1)。根据图1可知:图中红色大圆代表该类期刊的发文高频词,表明为研究热点,圆越大代表该词出现的频次越高;蓝色字体是高频共现相关词,蓝色由深到浅代表其相关性由强到弱;中间连线最多的红色大圆,代表当前研究热点与研究聚焦偏好;边缘浅蓝小圆代表初起的思维眼点,属于值得关注的新动向;联络网状线为主题词(关键词)间的关联关系,属于纵横关联展示,既为主题研究扩域,也为选题思路溯源。

虽然此图只是粗浅的知识关联图,但深度融入知识图谱算法及思维模式,经由智能搜索、聚类、分析、计算找出各类期刊发文的高频关键词和相关词,在关键词互引与主题关联驱动下绘制主题联络全景图,通过探测并关联高频词勾画出主题关联图。显然,知识图谱算法之于出版服务智能化,首先是通过主题关联驱动支持出版者掌握研究热点,把握主题创作方向,并为选题出版提供参考,从而极大提升对出版现象的洞察力和对出版决策的驾驭力。

2.驱动智能搜索,收集选题素材

在知识图谱算法支持下,通过智能搜集、整理、提取、关联、分析,各类碎片化资源可组成具有逻辑性的知识线索。如学术论坛中所发布文献下的相关讨论和回帖,经过算法挖掘、分析和整理,可发掘诸多学术研究信息,成为激发创作灵感的关键素材。根据读者用户画像了解用户所需信息,再针对用户群问题整理成新选题,不仅可满足受众对共性问题的解答需求,还可探寻出版题材创新的思路。如出版社根据知识图谱算法收集读者观后感或学习要求,掌握读者学习动态,了解信息反馈动向,审核评论区的散点语义,发掘深层次线索,进而提取关键主题,为出版选题开发提供参考。

3.驱动智能挖掘,捕捉选题线索

基于知识图谱算法对海量数据深层次挖掘的效能,出版社可通过“判断整体状况和解析细微差异”[6],对选题数据信息(含相关隐性元素)进行加工组合,以此实现“知识创编”类型的智能出版。在此过程中,借助知识图谱算法支持的智能挖掘技术,实施以读者为中心的选题分析与资源择优,不仅有利于从众多异质信息中发掘读者关心的信息,捕捉可靠的选题线索,还能精准把握出版选题方向,快速推出即时融入读者需求的新型知识产品。

相关研究表明,知识图谱算法驱动下的搜集、挖掘、过滤、聚焦,使得一切可能的新趋势甚至微弱的新信号皆可提取为有价值的特征信息,为出版选题创新提供更具前瞻性的可行线索,将多源知识以精确的方式呈现,并使诸多隐性知识与读者关注问题得以显现,从而助力知识创新。可以说,知识图谱算法在“诸如数据对比、信息深度整理、知识洞察和特征识别”等出版选题驾驭层面中展现的挖掘与捕捉优势,能为出版选题智能化带来无限可能。

4.驱动模式构建,赋能出版创新

知识图谱算法引入因果推理机制,发掘不同主题或概念背后的因果关系,有助于出版社不断挖掘出版热点,发现并实施新的出版选题,进而驱动出版模式的创新构建。其中的因果推断变量与推断算法,可以发掘高维数据上的隐变量(即未能观测到或不明显包含却可推测的变量),这也是智能化知识服务的重要能力。知识图谱算法驱动构建了一个不同知识单元之间具有逻辑因果或逻辑推理关系的描述性网络,为探寻资源线索与知识脉络提供了清晰的思路与逻辑性支撑,并基于问题求解通过自动识别理解海量数据,从中挖掘有价值的信息,为知识的组织与生产提供精准的智能化服务。

因此,根据知识图谱算法探寻热点或隐性主题,拓展出版选题视野,无疑有助于提升选题的敏感性与前瞻性。出版社可采集海量数据构建知识图谱,利用知识图谱算法实现知识关联的推理、挖掘、分析、联想,并从显性关系中获取更多隐性数据关联,多维度、深层次扩展知识谱系,不断完善以读者为中心的出版内容关联智能化,从而驱动出版决策调整与模式创新。

5.驱动分野走向,提升决策效能

第十九次全国国民阅读调查报告显示,2021年我国成年国民人均每天接触手机时长为101.12分钟,人均每天接触互联网时间为68.42分钟,而纸质阅读人均每天仅为21.05分钟[7]。可见,纸媒接触只占较小的比例,数字化阅读占比持续居高不下。为此,很多出版选题面临采用纸质出版还是数字出版的选择。一般而言,出版方式应由选题内容的属性特征与阅读服务模式决定,出版方式应遵循市场需求的分野标准。因而,对出版方式的选择关系到市场细分、市场挖掘及出版模式的决策。在此情况下,知识图谱算法依据出版内容与阅读属性的特征,构建基于出版方式选择规则标准化的知识图谱,对提升出版决策效能具有重要的应用价值。

以图2为例,利用知识图谱算法推演出版方式择向的机理,可以探明出版市场的结构性走向与选择性规律:人文经典类图书属于深阅读,适合纸质出版;教材教辅内容基本稳定,重印率高,属被动性课程体系,应以纸质出版为主;新闻、短知识等属于浅阅读,具有即时、动态、个体、分散性特点,应以数字出版为主。当然,这种分野并非一成不变,当纸质图书数量有限时,可用数字出版加以补充,以滿足更多读者的个性化需求。随着时间的推移,当个性需求演变成共性需求时,亦可将数字出版转成纸质出版。

四、结语

知识图谱算法模仿“人类解决复杂问题的智慧”,已成为创新性学习工具应用中不可或缺的要素,它“所变革的不仅是技术手段,还深入调整和重构知识的传递方式、生产方式和组织方式”。一方面,全新的知识服务智能化成果本身就是一种新兴的智能出版物形态;另一方面,以语义搜索、精准推送、用户画像、智能问答、行为预测、精确分析、决策支持、深度学习、数据挖掘、推理引擎等系列算法集成为基础的知识图谱智能构成了知识服务大脑,促进了知识服务的智能化转型,并使阅读与出版形成友好互动的良性闭环。借助知识图谱算法发现新知,贴近读者所需重塑或更新知识,并透过读者画像抓住读者需求,无疑是出版业值得关注的发展方向。

知识图谱算法于阅读与出版智能化知识服务虽然具有无限发展动能,但也有其局限性:一是好的智能算法要依托于大数据,而行业数据却是分割而固封的,极大阻碍了大数据环境的形成;二是本体知识库的基础薄弱,不利于智能算法的实现,亟须大力加强底层知识库的构建。对出版与阅读服务融合而言,相关智能算法应用创新更是任重道远。

|参考文献|

[1]邓国峰,高安安. 技术逻辑与价值定位:算法时代网络思想政治教育新展望[J]. 思想教育研究,2022(2):30-34.

[2]石庭豪. 解读知识图谱在教育智能化中的应用(上)[EB/OL]. (2022-05-13)[2022-09-13]. https://

mp.weixin.qq.com/s/G8YPNOPvaNzk0DL_YqU3aw.

[3]石川,孙怡舟,菲利普·俞. 异质信息网络的研究现状和未来发展[J]. 中国计算机学会通讯,2017(11):35-40.

[4]余胜泉. 序言[J]. 人工智能,2022(2):2+6.

[5]20张全景大图带您纵览2021年核心期刊发文主题脉络[EB/OL]. (2022-01-20)[2022-09-13].

https://mp.weixin.qq.com/s/ZSX3ghEWM0A5XXwzpFb

V2g.

[6]魏华. 人工智能深度融合思想政治教育的实现路径[J]. 理论视野,2021(12):70-75.

[7]中国新闻出版研究院全国国民阅读调查课题组,魏玉山,徐升国. 第十九次全国国民阅读调查主要发现[J]. 出版发行研究,2022(5):21-25.