徐东
【摘 要】互联网的发展给用户提供了方便的信息获取途径,便携式终端设备性能提升、交互便捷,为用户随时随地获取大量信息提供了保障。但面对海量信息,如何找到知识内化过程中所需要的信息,成为用户面临的最大问题。人工智能技术的发展为信息传播领域的信息超载提供了新的技术解决方式,是出版企业开展知识服务的可行路径。
【关 键 词】出版;人工智能;嵌入式;知识服务
【作者单位】董良广,人民卫生出版社有限公司,人民卫生电子音像出版社有限公司。
当下,信息逐渐趋于泛在化,互联网的发展给用户提供了方便的信息获取途径,便携式终端设备性能提升、交互便捷,为用户随时随地获取大量信息提供了保障。基于此,从海量信息当中提取对自身有益的相关知识成为当务之急。以往,传统出版企业必须借助物质载体开展精神活动,比如通过书报等载体传播信息,这是单纯的信息资源传递模式,也是被动型信息服务方式。但在当今社会,这种方式无法有效切入用户知识应用和创新的核心过程,因此,出版企业要转变思路,变被动为主动。在个性化知识需求不断增加的新形势下,出版企业应调整定位,利用人工智能等技术,从浩瀚的信息资源中提取各种显性和隐形的知识,以对信息知识的生产组织、搜寻、分析、重组为基础,根据用户需求策划生产内容,并将其融入用户解决问题的过程和场景中,进而提出能够有效解决问题的方案,最终实现知识应用和知识创新。由此可见,人工智能技术的发展为信息传播领域的信息超载提供了新的技术解决方式,是出版企业开展知识服务的可行路径[1]。
本文以人民卫生出版社(以下简称人卫社)为例,探索出版企业基于人工智能开展知识服务的可行路径。对人卫社而言,医学领域知识复杂、更新迅速,单靠人力无法梳理各种知识之间的关联,因此,需要借助人工智能技术,建立医学知识图谱,并将其嵌入用户的工作流程中,提供即时知识服务。
一、出版企业开展知识服务的路径
随着大数据时代的来临,一方面,医学领域面临大量分布式的、异构的医学数据,医学领域专业分化越来越细,这给医学专业从业人员理解医学知识造成困难;另一方面,医学专业从业人员对于能体现自己个性、具有整合性和知识性的服务需求日益增多。因此,出版领域迫切需要做出改变,要结合各项人工智能技术研究成果,积极探索知识服务的转变方向。作为我国医药领域出版规模最大、产品质量高、综合实力强的出版社,人卫社拥有医药教材、学术专著、科普图书、期刊、外文图书、数字新媒体等出版资源,也拥有医药卫生各专业领域的优质作者资源,能够组织专家撰写各方面的相关内容,“人卫”品牌已深入全国广大医药院校师生、医药工作者心中,拥有庞大的行业用户群。在这样的背景和条件下,人卫社从2008年起开始探索如何利用已有资源服务医药卫生专业人员,从解决用户在工作中可能面临的问题入手,借助知识组织技术、语义技术和用户行为分析技术,通过建设人卫临床知识库向用户提供服务(见图1)。
1. 转变策划观念,以用户需求为导向
知识服务是面向用户需求的个性化服务,出版企业要从用户需求出发,结合本单位实际情况,确立内容资源建设目标。即以用户需求为导向,统一思路,明确重点,厘清职责,形成资源策划、采集、加工、管理和出版发布一体化的资源建设业务流程,为不同产品的整合开发和面向不同用户提供不同服务奠定基础。对已有出版内容加工的过程,也是细致梳理内容资源分布、组织结构的过程。在这个过程中,出版企业可以发现原有内容在面向用户提供知识服务时的优势和不足;针对内容分布,可有针对性地进行调整,弥补图书出版和视听教材出版中的不足之处,进而形成合理全面的内容分布。选题策划是出版的基础,亦是效益的源头,它是一项复杂的系统工程,始终贯穿知识传播的全过程,不仅要求编辑提出策划创意,还要求编辑根据用户需求创新生产内容,以满足用户体验和市场需要,实现线上线下互动、虚拟现实结合、作者用户(PGC-UGC)融合、创作众创兼容[2]。
2.以医学本体为例构建基础数据
医学本体是一种描述医学领域知识的专用本体,旨在对医学的重要概念、属性以及概念间的关系做出一种形式化的说明。在网络信息资源管理中,医学本体可起到语义导航、语义检索、语义标注及术语服务等重要作用。人卫社医学本体参考了医学系统命名法——临床术语(Snomed CT)的架构,融合了《中国分类主题词表》医学类、国际疾病伤害及死因分类标准第十版(ICD-10)、手术与操作分类代码(ICD-9-CM-3)、《医学主题词表》(MeSH)、解剖学治疗学及化学分类系统(ATC)等国内外主题词表、术语表而形成。
人卫社医学本体按术语类型一一展开,计划分多期进行。其中,医学核心术语共13类,通用术语共9类。第一期是构建疾病本体。如图2所示,人卫社通过考察疾病的通用信息,拟从部位、病因、病理、症状/体征、检查、检验、治疗手段、药物几个维度以及上下位关系(IS A)构建疾病本体。
图2 疾病本体结构图
3. 构建专业领域的知识图谱
知识图谱最早由Google提出,是一种结构化的语义知识库,其基本组成单位是“实体—关系—实体”三元组,以及“实体—属性—属性值”。每个实体(概念)可以用一个全局唯一确定的标识符来标识,关系则用来连接两个实体(概念),刻画它们之间的关联,每个属性值可用来刻画实体的内在特性。知识图谱本质上是一种语义网络,结点代表实體(概念),边代表实体(概念)之间的各种语义关系。实体(概念)之间通过语义关系相互连接,构成网状的知识结构。知识图谱构建的过程可分为知识抽取、知识对齐和知识推理。知识抽取包括实体的提取和关系/属性的提取。知识对齐包括实体对齐和关系/属性对齐。实体对齐也称为实体匹配(entity matching)或实体解析(entity resolution),旨在发现表达不同但却代表医学领域同一对象的实体,并将这些实体归纳为一个具有唯一标识的实体对象。关系/属性对齐与实体对齐类似,通过这个过程可形成高质量的知识。知识推理用于发现隐含知识,一般通过可扩展的规则引擎来完成。此外,知识推理还可以丰富知识网络结构。
人卫社医学知识图谱数据主要源于人卫临床知识库资源,结构分为数据层和模式层两层。数据层存储的主要是从文本中提取的“实体—关系—实体”,或“实体—属性—属性值”,例如流行性感冒—临床表现—发热、红细胞—正常值—(4--5.5)X1012/L。模式层主要存储规则、条件、公理和医学本体,用于对数据层的管理。构建流程既遵循构建过程的一般规律,又结合医学资源和人卫社资源的特点进行。鉴于实体和关系/属性的提取难度大、准确性难以保证,以及实体之间较明确的关系,人卫社将三元组提取的过程简化,将实体的属性统一为关系,仅提取实体(概念),根据预先设定的关系类型标注提取的实体(概念)之间可能存在的关系,并且暂不进行知识推理,留待知识图谱完善后再进行。其总体流程为:数据预处理→实体种类确定、关系/属性定义→实体(概念)抽取→实体(概念)标准化→三元组审核知识图谱形成。
4. 获取用户数据,构建个性化知识图谱
用户需求分析包括4个方面:静态属性分析、动态属性分析、用户消费属性分析和用户心理属性分析。静态属性指的是用户在网页上填写的基本信息。可获取的用户个人信息有以下几项:用户名、真实姓名、性别、出生年月、手机号、所在院校、从事专业等。动态属性指的是用户使用互联网产生的数据信息。比如想了解用户的医学知识偏好和学习手段,可获取的信息有用户的检索历史、收藏记录、点击记录、浏览记录和时长、下载记录、阅读笔记等。用户消费属性指的是用户的消费水平、消费心理、消费嗜好等。可获取的信息有用户购买的图书名称、图书的价格等。用户心理属性指的是用户的生活、工作、情感状态、社交等。可获取的信息有用户上网时间、关注人群、交友圈等。比如依据用户静态属性分析,可先将人卫社用户分为专业用户和大众用户两大类,其中主要为专业用户;专业用户又可再细分为医学生、教师、医务人员(医师、护士、药师)、科研人员等类别。通过逐级向下划分的方式,便可形成用户分类树形结构,这可为针对某类用户的共同需求研发产品提供参考。此外,还可将用户性别、年龄等静态属性与用户其他属性结合,进行统计分析,形成用户群的多种分类。
人卫社通过实践证明,综合分析用户属性,形成用户多维度需求情况分析结果,在用户查询理解信息、检索结果排序和知识推送方面可起到有效的优化作用。
5. 嵌入式的知识服务模式——以医学领域用户为例
医学是一门覆盖面广、内容精深复杂的自然科学。随着研究的不断深入,医学专业分科越来越细,研究和利用医学的临床医生或者医学科研工作者不仅渴求信息,更渴求专业的知识内容。临床医生没有大量的时间和精力获取知识,一旦脱离工作环境,学习目标将不明确,效率比较低。因此,这个领域迫切需要建立一种嵌入式的知识服务模式,这种模式可帮助临床医生在繁忙的临床工作或科研活动中补充知识,及时解决遇到的问题,且不需要专门花费大量的时间和精力去学习。
图3 临床诊疗过程中嵌入知识服务流程图
临床诊疗极其复杂,它不是一个简单的线性处理过程。图3是在临床诊疗过程中嵌入知识服务的基本流程,简单展示在不同环节可能实现的知识服务。知识服务是循环迭代知识获取、知识吸收、知识创新、知识应用这几个环节,不断调整和优化知识服务产品和解决方案的过程。在临床诊疗过程中嵌入知识服务是一种主动的、与用户交互的服务方式,它可以随着用户需求的变化调整服务方式、服务地点以及服务内容。
人卫社针对临床诊疗提供嵌入式知识服务,建立了疾病知识库、病例数据库、临床诊疗路径数据库、诊疗指南知识库和临床用药参考知识库。这些数据库的知识内容组织与临床诊疗体系一致,如采用ICD-10和ICD-9-CM-3组织内容、提供服务,具体的服务方式是将知识服务部署到医院内部服务器,门诊病房的计算机通过医院局域网可以随时访问知识库,医务人员还可以通过手机应用连接局域网知识库。后续人卫社会将知识库与医院信息系统进行整合,届时可实时获取医生输入的病患信息,对信息进行分析,结合人工智能技术,可充分了解医生所面对病患的个体情况,进而可结合知识图谱提供与之相关的知识内容。除了辅助临床诊疗,嵌入式知识服务还可以跟踪临床医生在诊疗过程中寻求知识的行为,通过采集积累,了解临床医生关注的知识内容范围和其研究的发展方向,形成个性化知识图谱,并与整体知识图谱映射,提供精准的知识服务。
6.知识服务平台的研发思路——以人卫临床知识库为例
内容是知识服务的基础,技术是知识服务的重要支撑和保障。平台面向用户交互,通过本体管理内容,以大数据技术分析用户需求,是为用户提供嵌入式、个性化知识服务的场所和环境。
人卫临床知识库是在医学生有学习知识需求、临床医生有诊疗辅助需求的驱动下,以资源的组织与整合为基础,构建的包括疾病知识库、病例数据库、临床诊疗路径数据库、诊疗指南知识库、临床用药参考知识库、影像图片数据库和视频数据库等在内的具有中西医特色的知识服务平台。从功能模块的角度来看,这个平台的应用主要包括基于本体和知识图谱的资源加工系统、基于语义的全文检索系统、基于共现分析的知识关联系统和基于用户信息的个性化服务系统。人卫临床知识库借助系统提供的各种资源分析及检索工具,为用户提供信息浏览、相关文献推荐、知识地图等各种知识服务。
(1)基于本体和知识图谱的资源加工系统
人卫社资源标引以本体和知识图谱为标准,从整体和局部分层次进行。标引图书时将标引层次分为图书整体、篇章、节、小节、段落几个层面,标引结果区分主次。如“抗高血压药的合理应用”,核心主题为“抗高血压药、合理应用”,次要主题为“高血压……”,可根据数据特征、用户关注点标引多个字段内容。关于疾病的内容,除标引疾病外,还应标出疾病的易感人群、所屬临床科室等。至于检验的内容,则应标引标本名称。
(2)基于语义的全文检索系统
检索系统的主要功能是对平台中其他系统提供的资源进行索引,为用户提供统一的检索服务,同时以多种形式呈现检索结果,满足用户的个性化需求。平台建设之初,没有针对医学内容的搜索引擎,我们基于开源的Lucene项目,对医学分词进行优化,将词典分词和算法分词结合,开发医学新词发现系统,不断补充医学专业分词。平台的全文检索系统具有多种检索功能,包括基本检索、高级检索、分类检索、二次检索、精确检索、扩展检索、语义检索等。检索系统组件提供的服务则主要包括输入检索词提示、热点关键词提示、检索结果聚合、检索结果筛选、日志分析组件等。
(3)基于共现分析的知识关联系统
共现分析是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和特征项所隐含的寓意。在计算机技术的辅助下,共现分析以其方法的简明性和分析结果的可靠性,成为支撑信息内容分析的重要手段和工具。面对海量的信息资源,如何从宏观层面上分析知识内容之间的关联,把握信息资源的核心主题,为用户提供一个快速进入研究领域的知识入口,对知识服务而言有重要的意义。我们在构建医学词表、医学本体和知识图谱的基础上,对标引分类的结构化内容进行共现分析,建立医学概念之间的关联关系,一方面有助于知识图谱的动态更新,另一方面可以发现新知识。举例来说,A表示一种物质的摄入可能导致某生理改变B,而B的生理变化又引发某一器官的疾病C,D药物是治疗疾病C的非针对性药物,这样,可获得A作用于C和D并影响B的有用信息。这种隐含联系在单独一篇文献中是发现不了的,但通过关联关系的梳理,我们能够把这种隐含联系挖掘出来。
(4)基于用户信息的个性化服务系统
知识服务是面向个人问题提供解决方案的服务模式,需要通過多种方式获取用户信息,实现用户“画像”。只有充分理解用户需求,才能提供精准的知识服务。知识服务的作用在于,进行检索时,可通过语义分析,发掘检索的核心需求,与医学知识图谱映射,查找和推荐相关内容。我们在用户注册和使用平台时,会建议用户填写从事的专业和感兴趣的相关专业,并在用户检索和浏览内容时,根据学科及疾病分类体系,细化用户专注的领域,根据用户专注领域的不同,对内容进行加权调整。此外,用户在平台上发表的内容也是获取用户信息的重要来源,我们可通过用户与用户的互动发现、采集重要信息。
二、出版企业开展知识服务面临的问题与思考
1. 编辑和出版企业应转变思路
随着信息技术的快速发展,在现代出版企业中,编辑可利用技术手段进行知识的二次生产。知识的二次生产是基于用户明确需求开展的,不一定要按照图书的出版规模来策划,它可能是一个具体问题的解决方法,也可能是某一个操作视频,这样的内容无法达到图书出版要求,但在知识服务方面具有重要意义。作为编辑,要善于从用户的行为中发现内容短板,及时找到专业人员弥补短板;作为出版企业,要围绕某一领域的知识服务建立相应的内容生产出版流程和机制。
2. 基础数据建设投入过大,应灵活变通
词表、分类体系、本体和知识图谱等基础数据建设是一项非常大的工程,也是实现知识服务的基础条件。如果没有成熟的资源可以运用,出版企业自建平台是很难实现的。以MeSH词表为例,美国国立医学图书馆历时50余年,投入大量人力、财力,收集的主题词不到3万个,这是因为概念的范围、概念与概念之间的关系、概念分类等是需要逐项界定的。因此,笔者建议出版企业最好采用现有的基础数据,并根据自己的项目需求进行数据优化。
3.平台建设中的难点突破依赖技术进步
知识服务是数字出版中的一种业务模式,技术与内容的关系是涉及数字出版本质的对应关系。“数字”是限定出版范围、方式和手段的关键词,它包含了数字技术、信息技术、互联网技术、数据处理技术以及平台开发技术,是实现新型出版的核心。不能理解和掌握相应的技术,也就无法开展相应的工作,无法开发产品和建设平台。对于技术,出版企业应注重的不是技术研究而是对技术的灵活运用,要理解相应技术的特点、基本原理和实现逻辑,结合内容和需求合理应用现有的成熟技术。这需要出版企业针对内容领域、出版领域和技术领域,培养和建立跨学科的复合型人才队伍。目前开发的人工智能还处于“感知智能”阶段,想提升至能主动理解知识、判断问题、提供解决方案的“认知智能”阶段还有很长的路要走。因此,出版企业运用人工智能技术仍依赖技术的进步。
4. 用户行为获取的准确性与用户服务
用户需求挖掘是指以用户的需求为目标,通过分析海量的数据找到用户的显性需求和隐性需求的过程。获取用户信息涉及用户体验和法律问题,获取准确的用户需求要在用户场景中进行,而要在收集到的信息中挖掘用户的真实需求和隐性需求难度不小。用户的知识背景、兴趣、情感等会随着时间迁移产生动态变化,这影响了系统对用户需求的判断和用户对知识服务的体验。因此,及时有效地捕获用户知识背景、兴趣等方面的细微变化,对提升用户体验而言至关重要,这有赖于人工智能技术的发展。
|参考文献|
[1]张晓林. 重新认识知识过程和知识服务[J]. 图书情报工作,2009(1):6-8.
[2]杜贤. “互联网+”时代的选题策划[J]. 科技与出版,2017(2):47-50.