谭明亮 唐晓波
摘 要:[目的/意义]运用新一代信息技术来提升慢病健康管理服务的质量和水平是党和国家的重大现实需求,精准化和智能化的健康知识服务对于促进慢病的自我管理、减轻患者的医疗费用压力和缓解医疗资源的分布不均具有十分重要的意义。[方法/过程]本文采取数据驱动与知识驱动相结合的方式来实现慢病智能服务,综合利用自然语言处理、机器学习、知识工程、语义网和深度学习等多种智能化的手段来对慢性相关的多源异构文本大数据进行深度挖掘、深层次组织和有效利用。[结果/结论]文章从多主体的视角分析了慢病智能服务的需求,构建了文本大数据和领域知识联合驱动的慢病智能服务模型,并对构成该模型的基础设施层、数据采集层、知识组织层和智能服务层的结构、功能和实现路径进行了详细的分析论述。
关键词:文本大数据;领域知识;慢病智能服务;模型构建
DOI:10.3969/j.issn.1008-0821.2022.05.008
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2022)05-0077-09
Abstract:[Purpose/Significance]It is a great realistic demand to use the new generation of information technology to improve the quality and level of chronic disease health management services.Accurate and intelligent health knowledge services are of great significance for promoting self-management of chronic disease,reducing the pressure of medical costs and alleviating the uneven distribution of medical resources.[Method/Process]By adopting a combination of data-driven mode and knowledge driven mode to realize the chronic disease intelligent services,the study comprehensively used a variety of intelligent methods such as natural language processing,machine learning,knowledge engineering,semantic web and deep learning to mine,organize and utilize the multi-source heterogeneous textual big data.[Result/Conclusion]This study analyzes the needs of chronic disease intelligent services from the perspective of multi-agents,and constructs a chronic disease intelligent service model driven by textual big data and domain knowledge.The structure,function and realization path of the infrastructure layer,data acquisition layer,knowledge organization layer and intelligent service layer that constitute the model are analyzed and discussed in detail.
Key words:textual big data;domain knowledge;chronic disease intelligent service;model construction
随着工业化、城镇化和老龄化进程的不断加快,以及生态环境、生活方式的变化,人类的疾病
谱发生了巨大的改变,慢性非传染性疾病(简称“慢病”)已成为严重威胁人类生命健康的重要因素。近年来,以高血压、糖尿病和冠心病等为代表的慢病成为全世界范围内人口死亡的主要原因,其导致的死亡人数约占全球总死亡的70%以上[1]。中国的慢病患者人数为3亿左右,因慢病而死亡的人数占我国总死亡人数的比例达到了80%以上[1-2]。慢病多为终身性疾病,具有病程长、难以治愈、易反复等特点,因此患者需要长期连续的治疗和持续的健康管理。在此过程中,慢病患者迫切需要掌握与疾病的诊断、治疗、康复和保健等相关的各种健康知识和注意事项,以有效地促进疾病康复和自我健康管理[3-4]。
传统上,慢病患者主要从医生、护士处获取所需的健康知识,该方式受到时间和空间较为严格的限制,慢病患者无法根据自己的需要,随时随地便捷地获取慢病自我管理相关的各种健康知识。随着信息技术的快速发展,具备覆盖面广、传播速度快和使用便捷等特点的互联网逐渐成为人们获取健康知识的重要来源[5-6]。但是互联网包含的健康信息的数量巨大且纷繁复杂,质量参差不齐,知识组织水平和智能化程度明显不够,难以为用户提供精准化和智能化的知识服务[7-8]。
互联网上的數据中绝大部分是以自然语言描述的文本形式存在[9],根据有关统计,互联网上的海量数据中有80%是非结构化文本数据[10-11]。互联网上存在的慢病相关的海量多源异构的数据资源中,大部分是以非结构化文本的形式存在,例如:健康网站文章文本、疾病百科文本、在线健康社区问答文本、微信公众号文章文本等。如何对互联网上慢病相关的文本大数据进行深层次的分析挖掘与组织利用,从而为用户提供高质量的健康知识服务,是学术研究和产业实践所共同面临的重要问题。3D61BD19-76FB-42AF-9E26-BC2D5FABA592
1 相关研究
当前,利用各种新兴信息技术来提升和改善慢病健康管理的质量和水平是当前国内外信息管理学科的研究热点之一。蔡淳等分析了人工智能技术在糖尿病的全程健康管理的各个场景中的应用,并阐述了其中面临的挑战和难点问题[12]。曹树金等利用词频分析、共词网络分析和社区发现等方法,从中文社会化问答网站提问文本中挖掘糖尿病的健康信息需求[13]。潘建鹏等对虚拟健康社区中的专家知识进行抽取和关联,并基于D-S算法来为高血压患者推荐药物[14]。熊回香等通过实际调研和文本挖掘来获取在线健康社区用户的健康信息需求特征,并以此为基础来优化通用的疾病本体模型,以更好地实现慢病知识服务[15]。唐晓波等基于LDA主题模型、Sentence-BERT语义表示和TextRank算法来智能化地为糖尿病咨询提供问题提示列表[16]。翟姗姗等将知识图谱与分面检索相结合来提高慢性病在线医疗社区中信息检索的效率与质量[17]。
Wang Z等基于自然语言处理技术和领域知识库实现了一个基于知识的推荐系统,该系统从患者的健康数据中发现潜在的需求,然后向慢病患者推荐最相关的健康教育资料[18]。Elhadj H B等从可穿戴设备等终端处获取数据,基于动态知识推理实现慢病患者的健康监护[19]。Roca S等针对存储患者数据、远程监测疾病和提醒坚持服药等需求,提出了面向慢病患者的微服务聊天机器人架构[20]。Ali F等将二型模糊逻辑与模糊本体相结合,基于物联网技术和语义网技术来自动化地监测慢病患者的健康状况以及推荐相应的饮食和药物[21]。Foufi V等运用命名实体识别和关系抽取技术来对Reddit平台上的慢病相关的帖子文本进行分析,研究发现,虽然存在隐私和安全问题,但是人们还是渴望在社交媒体平台上分享自己的慢病经历[22]。Chen R C等使用本体、决策树和Jena推理引擎构建并实现了一个慢病膳食推荐系统[23]。
目前,国内外的专家学者们积极探索将各种智能化的手段应用于慢病的信息检索、信息需求分析、饮食和药物推荐、健康状况监测和健康教育等场景中。且相关研究呈现出如下的特点和趋势:①强调对多种方法技术的综合集成。慢病智能服务的实现往往都采用综合集成的思路,将多个学科和多个领域的多种方法和技术进行集成和融合,以更好地解决实际的研究问题。常用的方法技术主要包括自然语言处理、机器学习、语义网、物联网、模糊集、文本挖掘、知识工程、深度学习、决策支持系统和信息检索;②强调对多源异构数据的挖掘利用。大数据是一种新兴的基础性战略资源和重要核心资产。大数据背景下,对海量多源异构的数据资源进行挖掘、组织和利用,能够有效地提升和优化慢病智能服务水平与能力,研究者们除了对生理指标数据等结构化数据进行分析利用外,还基于在线健康社区问答文本等非结构化数据来实现慢病智能服务。
2 慢病智能服务的需求分析
为了全面地把握慢病智能服务的必要性、现实性、迫切性与重要性,本文主要从政府管理部门、信息服务提供商和慢病患者3个不同主体的视角对慢病智能服务的需求进行分析。
2.1 政府管理部门的视角
提升慢病健康管理服务的质量和水平,培育有特色的健康管理服务产业,是党和国家的重大现实需求。《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》文件明确指出:要提升健康教育、慢病管理和残疾康复服务质量。中共中央、国务院联合印发的《“健康中国2030”规划纲要》文件指出:到2030年,实现全人群、全生命周期的慢性病健康管理;促进个性化健康管理服务发展,培育一批有特色的健康管理服务产业。国务院办公厅印发的《中国防治慢性病中长期规划(2017—2025年)》文件指出:要构建自我为主、人际互助、社会支持、政府指导的健康管理模式;培育以个性化服务、会员制经营、整体式推进为特色的健康管理服务产业。
党和国家高度重视将互联网、大数据、云计算、人工智能和物联网等新兴信息技术应用于健康医疗和慢病健康管理中,中共中央、国务院等政府部门颁布的一系列政策法规中的相关内容如图1所示。
2.2 信息服务提供商的视角
中国互联网络信息中心(CNNIC)发布的第48次《中国互联网络发展状况统计报告》显示,截至2021年6月,我国网民规模达10.11亿,互联网普及率达71.6%。如今,人们可以通过个人电脑、智能手机、平板电脑等用户终端设备方便快捷地从互联网上搜索财经、军事、科技、娱乐、体育、健康、文化和教育等各个方面的信息。其中,网民对于健康与医疗方面的信息需求尤为强烈。美国调研机构皮尤研究中心(Pew Research Center)的调查报告显示,80%的网络用户会在互联网上搜寻与医疗健康主题相关的信息。中国科协科普部、百度品牌数据中心和中国科普研究所联合发布的《中国网民科普需求搜索行为报告(2018年度)》显示,健康与医疗相关主题的总搜索份额为66.83%,排名第一。
在国家大力推行“互联网+医疗健康”的背景下,提供各类健康信息的网站平台和移动应用应运而生并且蓬勃发展,例如国外的PatientsLikeMe、Diabetic Connect、Medhelp、DailyStrength、eHealth Forum和MDJunction等,国内的寻医问药网、有问必答网、好大夫在线、平安好医生、春雨医生和丁香园等;与此同時,各大搜索引擎公司也纷纷对此进行布局,例如搜狗明医、360良医等医疗健康垂直搜索平台。中国有着3亿左右的慢病患者群体,慢病智能服务的市场空间十分广阔。对于健康信息服务提供商而言,通过利用大数据、云计算、自然语言处理、语义分析和深度学习等新一代信息技术来为慢病患者提供智能化的优质健康知识服务,能够有效提升产品和服务的质量与用户满意度,进而增强自身的竞争力和扩大市场占有率。
2.3 慢病患者的视角3D61BD19-76FB-42AF-9E26-BC2D5FABA592
虽然互联网的普及为慢病患者获取健康知识带来了便利,降低了慢病患者的时间成本和经济成本,但是当前从互联网上获取健康知识还面临着诸多的问题与挑战,主要体现在以下几个方面:①互联网上存在的健康信息的数量非常庞大,容易使得慢病患者陷入信息过载的困境,例如,以“糖尿病患者饮食”为关键词在百度上进行检索,返回相关的结果约1亿个,用户还需要从返回的大量检索结果中找寻自己所需要的健康信息;②互联网上存在的健康信息的质量参差不齐,既有权威的医学专家编辑、发布、审核和更新的健康信息,也有各个健康网站平台和移动应用的管理员所搜集、整理、编辑和发布的健康信息,还有网民们在网络健康社区中通过发帖、回复所生成的可能存在描述不专业甚至包含不实内容的健康信息;③用户目前从互联网上获取健康信息的形式较为单一,主要是通过信息检索然后浏览相关页面的形式;④从互联网上获取健康信息缺乏个性化,不同特征的用户在同一个关键词下检索得到的结果完全相同。
慢病患者对于智能服务的需求主要包括:①服务内容的个性化。不同健康状况、不同性别、不同年龄和不同病程的慢病患者,对于健康知识的需求存在着一定的差异,因此需要对用户进行精准的画像,然后将与其最为匹配的资源内容服务于用户;②服务过程的智能化。需要将多种智能化的技术手段综合应用于慢病智能服务整个过程的各个环节之中,例如在用户键入检索关键词的环节,可以利用文本语义分析技术来挖掘用户的搜索意图,为其提供动态咨询引导;③服务形式的多样化。为了满足慢病患者多元化的知识服务需求,除了以智能检索的形式为用户提供服务以外,还可以采用智能问答、智能咨询、智能推荐和智能导航等多种知识服务方式;④服务结果的聚合化。从资源库中匹配到用户所需要的资源以后,需要对结果进行进一步聚合,以可视化、主题摘要、咨询报告、分面导航等形式呈现结果,而不是将所有的结果简单地显示于页面上,然后待用户逐个点击查看。
3 知识与数据联合驱动的人工智能
清华大学人工智能研究院院长、中国科学院院士张钹教授认为,第一代AI是知识驱动的人工智能,第二代AI是数据驱动的人工智能,第三代AI的发展思路是将第一代的知识驱动的人工智能和第二代的数据驱动的人工智能这两种范式相结合起来,这是发展人工智能的必经之路,通过同时利用知识、数据、算法和算力4个要素来构造更强大的人工智能[24]。
知识驱动的人工智能以Newell和Simon提出的物理符号系统假说(Physical Symbol System Hypothesis,PSSH)为基础,该假说认为智能的许多方面都可以通过符号操作来实现。知识驱动的人工智能将人类的知识转化为使用符号和规则进行操作的显性形式,并在此基础上进行运算、搜索和推理,从而实现问题的求解。知识驱动的人工智能以知识工程、专家系统、知识图谱和语义网等技术为典型代表。
知识驱动的人工智能可以利用模糊信息和专家知识,推理过程与人的认知判断相似,具有良好的逻辑性、可解释性,有助于认识问题的机理和揭示问题的本质,无需大量的训练数据,计算量小,可以形成可复用的知识库。但是其缺点在于依赖人工定义的知识与规则,知识获取的效率低、成本高且获取的领域知识具有一定主观性,缺少对特征抽象和学习的能力,难以利用数据中隐含的潜在有价值的知识以及难以完整地表示人类的经验和知识。
数据驱动的人工智能从数据样本中学习和挖掘问题的特征和关联,基于数据集来训練和拟合模型,建立和表示输入和输出之间的映射关系,从而将数据样本转化为相应的经验模型(Experience-based Model),然后利用训练的模型来解决领域问题和实现智能。数据驱动的人工智能则以机器学习、深度神经网络、强化学习和迁移学习等技术为典型代表。
数据驱动的人工智能可以从数据中挖掘其中隐含的模式、规律和知识,分析结果客观,人为主观影响小,自动化水平高。近年来,数据驱动的人工智能在各个领域得到了广泛的应用,究其原因主要有以下3个方面:①大数据环境为机器学习模型的训练提供了数据基础;②通过多层神经网络来学习和提取数据中复杂的深层次特征的深度学习技术,提升了模型的学习能力;③硬件计算能力的不断提高加快了数据处理和模型训练的速度。但是数据驱动的人工智能的缺点在于高度依赖于数据的规模与质量,迁移性和可推广性较差,分析过程和分析结果往往缺乏可解释性。
张钹院士指出,知识驱动的人工智能和数据驱动的人工智能这两种范式是从不同侧面模拟人类的大脑,具有各自的缺点和片面性,依靠单一的范式不可能触及人类真正的智能[24]。将知识驱动的人工智能和数据驱动的人工智能这两种范式进行有机地结合,充分利用两者的互补特性,融合经验主义和理性主义,博采众长、取长补短,从而更好地实现智能和解决实际应用问题。例如,可以利用深度学习技术来从海量多源异构数据中抽取领域知识,提升知识图谱构建中知识获取的效率;与此同时,也可以将已有的领域知识库融入机器学习模型中,以提高模型的分类准确率。
4 文本大数据和领域知识联合驱动的慢病智能服务模型
本文以人工智能、数据挖掘、文本语义分析、知识组织和知识服务等多个领域的理论和方法为基础,以科学性原则、有效性原则、系统性原则和可操作性原则为指导,构建了文本大数据和领域知识联合驱动的慢病智能服务模型,该模型由基础设施层、数据采集层、知识组织层和智能服务层所组成,如图2所示。模型通过同时利用互联网上存在的海量多源异构的文本数据,大数据和云计算平台提供的算力,自然语言处理、机器学习相关的算法,领域专家处、现存的知识库和文本大数据中的领域知识来实现慢病智能服务。
基础设施层主要为数据采集层、知识组织层和智能服务层提供大数据平台和云计算平台,从而为文本大数据的采集与预处理、领域知识的集成与抽取、领域本体的构建、文本大数据的语义标注和慢病智能服务系统的运行等提供网络、存储和算力支撑。基础设施层可以采用当前被学术界和工业界所广泛使用的主流大数据框架Hadoop来构建大数据平台,基础设施层中由Hadoop相关的生态组件所构成的大数据平台搭建和部署在云计算平台上,云计算平台为大数据平台提供其所需的存储空间和计算资源。3D61BD19-76FB-42AF-9E26-BC2D5FABA592
数据采集层需要从互联网上采集慢病相关的海量多源异构的文本数据,然后对其进行预处理,形成文本大数据资源库。文本数据资源主要包括百科文本、在线健康社区问答文本、健康网站文章文本和微信公众号文章文本,可采用的数据采集的手段主要有爬虫、数据库连接池、API接口等方式。采集了慢病相关的文本大数据之后,进行数据预处理操作,然后存入基础设施层的数据库中。数据工程师需要参与到数据源选取、数据采集、数据预处理和数据存储的全过程中,在其领域知识的指导下形成内容可靠、格式规范的文本大数据资源库。
知识组织层利用本体来对知识进行表示和建模,实现领域知识的有效组织以及增强领域知识的复用性与共享性。首先,需要对现存的领域知识库中的知识进行集成,形成种子本体;其次,利用机器学习、自然语言处理、深度神经网络和文本挖掘等技术,从文本大数据资源库中抽取出本体知识元素,对种子本体进行完善和更新,从而完成慢病领域本体的构建;最后,基于领域本体对文本大数据资源进行多粒度的语义标注,从而完成资源的有序化组织,建立知识单元之间的语义关联,形成慢病文本知识库。
智能服务层是知识资源与用户需求相联系的接口,对慢病文本知识库进行充分有效的利用,为慢病患者提供其所需的各种健康知识。智能服务层需要挖掘用户的知识服务需求,然后对慢病文本知识库进行访问、映射、匹配、推理和运算等操作,以多种智能服务形式将慢病的诊断治疗、康复保健和健康管理相关的健康知识精准化地提供给慢病患者。如果文本知识库中不存在用户所需要的健康知识,智能服务层则通过服务调度引擎接入慢病医生的专家服务,从而满足慢病患者的知识服务需求。
5 知识组织与智能服务
智能是获取知识并运用知识去解决实际问题的能力,从实用的观点看,人工智能是一门知识工程学,主要研究以知识为核心对象的获取、表示、组织和利用[25]。文本大数据和领域知识联合驱动的慢病智能服务模型的核心是构建领域本体,并利用本体对文本大数据进行语义标注,形成文本知识库,然后以文本知识库为基础实现慢病智能知识服务。
5.1 领域本体的半自动构建
本体是共享概念模型的明确的形式化规范说明,具有概念化、明确性、形式化、共享性等特征。本文利用本体来实现领域知识组织的原因如下:①本体是一种常用的语义表示和知识建模的方法,在人工智能、知识工程、信息系统、软件工程等多个领域有着非常广泛的应用;②本体能够在语义层次上实现知识的建模和概念模型的描述,从而为语义驱动的应用程序和应用系统提供共享的知识模型、领域的概念化框架和强大的推理能力;③本体对于增强复杂知识的建模和推理能力、提升知识库的可重用性和共享性有着十分关键的作用;④本体的实现技术较为成熟,实现本体的建模、存储、可视化和推理等相关的软件、插件和程序库等工具资源非常丰富。
本体的基本构成元素主要包括概念、关系和实例。例如,基于斯坦福大学开发的本体编辑工具Protégé手工构建的一个简单高血压领域本体如图3所示:“高血压疾病”这个概念类有“原发性高血压”和“继发性高血压”两个子类,“高血压药物”这个概念类共有“血管紧张素转换酶抑制剂”“利尿剂”“β受体阻滞剂”“钙通道阻滞剂”“血管紧张素受体阻滞剂”5个子类;“血管紧张素转换酶抑制剂”类下有一个实例(概念类所指的具体实体)“卡托普利”;“高血压药物”与“高血压疾病”这两个概念类之间的关系为“治疗”,即高血压药物治疗高血壓疾病。
本体可以通过知识工程师和领域专家手工构建,可以基于自然语言处理和机器学习等技术自动构建,还可以采取领域专家和计算机技术协同的方式半自动构建。为了提高领域本体构建的效率,降低领域本体构建的人力成本、经济成本和时间成本,同时确保构建的领域本体的质量、完整性、准确度与可复用性,以及对现存的领域知识库进行有效的利用,知识组织层在本体的手动构建与本体的自动构建之间取一个相对的平衡,采用如图4所示的技术路线来实现慢病领域本体的半自动构建。
知识组织层首先需要收集医学领域已存在的中文知识库,例如中文医学主题词表(CMeSH)、中华人民共和国药典、中国中医药学主题词表等,获取领域知识库中与慢病相关的术语、关系和实体等知识,并对其进行集成和整合,形成种子本体;然后利用知识抽取相关的方法、技术和工具从慢病文本大数据资源库中挖掘和抽取出概念、关系和实例等本体知识元素,从而实现对种子本体的完善和丰富;最后通过知识工程师对概念、关系等进行审核、调整和更新,从而形成最终的慢病领域本体。
知识抽取的过程中,可以采用将基于规则的方法和基于统计机器学习的方法相结合的混合方法,来更好地实现本体知识元素的抽取。首先,根据词法和句法搭配等语言学知识建立相应的知识抽取模式和规则,并将文本大数据资源库和规则模板进行匹配来实现概念、关系和实例的抽取;然后,基于词频、互信息、信息熵、对数似然和TF-IDF等统计特征,以及利用支持向量机、条件随机场、隐马尔可夫模型和深度神经网络等统计机器学习模型来抽取本体知识元素;最后,将获取的知识元素进行整合和对齐。知识抽取相关的方法路径、关键技术、算法模型、程序库和软件工具如表1所示。
5.2 基于本体的文本数据多粒度语义标注
知识组织层需要利用通过半自动方式构建的慢病领域本体来对慢病文本大数据进行语义标注,从而实现文本数据深层次的语义理解。语义标注基于慢病领域本体来对文本内容进行语义描述,利用领域本体中定义的概念、关系和实例来揭示文本的语义特征,为文本数据添加语义信息和建立语义关联,实现对文本资源语义内容的形式化表达,使得计算机能够理解慢病文本大数据的语义内容并执行知识推理、知识检索等的语义操作。
文本数据具有不同的粒度,按照信息粒度的大小可以分为篇章、段落、句子、词语等层次。在为慢病患者提供智能知识服务的过程中,有时需要基于粒度较小的文本数据,而有时则是需要基于粒度较大的文本数据;例如,在智能问答服务的过程中,计算机针对慢病患者的问题返回的答案往往是一个句子或者由几个句子组成的段落;在智能推荐服务的过程中,计算机则可能需要将由多个段落组成的慢病健康管理相关的微信公众号文章推荐给慢病患者。3D61BD19-76FB-42AF-9E26-BC2D5FABA592
知识组织层通过基于领域本体的文本数据多粒度语义标注,对慢病文本大数据的语义内容进行多粒度揭示和深度序化,形成慢病文本知识库,以满足用户不同粒度层次的知识服务需求,为慢病智能服务的实现提供坚实的知识资源基础和保障。句子是保持语义完整和逻辑连贯的最小文本单元,知识组织层基于领域本体对句子、段落和篇章分别进行细粒度、中粒度和粗粒度的语义标注,实现各层次文本单元的语义理解和知识关联。例如,利用图3的高血压领域本体对句子Sentence1进行语义标注的示例如图5所示。
基于慢病领域本体的文本多粒度语义标注,为句子、段落与篇章等不同粒度层次的文本单元添加相应的语义标签及其语义关系,从而实现各粒度文本数据语义内容的深层次理解和描述,建立起句子与句子之间、句子与段落之间、段落与段落之间、段落与篇章之间、篇章与篇章之间、句子与篇章之间的语义关联和语义索引。文本语义标注所使用的方法技术主要包括语料库、自然语言处理、机器学习、语义网和深度神经网络等。
5.3 慢病智能知识服务
基于本体的文本数据语义标注过程完成后,形成了慢病文本知识库;然后通过知识库操作,将知识庫中慢病患者所需的健康知识匹配出来,以多种智能化的形式提供给用户。实现精准化和个性化的健康知识服务的前提是有效地识别和挖掘出用户的特征和需求,慢病患者知识服务需求挖掘的方式主要包括:通过读取和分析慢病智能服务系统中用户注册时所填写的年龄、性别、职业、慢病种类等基本信息的方式挖掘用户需求;通过采集和分析用户的收藏夹内容、日常搜索记录、网页浏览记录、个人点击记录、页面停留时间等数据来挖掘用户需求;通过分析用户在使用慢病智能服务系统过程中所键入的检索词和问句等,提示相关的问题供其选择,从而准确获取用户需求。
智能服务层在准确获取慢病患者的特征和需求的基础上,以智能检索、智能问答、智能咨询、智能推荐和智能导航等多种形式为慢病患者提供知识服务。其中,智能检索服务需要将检索结果进行多维聚合和分面导航,从而避免慢病患者陷入海量检索结果之中;智能问答服务需要分析和理解慢病患者的问题,然后以自然语言交互的方式返回相匹配的答案;智能咨询服务针对慢病患者的自述,组织答案并生成报告提供给用户;智能推荐服务为不同身体状况、不同病情的慢病患者推送个性化健康知识;智能导航服务利用可视化技术将种类繁多、关系复杂的健康知识清晰有序地呈现出来,使得慢病患者能够快速地查询和获取所需的健康知识。
6 结 语
利用大数据、云计算、文本挖掘、机器学习、自然语言处理和深度神经网络等新兴信息技术来提升慢病健康知识服务的质量和水平具有十分重要的现实意义。将知识驱动的人工智能和数据驱动的人工智能这两种范式进行有机结合是人工智能发展的重要趋势和必经之路。本文构建了由基础设施层、数据采集层、知识组织层和智能服务层所构成的文本大数据和领域知识联合驱动的慢病智能服务模型,该模型通过同时利用知识、数据、算法和算力4个要素来实现精准化和智能化的健康知识服务。今后的研究需要以文本大数据和领域知识联合驱动的慢病智能服务模型为基础,利用软件工程技术,开发具有较高有用性和易用性的慢病智能服务系统。
参考文献
[1]潘锋.加快医学发展,应对后疫情时代全球健康安全新挑战——访中国工程院院士、北京大学常务副校长兼医学部主任詹启敏教授[J].中国当代医药,2020,27(29):1-3.
[2]武留信,朱玲,陈志恒,等.中国健康管理与健康产业发展报告(2018)[M].北京:社会科学文献出版社,2018.
[3]吕英杰.网络健康社区中的文本挖掘方法研究[D].上海:上海交通大学,2013.
[4]唐晓波,郑杜,谭明亮.慢性病健康教育知识服务系统模型构建研究[J].情报科学,2019,37(1):134-140.
[5]刘冰,张文珏.基于用户视角的网络健康信息服务质量评价体系构建研究[J].情报科学,2019,37(12):40-46.
[6]姜婷婷,郭倩,徐亚苹,等.证据类型对在线健康信息标题选择的影响:眼动实验与启示[J].图书情报工作,2020,64(19):61-70.
[7]陆泉,朱安琪,张霁月,等.中文网络健康社区中的用户信息需求挖掘研究——以求医网肿瘤板块数据为例[J].数据分析与知识发现,2019,3(4):22-32.
[8]Ren C,Deng Z,Hong Z,et al.Health Information in the Digital Age:An Empirical Study of the Perceived Benefits and Costs of Seeking and Using Health Information from Online Sources[J].Health Information & Libraries Journal,2019,36(2):153-167.
[9]何伟.基于朴素贝叶斯的文本分类算法研究[D].南京:南京邮电大学,2019.
[10]景丽萍,恽佳丽,于剑.领域知识在文本聚类应用中的机遇和挑战[J].计算机工程与科学,2010,32(6):88-91,121.
[11]何敏.基于MapReduce的文本挖掘研究[D].成都:电子科技大学,2015.
[12]蔡淳,贾伟平.人工智能在糖尿病全程健康管理的应用与挑战[J].中国科学基金,2021,35(1):104-109.
[13]曹树金,闫欣阳.社会化问答网站用户健康信息需求的演变研究——以糖尿病为例[J].现代情报,2019,39(6):3-15.
[14]潘建鹏,李颖庭,周利琴,等.虚拟健康社区中的专家知识融合研究——以高血压为例[J].情报理论与实践,2019,42(6):117-123.3D61BD19-76FB-42AF-9E26-BC2D5FABA592
[15]熊回香,代沁泉,梅潇.面向在线医疗社区的慢病知识服务模型构建[J].情报理论与实践,2020,43(6):123-130.
[16]唐晓波,刘亚岚.基于Sentence-BERT语义表示的咨询问题提示列表自动构建方法研究——以糖尿病咨询为例[J].现代情报,2021,41(8):3-15.
[17]翟姗姗,潘英增,胡畔,等.基于医学知识图谱的慢性病在线医疗社区分面检索研究[J].情报理论与实践,2021,44(1):195-203.
[18]Wang Z,Huang H,Cui L,et al.Using Natural Language Processing Techniques to Provide Personalized Educational Materials for Chronic Disease Patients in China:Development and Assessment of a Knowledge-Based Health Recommender System[J].JMIR medical informatics,2020,8(4):1-21.
[19]Elhadj H B,Sallabi F,Henaien A,et al.Do-Care:A Dynamic Ontology Reasoning Based Healthcare Monitoring System[J].Future Generation Computer Systems,2021,118:417-431.
[20]Roca S,Sancho J,García J,et al.Microservice Chatbot Architecture for Chronic Patient Support[J].Journal of Biomedical Informatics,2020,102:1-9.
[21]Ali F,Islam S M R,Kwak D,et al.Type-2 Fuzzy Ontology-aided Recommendation Systems for IoT-based Healthcare[J].Computer Communications,2018,119:138-155.
[22]Foufi V,Timakum T,Gaudet-Blavignac C,et al.Mining of Textual Health Information from Reddit:Analysis of Chronic Diseases with Extracted Entities and Their Relations[J].Journal of Medical Internet Research,2019,21(6):1-18.
[23]Chen R C,Huang C Y,Ting Y H.A Chronic Disease Diet Recommendation System Based on Domain Ontology and Decision Tree[J].Journal of Advanced Computational Intelligence and Intelligent Informatics,2017,21(3):474-482.
[24]張钹,朱军,苏航.迈向第三代人工智能[J].中国科学:信息科学,2020,50(9):1281-1302.
[25]张仰森,黄改娟.人工智能教程(第二版)[M].北京:高等教育出版社,2016.
(责任编辑:郭沫含)3D61BD19-76FB-42AF-9E26-BC2D5FABA592