赵艳斌 张朋柱
文章编号:1005-9679(2022)03-0119-07
摘要:对健康知识抽取关键信息并进行有效分类,是提高用户检索和使用相关防控知识效率的关键。首先,搜集得到的大量有效的心內健康知识,进行了有效的数据预处理和人工标注。其次,基于Word2Vec的skip_gram训练模型搭建了文本词向量。接着,根据知识分类的词性、句法的特点,利用句法分析将抽取出来的关键内容进行了有效分类。实验结果显示该方法在健康知识分类上有效,分类的精确率能够达到80%以上,能够很好地实现对健康知识的三分类。该分类方法为用户使用健康知识提供了指引,也为探讨知识质量和研究方向提供了有效的分类统计基础。
关键词:文本分类;Word2Vec;句法分析;健康防控知识;用户应用
中图分类号:TP301
文献标志码:A
Researchoncardiovascularhealthknowledgeclassificationbasedonword2vecandsyntacticanalysis
ZHAOYanbinZHANGPengzhu
(AntalCollegeEconomicsManagement,ShanghaiJiaoTongUniversity,Shanghai200030,China)
Abstract:Howtoextractkeyinformationfromhealthknowledgeandclassifyiteffectivelyisthekeytoimprovetheefficiencyofusers'retrievalanduseofrelevantpreventionandcontrolknowledge.Firstly,alargenumberofeffectiveknowledgeaboutthehealthofheartdiseaseiscollected,andcarriedoutdatapreprocessingandmanualannotation.Secondly,thewordembeddingsisconstructedbasedonword2vec'sskipgramtrainingmodel.Then,accordingtothecharacteristicsofpartofwordandsyntaxofknowledgeclassification,thekeycontentextractediseffectivelyclassifiedbysyntacticanalysis.Theexperimentalresultsshowthatthismethodiseffectiveintheclassificationofhealthknowledge,theaccuracyrateofclassificationcanreachmorethan80%.Itcanperfectlyachievethethreeclassificationofhealthknowledge.Thisclassificationmethodnotonlyprovidesguidanceforuserstousehealthknowledge,butalsoprovidesaneffectivestatisticalbasisforknowledgequalityandresearchdirection.
Keywords:textclassification;Word2Vec;syntacticanalysis;healthknowledge;applicationguidelines
近年来,我国心血管病致死率率不断攀升,至2018年现有患者2.9亿人,心血管疾病高居死亡原因首位。不正确的生活、饮食习惯是导致心血管疾病的主要原因,而传播健康知识是改变患者健康行为的基础,因此需要相关的心内防控科学知识方案来引导人们。
对于健康知识的用户即患者、医生和相关保健预防的人群来说,健康网站上的信息纷繁复杂,评价标准不一。用户想对疾病进行防控时,却不知如何筛选最相关的知识、判断该方案是否具有可操作性以及如何实施。此外,对于相关研究人员来说,如何评判健康网站也是一个重要的问题,需要对健康网站上的知识信息进行评判。出于对用户需求的满足,对健康知识进行分类,并作为网站评判的标准,是十分有必要的。
文本分类是按照预先设定的规则将文本智能化切分、定类的分类方法。目前,针对中文文本的分类研究已取得一些成果,主要的分类方法有KNN最近邻分类、朴素贝叶斯分类、SVM支持向量机等。但是由于中文的句法结构复杂等特征,这些不考虑具体语法、语义的机器学习方法很难达到较高的准确率。为了弥补这些不足,逐渐又结合句法语义分析进行分类,Katz等人把文本用(主谓宾)三元组表示。
由于目前对健康知识分类的文献不多,本文针对性地提出了一种根据Word2Vec构建词向量抽取关键词句并依据句法分析进行分类的方法,分类的准确率达到80%~90%。本文将防控知识分类,清晰了方案知识的可操作性、整理知识之间的关系,为用户应用提供了基础。
1文献综述
自2000年以来,随着互联网的飞速发展,健康网站为用户提供了大量相关的健康知识。目前如健康网站39健康网、中华康网、寻医问药网,均是中国优质医疗保健信息与在线健康服务平台。在对健康网站用户调查中,有70%左右的用户认为在网上获取健康信息比较方便,对健康、防病、营养知识的需求均占20%以上,但是对网站上信息的不满意率达41.03%,集中在健康网站的信息分类、可操性和有效性方面。
国内外对健康信息、健康网站研究的文献,大致可以分为对健康信息的质量/可使用性、传播性、对用户的影响和对在线健康网站评价等方向。对健康信息传播性、用户行为已有不少文献做了研讨,如探究健康用户关系网络动态演化、用户回帖行为影响机制等。
对于健康社区/网站而言,健康知识的质量和可信性会影响到用户采纳及服务体验。自20世纪末,国内外逐步对健康网站信息服务质量评价建立了多种评价方法和评价标准。Wilson提出了五种评价标准,在其用戶评价标准指南中,NetScoring共包括49个健康评鉴指标,可分为健康信息的可信度、内容等八大类。
而对健康信息本身质量评价/可使用性研究的文献缺少相应可靠的评断方法。这就导致用户在阅读健康信息时无法判断该信息是否完备、可操作,加上冗余重复的知识,很容易导致用户不知道如何采用,大大降低了健康知识的实用性。此外,很多标的如食盐、鸡蛋黄等都有明显的食用范围,一些食材还有特有的操作方法。这些问题的存在,都会造成实用性大打折扣。
2相关工作
2.1Word2Vec词向量方法
Hinton1986年提出了用神经网络进行分布式表征。2003年,Bengio提出了一个三层神经网络模型,在训练语言模型的同时得到了词向量基本模型neuralnetworklanguagemodel(NNLM)。Word2Vec是Mikolov提出的一种神经网络语言模型,有CBOW和Skip_gram训练模式。CBOW训练模型是由该预测的特征词的上下文词向量输入来输出得到该特征词的词向量,数学表达式为
P(Wt|∑(Wt-k,Wt-k+1,…,Wt+k-1,Wt+k))。Wt为目标词汇,通过上下文k大小窗口的词预测其出现的概率,结构如图1所示。
Skip_gram是给定当前词的词向量来预测对应上下文的词向量,数学表达式为
P(∑(Wt-k,Wt-k+1,…,Wt+k-1,Wt+k)|Wt),结构如图2所示。
两个训练模型中,Skip_gram模型训练时间较长、精度更高,所以本文采用此模型,窗口k为5。
2.2句法分析
句法分析中句法结构(主谓宾定状补)和依存结构(递进、转折、从属等)是目前研究最广泛的两类文法体系。句法分析确定语句中的“主谓宾定状补”等语法成分,并分析语法成分之间的关系,以此确定句法结构或词汇间依存关系。句法分析,可进行语义分析、语句倾向、答案抽取等,适用于复杂结构的较长语句,以及缺少大量标注样本的情况,目前以哈工大ltp、StanfordParser句法分析工具为代表。当前句法分析难度还很大,准确度为80%~90%。
3实验
3.1数据来源
本文数据是在健康管理系统开发过程中,于文献、医学期刊等搜集而来。由于所参与的国家基金研究方向为心血管疾病防控,因此数据以心内防控知识为主。其中,健康网站39健康网、中华康网、寻医问药网,拥有丰富内容与庞大用户。经过去重、清洗共获得551条数据,每条数据长度为5~200字,属于较短文本。
3.2分类依据
预防与管控的逻辑知识是指如何从收集到的健康知识出发,针对知识条目中的标的物进行方案的实施和操作。当然针对不同精确度的健康知识,所需要的标的物实施程度也不同。所以,在方案实施阶段,根据知识方案的量化性、可操作性,可将知识方案划分为三种类型:定性知识、定量知识、实施知识。根据每条知识所含元素的不同,可以将其划分为不同层级的知识管理方案。
3.2.1三种知识的作用划分
定性知识的作用主要是传递出标的评价,如某事物的正负情感(宜、不宜)给人在整体上的认知,如“控制饮酒”。该条知识就很明确地传递出对于“饮酒”是负向的情感倾向。其中,“饮酒”是动词+名词构成的宾语,“控制”是动词,构成了句子的谓语,整个句子为谓宾结构。
定量知识的标的在执行或者判断中所涉及的程度或者数量也进一步量化,以便给人更直观、具体的信息,如“每天不超过100g葡萄酒为宜”。该条知识就在控制饮酒的负向情感上进一步量化,给出了“不超过100g”的量化标准。
实施知识就是一个可以执行的方案,而定性知识只知道标的和情感,定量知识有标的、情感量化后的实施范围,但是缺少实施条件和实施顺序等。因此,在实施知识中实施条件(时间、地点等)和实施顺序(多并列语句)就需要加入帮助确定标的操作方法,如“空腹、睡觉前或感冒时,不宜饮酒。此外时间,控制饮酒,每日饮酒20~70g、每周饮酒5~7杯,以每天不超过100g葡萄酒为宜”。
3.2.2三种知识划分标准
定性知识:名词是标的,形容词、动词是核心,只有简单的定性判断,如“多吃、少吃、多喝”等。
定量知识:名词是标的,形容词、量词是核心,通过形容词进行定性、量词规范范围,如“每日/饮酒/20~70g,每天/吃/5~10g/干品黑木耳”。
实施知识:动词(如何实施)、并列语句(多条分句,实施次序)是核心,状语成分(时间、地点、先后顺序)是实施动作的说明,量词(实施范围)是精度补充,如“赤小豆/适量/,浸泡/半日【后】,【同】粳米/100克,煮粥。每日/1次”。
3.2.3三种知识辨析
首先,对其中一条知识进行关键词句抽取,可得:“速度:最好保持每分钟60~80米的速度;时间:每天坚持走路30~60分钟,并长期坚持;放松:运动后要让双脚彻底放松,可用热水热敷,并由下至上按摩双腿。”
其次,进行句法分析:“【速度】:最好/保持/每分钟60~80米的/速度/;【时间】:每天/坚持走路/30~60分钟/,【并】长期坚持;【放松】:运动后/要让双脚/彻底放松,可用/热水/热敷/,【并】由下至上/按摩/双腿。”
该知识具有多个并列的分句,其中还有表示并列、递进的语词,具有明显的实施顺序,进而整体上具有可操作性。同时,存在数量词,提供了实施的精度、范围,所以划分为实施知识。
3.3词向量搭建
文本通过jieba分词、去停用词等数据预处理,表示成为向量形式。然后通过向量的余弦相似度计算,抽取关键词、关键语句,以便对其有效信息进行句法分析。
余弦相似度计算公式:
simidarity=cos(A,B)=A·B‖A‖‖B‖=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2
其中,A和B表示文本中词语对应的词向量。
3.4句法分析分类
由3.2中划分标准可知,三种知识的划分需要从词性分析、句法分析两个方面出发。首先,根据无数量词“m”划分出来定性知识,在有量词的语句中,需要进一步分析句法结构和语义角色,即根据关键的语义角色如各个动作等,判断这些动作之间是否有并列语句关系“COO”进行划分。如角色之间有“COO”等并列、顺接等语句顺序关系,则说明是一套可以实施的动作方案。此外,加上对关键的语义角色/实体的句法结构进行分析,如都是同一类型ADV(状中结构)等,即划分到实施知识,反之则为定量知识。图3使用哈工大社会计算与信息检索研究中心研制的语言技术平台(LTP)绘制而成,该条知识中便存在“COO”等并列、顺承等语句关系,且“清洗”“加水”“火烧”等的语义角色均为动作A1、A2,与“梗米”形成了顺承的“动宾”句法结构。
算法1为句法分析分类算法。
输入:文本text
输出:分类class
ifm(量词符号)intext的分词词性列表:
class=定性知识
else:
class=定量知识
text句法分析抽取角色
forroleintext的关键角色列表:
ifrole_head(连接的前角色)intext的关键角色列表and两角色连接关系==‘COO’:
ifrole的尾节点角色intext的关键角色列表and两角色连接关系==‘COO’:
if角色的语义角色类似:
class=实施知识(语句具有顺承关系)
elifrole_head的尾节点intext的关键角色列表and两角色连接关系==‘COO’:
if角色的语义角色类似:
class=实施知识(语句具有并列关系)
else:
pass
整个实验流程如图4所示。
4结果与分析
4.1分类结果
以来源于文献、医学著作等权威性高的110条健康知识作为训练数据,以来源于健康网站的441条数据作为测试集。由前节可知,定性知识、量化知识到实施知识的划分门槛升高,因此所包含的数量也应逐渐减少。而从统计数据来看,定性知识、量化知识、实施知识分别有230、151、60条,各层级比例符合推测。
数据的分类已经过多人人工标注,以保证准确性,分类结果的混淆矩阵如表2所示。
本文参照使用精确率P、召回率R、F值来评价模型,结果如表3所示。计算得出的精确率均在86%以上,召回率也在71%以上,F值在78%以上,较高的F值说明搭建的模型具有良好的分类效果。尤其是定性知识、定量知识的分类具有85%及以上的精确率、召回率和F值,其分类效果显著。
精确率P=TP/(TP+FP)。TP表示将正类预测为正类的数目,FP表示将负类预测为正类即误报的数目。
召回率R=TP/(TP+FN)。TP表示将正类预测为正类的数目,FN表示将正类预测为负类即漏报的数目。
F=P×R×2/(P+R)。F综合了P和R的结果,F较高则说明实验方法比较有效。
4.2健康知识分类统计
通过上述划分系统,对现在已有的健康知识根据分类和来源网站进行划分,展示、对比如表4所示。在心内疾病方面,39健康网所拥有的健康防控知识最多,共计224条,能给使用者带来最丰富的管理方案;寻医问药网的实施知识占比最高,其心内疾病防控建议中多数为饮食菜谱等可以实施的详细方案,所以能给用户带来最可行的健康方案。
5分类结果实际应用
5.1健康知识关键词应用
在Word2Vec词向量搭建过程中,获得了每条知识的关键词,通过合并、去重、去除无关词,可以得到由几百条防控知识所构成的词库。在这个关键词库中,频数越高,代表该标的在心内防控上的可靠性越高。如表5出现的top10标的中,山楂、蜂蜜等作为频数较高的知识标的,多次出现代表其可靠性相对较高。
在CNKI中以“山楂”和“心血管”为关键词进行搜索,共有79篇文献在山楂对心血管疾病的防控作用上进行了探讨。在吴瞻邑等的文献中详细列出了山楂在治疗心血管疾病方面的进展,山楂提取物已被用于心血管健康的营养补救剂,可以改善动脉粥样硬化相关疾病。同理,以“维生素”和“心血管”为关键词,共搜到276篇相关文献。
因此,根据本文分词后的关键词分析,频次越高,相关的文獻研究越多,确定性越高,用户可以选择频次高的标的作为最值得准备的措施。同理,研究人员等可以选择频次较高、相关文献数量较少的标的作为研究方向,以发现标的防控心血管疾病的机制。
5.2健康知识分类应用
以同一标的串联的不同分类的健康知识为例,如表6所示,可清晰地看出来,实施知识能为用户提供最有效的信息、最清晰的方法指引。但是一方面,对于网站来说,健康知识录入时存在疏忽,对文本内容把控不严谨。另一方面,用户很难直接有效的判定出这三类知识。所以,本方法很好地根据文本句法结构分类,以便网站和用户清晰明白该方案知识是否可以实施。因为对于药物和标的来说,合适范围、条件方法才能使方案产生作用。
6总结与展望
本文针对繁杂的心内疾病健康知识提出了对其分类的现实需求,为人们提供在日常生活中进行防控的方案。在分类时,针对较短文本使用了Word2Vec词向量模型,并根据分类的现实意义提出了结合句法分析的算法模型。分类的精确率、召回率、F值均很高,为健康知识分类提供了良好的分类方法。
应用分类结果,可以对各个主流健康网站的健康知识进行分析,从而为人们挑选知识较多或者实施方案较多的网站提供了选择依据,也可作为该网站的一种评价机制。此外,在进行本文分类后,将算法结果应用到实际中。一方面,医生等研究人员可以根据健康知识的关键词库来选定有关心血管疾病与标的之间的作用作为研究方向,用户也可以选择高频词作为健康防控的关键入手。其次,针对前文中提出的用户在实际应用中遇到的问题,本文进行关键词句的抽取,能为用户提供最关键、有效的信息;对健康方案进行分类,能够很清晰地指引该方案是否可以具体实施、如何实施,以避免在不合适的用量范围内、不合适的操作方法下进行使用,从而大大提高健康知识的有效性。
当然,本文还存在研究拓展空间,如有的实施方案只是有效的经验或者建议,不存在实证性研究的基础。本文通过算法对知识进行有效分类,可以此为基础初步给出较为粗略的可靠性评判标准和方法,但如何鉴别实施知识的有效性、可靠性,及其医学原理是研究者可以关注的方向。
参考文献:
[1]国家心血管病中心.中国心血管病报告2018[R].北京:中国大百科全书出版社,2019:1.
[2]世界卫生组织.心血管疾病[EB/OL].https://www.who.int/topics/cardiovascular_diseases/zh,2020-02-28.
[3]李新蕊,陈惠.不同阶段高血压性脑卒中患者健康知识及行为水平分析[J].中国卫生工程学,2019,18(6):858-860.
[4]刘强.文本的特征提取及KNN分类优化问题研究[D].广州:华南理工大学,2009.
[5]丁世涛,卢军,洪鸿辉,等.基于SVM的文本多选择分类系统的设计与实现[J].计算机与数字工程,2020,48(1):147-152.
[6]KATZB,LINJ.Selectivelyusingrelationstoimproveprecisioninquestionanswering[C].ProceedingsoftheEACL-2003WorkshoponNaturalLanguageProcessingforQuestionAnswering,2003:43-50.
[7]徐明,彭玉华,马朝霞.利用网络资源发展健康教育初探[J].中国健康教育,2002(10):52-53.
[8]俞文敏,王杰,周宏宇,等.健康需求者对健康类网站的知识需求调查[J].护理学杂志,2009,24(9):86-87.
[9]刘萌萌,邓朝华.在线健康社区用户参与行为综述[J].医学信息学杂志,2018,39(11):15-19.
[10]吴江,李姗姗,周露莎,等.基于随机行动者模型的在线医疗社区用户关系网络动态演化研究[J].情报学报,2017,36(2):213-220.
[11]刘璇,汪林威,李嘉,等.在线健康社区中用户回帖行为影响机理研究[J].管理科学,2017,30(1):62-72.
[12]JONATHANBJ,BRYANNB.EvaluationofeHealthwebsitesforpatientswithchronickidneydisease[J].AmericanJournalofKidneyDiseases,2004(1).
[13]HINTONGE.Learningdistributedrepresentationsofconcepts[C]//Proceedingsoftheeighthannualconferenceofthecognitivesciencesociety.1986,1:12.
[14]YOSHUAB,REJEAND,PASCALV,etal.Aneuralprobabilisticlanguagemodel[J].JournalofMachineLearningResearch(JMLR),3:1137-1155,2003.
[15]MIKOLOVT,CHENK,CORRADOG,etal.Efficientestimationofwordrepresentationsinvectorspace[C]//ICLRWorkshop,2013.
[16]MIKOLOVT,SUTSKEVERI,CHENK,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//InternationalConferenceonNeuralInformationProcessingSystems.CurranAssociatesInc.2013:3111-3119.
[17]CHEWX,LIZH,LIUT.LTP:AChineseLanguageTechnologyPlatform.InProceedingsoftheColing2010:Demonstrations.2010.08,pp13-16,Beijing,China.
[18]吴瞻邑,由璐,刘素稳,等.山楂抗心血管系统疾病的研究进展[J].中国食物与营养,2019,25(4):67-71.
[19]FORDE,ADAMSJ,GRAVESN.Developmentofaneconomicmodeltoassessthecost-effectivenessofhawthornextractasanadjuncttreatmentforheartfailureinAustralia[J].BMJOpen,2012,2(5):e001094-e001094.
[20]KOCHE,MALEKF.Standardizedextractsfromhawthornleavesandflowersinthetreatmentofcardiovasculardisorders-preclinicalandclinicalstudies[J].PlantaMedica,2011,77(11):1123-1128.
收稿日期:2020-04-09
基金項目:国家自然科学基金资助项目“大数据驱动的全景式个性化心血管健康管理研究”(91646205);国家自然科学基金创新研究群体项目“运营与创新管理”(71421002);上海交通大学中央高校基本科研业务费资助项目“基于大数据的医患匹配及其和谐关系研究”(16JCCS08)
作者简介:赵艳斌(1991—),男,河北邯郸人,硕士研究生,主要从事健康数据挖掘、健康风险预测;张朋柱(通信作者),男,教授,博导,博士,研究方向为智能健康管理、大数据创新导航等,E-mial:pzzhang@sjtu.eu.cn。