甘之草基于大数据的人工智能开方系统软件

2021-11-18 14:58潘建中杨帆许遵钦
科学与生活 2021年20期
关键词:人工智能大数据

潘建中 杨帆 许遵钦

摘要:随着大数据和人工智能技术的发展,通过中医基础古典文献、医学指南共识、临床经典病案等探索挖掘中医知识图谱,探索中医智能知识体系。建立自我学习,自我修正,深度学习的诊断模型,提供个体化治末病解决方案,探索智能中医辅助诊断,打造智慧超级中医。通过数字化手段构建“望闻问切”的新型中医数字化人工智能开方系统

关键词:大数据 人工智能 开方系统

一、研究背景

经过近二十年的发展,中医药行业仍处于成长初期,互联网+助推了中医药市场的快速发展,目前市场基本形成三大阵营体系:传统中医药企业、互联网中医药企业、第三方中医药企业,第三方企业依托传统企业的产品和服务,传统企业利用第三方企业的渠道发展业务,两者之间形成了紧密的联系,互联网中医药同样与传统中医药存在着这种合作关系。所以合作与发展是当下行业的态势。

当前国家政策大力支持,国务院《中医药发展战略规划纲要(2016—2030年)》

国家中医药管理局《中共中央国务院关于促进中医药传承创新发展的意见》提出出明确的目标和规划。

其次,公司具有明确的业务需求,需要以优秀的方案解决问题。公司业务和国家要求密切相关,希望能为中医药未来发展、公司未来战略规划做出贡献。

二、行业现状

目前中医互联网企业中,有以下几类智能开方系統:

比较简单的智能开方系统其实是利用搜索引擎技术,在收集大量的病情以及诊断的基础上,进行病情匹配,将匹配成功的诊断返回。这个过程看起来就像智能开方一样,表面看给个病情就能给出诊断,而实际上只是找到答案。

进阶一点的智能开方系统,通过图像识别与自然语言处理(这两项技术依然使用大数据技术实现),进行相似性匹配。相似的病情即使有文字表述不同,症状差异,也不影响实质性诊断,依然可以开方。

高阶的智能开方系统,利用神经网络机器学习技术,将病人的描述和问诊单的自然语言描述转化成形式语言,然后分析知识点和开方策略,进行自动推导,从而完成实质性的开方。

三、主要研究内容

1.项目内容及实施路径

1、形成“诊前、诊中、诊后”完整的闭环服务体系。

2、完善“诊前”、“诊后”服务体系,从监测到指导到康复提供全程健康服务。

3、促进支付在线上线下的全场景化,进一步便捷化“诊中”就医过程。

2、产品方案

通过不同终端,定位目标人群,提供相关中医咨询、问诊服务,可与医生进行讨论交流。系统根据用户提供的信息进行智能诊断。而经典书方药,病历,特别是专家写的病历,利用大数据技术将这些知识进行处理、分析、统计、 挖掘,可以构成一个病历知识库,可以帮助给更多人,这一些功能,共同组成一个智能辅助诊疗系统。

3、产品技术架构

1、系统总体架构设计

大数据人工智能开方系统以通过中医基础古典文献、医学指南共识、临床经典病案等探索挖掘中医知识图谱,通过知识匹配搜索引擎,引导患者自诊,也可以帮助医生诊疗。

具体架构图如下所示:

2、技术特点

① 分布式文件系统 HDFS

HDFS为了做到可以保证数据的可靠性。1。任何一个节点失效,不影响 HDFS 服务 2。HDFS 可以自动完成副本的复制。具体实现是通过Datanode坏掉的磁盘上的数据尽快通知 NameNode,Datanode 每3秒钟向 NameNode 发送心跳,如果 NameNode 认为该 DataNode 已经 dead,NameNode 将取 出该 DataNode 上对应的 block,对其进行复制。持久化元数据来实现。所有的数据至少存储3份,满足 CAP原则并且可以支持移动计算,保证的处理的速度。

② 大数据计算引擎 Spark

主要的功能是把患者提交的症状,问诊单的答案和与医生聊天过程中产生的聊天数据分割成多个计算阶段,这些计算阶段组成一个有向无环图DAG,使用任务调度器根据 DAG的依赖关系执行计算阶段。实现的功能有2个:一个是提取特征数据,然后对数据进行取映射,然后进行计算。第二个是通过 Shuffle 将数据进行重新组合,相同症状,描述的数据放在一起,进行聚合,关联等操作。通过不断的移动计算,得到需要分析文本的特征向量。

在实现持久化存储的时候,对数据进行指定的分发。

③ 使用感知机训练样本制作

感知机是一种比较简单的二分类模型,感知机算法在疾病诊断中,将不同的数据分为2类,公式如下

自动感知机是一种自监督学习BP神经网络,它通过建立一个恒等函数,使输出尽可能复现原始输入,即通过“编码”过程学习原始数据在隐空间内的表示,再通过“解码”过程由数据在隐空间中的表示尽可能重构原始数据。最后计算特征空间向量,根据权值向量和偏置,输出空间向量。

在训练开方过程中,如何识别出最可能的疾病诊断,从而增加准确度,降低医疗的风险? 我们通常对于给定的一个用户病历问卷,计算得出每个问卷问题所产生的综合空间向量,最后把空间距离最近的诊断,作为优选结果。对于高风险的疾病或者高风险的用户(如孕妇),要求其提供更多信息、甚至向医生提供预警。事实上,中医行业已经沉淀了大量的历史病历数据,利用这些数据进行计算,可以得到用户特征。当新用户来就诊的时候,将该用户病历问卷特征带入曲线进行计算,就可以得到该用户的特征指数,进而自动给出该用户的诊断。

④ 机器学习与神经网络算法

精选的专家病历主要依靠浙江省中医药大学提供的已经被标记好的病历集再结合甘草医生线上重点医生提供的经典病历,经典的书方药采用甘草学院线上数据库,这一部分数据也已经被标记完善。上面的这部分数据,作为样本。然后我们采用 K-means分类算法,计算需要分析的数据和样本之间的距离,对距离进行排序,取最近前若干个样本,统计样本类别,统计得到的最多类别,为待分类数据的类别。距离算法采用欧氏距离计算公式,而提取文本的特征值采用TF-IDF算法,

神经网络中,我们采用了多层感知机,最后一层感知机,则根据疾病诊断结果,建立相对应数量的感知机,最后得到的结果如果不符合要求,就不断地调整感知机的层级和数量,直到可以得到相对准确的诊断为止。

最有了有诊断后,根据诊断就可以参考经典方中的药方或者专家给的药方,根据患者实际情况如年龄,性别,怀孕等给患者开方。

四、小结

本公司通过对国内外现有的人工智能开方系统的研究和分析,运用HDFS,SPARK,HIVE,人工智能神经网络等前沿技术结合中医开方诊断的实际需要集成了中医知识图谱,科研文献,病历,药材等数据,最终开发出一个自动化、智能化、人性化的稳定可靠的基于大数据的人工智能开方系统,对提高中医的现代化水平,提高互联网中医的人工智能化水平,帮助医生分析开方记录,预测医生开方,辅助医生开方具有重要意义。

参考文献

[1]云计算环境下分布式语义文本自适应分类方法[J]. 王刚,杨波,杨明杰. 科学技术与工程. 2018(07)

[2]基于大数据技术的用户行为分析平台的设计与实现[J]. 吴荣灿. 电脑知识与技术. 2021(04)

[3]统计学方法的发展及其在大数据中的应用[J]. 游士兵. 统计与决策. 2020(04)

[4]支持新型冠状病毒肺炎的中医智能处方推荐和知识库系统[J]. 王斌. 中国数字医学. 2020(05)

[5]大数据时代背景下人工智能在计算机网络技术中的应用浅谈[J]. 冯存生. 电脑知识与技术. 2020(12)

[6]人工智能技术在医疗健康领域的应用[J]. 朱寿华. 电子技术与软件工程. 2020(01)

[7]基于TF-IDF和余弦相似度的文本分类方法[J]. 武永亮,赵书良,李长镜,魏娜娣,王子晏. 中文信息学报. 2017(05)

[8]结合邻域相关影像与最大相关性最小冗余性特征选择的面向对象变化检测[J]. 邹利东,潘耀忠,朱文泉,周公器,李宜展. 中国图象图形学报. 2014(01)

猜你喜欢
人工智能大数据
人工智能之父
2019:人工智能
人工智能与就业
数读人工智能
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
下一幕,人工智能!
下一幕,人工智能!
数据+舆情:南方报业创新转型提高服务能力的探索