谢秀芳 陈 挺 陈凌云 王 茜
(1首都医科大学医学人文学院医学信息学学系 北京 100069 2首都医科大学图书馆 北京 100069
3 中国科学院战略咨询研究院 北京 100190 4高诚生物医药(杭州)有限公司 杭州 311215
5 中国医学科学院/北京协和医学院医学信息研究所 北京 100020)
科技发展深刻影响着全球社会、经济和综合国力竞争,全球科技竞争已经成为各国博弈的焦点。面对国际单边主义和保护主义蔓延形势,唯有占据科技发展优势才能够掌握未来发展主动权[1]。科技战略情报研究应面向全球科技竞争态势和国家科技发展战略决策需求,提高战略定位、拓展情报来源、提升情报挖掘能力、创新服务模式,及时掌握竞争对手未来发展战略布局,准确预见科技未来发展趋势及可变影响因素,为制定符合国情的科技发展战略提供情报支撑服务[2]。
近10年来,脑科学已上升为世界各国科技战略布局重点,大量脑科学发展战略报告陆续发布。我国“十四五”规划将脑科学与类脑研究提升至国家战略发展层面,2021年9月科学技术部发布《科技创新2030重大项目“脑科学与类脑研究”》,标志着中国脑计划正式启动。世界各国脑科学发展战略报告是脑科学未来长期发展方向的指南针。及时高效获取这些战略情报,集成分析世界范围内有关脑科学未来发展趋势的战略信息,对预判该领域长期发展趋势并制定符合国情的发展规划具有重要战略意义。
国内外专家学者针对国际著名的脑计划进行不同角度的分析解读[3-6]。例如中国神经科学学会“神经科学方向预测及技术路线图研究”项目组[7]通过梳理全球主要国家和地区脑科学战略布局,开展脑科学发展态势及技术预见相关工作;王东辉等[8]在总结欧、美、日脑计划研究进展的基础上,重点分析中国脑计划前期布局及其优势;韩雪等[9]对欧、美、日、韩在脑科学领域的战略布局进行梳理,分析中国在该领域面临的机遇和挑战;张学博等[10]系统总结全球主要国家脑计划研究进展态势和调整变化,展望神经科学和类脑人工智能未来发展趋势及潜在影响。这些研究成果和专家建议促进了中国近年脑计划和脑科学的快速发展。
以往针对战略报告的情报研究,多是对少量报告进行总结对比分析,缺少对大量报告的文本挖掘和集成分析研究。战略报告数量多、体量大,属于情报密集型资料,完全依靠专家解读分析不仅耗时耗力且难以整合。若将全球范围内发布的大量战略报告,从多个维度解构为各类情报知识元,形成可集成、可比较、可筛选的战略信息库,实现世界范围内、不同时间尺度和维度的战略情报集成对比分析,不仅可以提高情报分析效率,还可以全面把握该领域未来发展趋势。因此,本研究探索基于战略报告文本挖掘的趋势预见方法,从战略规划视角构建趋势预见研究方案,对脑科学未来不同时期的发展趋势进行前瞻预测,为中国脑科学战略规划、产业发展及服务建设提供战略情报服务。
2.1.1 研究方法 针对未来发展趋势预见研究目标,应从战略报告中挖掘有关发展趋势的情报内容。本研究利用前期针对科技路线图的文本挖掘方法研究思路与经验[11-13],采用文本分类方式获取目标信息,即构建统一战略情报知识元分类体系,根据分类体系对战略报告进行全文本解析和语义分类,进而根据语义类别筛选目标信息,实现针对战略报告的文本挖掘和目标信息抽取。
2.1.2 研究重点 通过梳理战略报告中反映趋势的内容描述,从发展方向、发展趋势及发展前景3方面展开趋势预见研究。(1)发展方向。世界各国的科技发展战略布局即各国科技未来长期发展导向,集成分析世界各国科技发展战略主题可以掌握领域未来总体发展方向。(2)发展趋势。世界各国为了实现科技发展战略目标,一般会从医疗、科学、技术、政策、经济、社会等各战略层面制定不同发展阶段的愿景、目标、方向,反映发布主体的预设发展目标,挖掘并集成分析这些信息可以预见领域未来发展趋势。(3)发展前景。科技战略规划过程中通常会全面分析发展机遇、挑战、驱动、阻碍等可能影响未来发展趋势的可变因素,整合分析世界各国科技发展战略中的这些可变因素信息可以揭示领域未来发展前景。
2.1.3 基于科技路线图文本挖掘的趋势预见方案(图1)
图1 基于战略规划文本挖掘的趋势预见研究方案
本研究以全球39个国家/地区的101个机构发布的204份脑科学相关战略报告为情报分析数据源,见表1。
表1 数据源概况
综合利用深度学习、自然语言处理等技术完成战略报告的文本预处理、分类、信息抽取、集成分析等文本挖掘工作,构建全球脑战略信息库。基于该信息库从战略规划视角对未来不同时期的发展趋势进行预见研判。
2.3.1 文本解析 利用pdfminer对报告进行预处理,提取每个报告的题名、发布机构、发布时间等元数据信息以及题名核心关键词作为报告主题,形成脑科学战略报告基本信息表Data-Baseinfo,并利用正则表达式将文本内容清洗、切分为仅包含句子及其位置信息的纯文本语料。
2.3.2 语义分类 深入分析和解构脑科学领域战略报告内容组织特征,综合战略技术路线图绘制要素[14]和脑科学领域特点,构建脑科学战略情报知识元分类体系,见图2。将分类体系作为文本分类的三维语义标签,采用基于RoBERTa深度学习算法Ask2Transformers实现报告句级文本的语义分类,预训练模型选择在无监督学习语义识别任务中具有出色性能且在不同领域中表现出良好鲁棒性的roberta-large-mnli模型[15]。句子语义分类结果形成由句子编号、句子内容及其三维语义信息构成的句子分类信息表Data_Sentence。
图2 脑科学战略情报知识元分类体系
2.3.3 信息抽取 采用深度学习算法KeyBERT[16]提取报告句级文本中的关键词短语,该算法可以生成高质量反映文档内容的关键词或短语[17]。然后对抽取结果统计每个关键词的文档内词频和文档频次,并结合其所在的句子编码及其位置赋予每个关键词权重。
然后利用自然语言处理工具包Stanford CoreNLP[18]识别报告中的所有时间词,并对时间词抽取结果进行适当清洗,不存在时间词的句子向前继承所在段落内的邻近时间信息,未能继承到时间信息的句子赋予报告发表时间或规划时间,算法思想可参考前期研究成果[13],最终形成时间信息表Data_Time。
2.3.4 信息集成 利用文件编号和句子编号集成已获取的报告基本信息、句子信息、关键词信息和时间信息,形成全球脑科学战略信息库,见图3。
图3 全球脑科学战略信息库结构
2.3.5 趋势预见 (1)发展方向分析。按规划时间范围,统计战略报告的主题及其包含的报告数量,绘制全球脑科学发展战略布局主题分布,从宏观层面了解全球脑科学未来发展方向。(2)发展趋势分析。筛选脑科学战略信息库中分类1属于“愿景”、分类2属于“目标”和“趋势”的关键词,并导出其关联句子信息,依据分类3从医疗、科学、技术、政策、经济、社会、伦理、合作8个战略方面,深入解读全球脑科学发展战略在2025—2030年(近期)、2031—2040年(中期)、2041—2050年(远期)3个时段的愿景规划信息,从而分析预见该领域在未来不同时期的发展趋势。(3)发展前景分析。筛选信息库中分类2属于“机遇”“挑战”“驱动”“阻碍”的关键词及其关联句子信息进行整合分析,研判可能影响领域未来发展的各类因素。
图4 全球脑科学相关战略报告主题分布
分析脑科学相关战略报告主题,按规划区间综合呈现主题分布情况,反映全球在该领域的战略发展方向,主题标签越大代表该主题方向关联的战略报告数量越多。
基于全球脑科学战略信息库,从医疗、科学、技术、政策、经济、社会等8个战略层面前瞻预测全球脑科学近期、中期、远期发展趋势。
3.2.1 近期发展趋势 (1)医疗层面。重点关注痴呆症、多发性硬化症、精神疾病等重大脑疾病的早期预防干预、诊断治疗及临床医疗大数据建设,包括早期诊断、预防保健、动物模型、诊疗方法、药物研发、精准医疗、再生医疗等方面。(2)科学层面。关注脑认知、脑健康、脑功能等基础神经科学和神经生物学领域研究。如脑认知功能、神经形态计算、脑结构、脑发育、脑活动模拟研究,基于脑成像、神经网络的神经元形态、结构、功能网络等基础神经科学研究,基于脑细胞类型、基因等神经生物学研究,提高脑功能认知和修复水平。(3)技术层面。研发支撑脑疾病研究、诊断、干预等方面技术,如脑科学大数据采集、存储、管理、共享、质控等数据密集型研究基础技术/平台/工具,大数据分析、人工智能、机器学习、高性能计算等信息/计算技术,以及3D打印、先进制造技术、非侵入性脑深部刺激术、成像技术、智能机器人等诊断工具技术。(4)政策层面。聚焦脑科学创新生态体系建设,包括对脑科学领域的优先资助、公共支出、行动规划等公共政策供给,持续性科创政策、数据共享举措、科研数据使用等脑科学领域科技创新政策供给,科研/科教基础设施、复合型专业人才教育培训等科创能力建设。(5)经济层面。关注脑科学发展经济体系建设,在全球经济增速放缓背景下,持续关注重大脑疾病护理产生的社会经济负担,降低成本,培育新兴产业供应链、高新技术劳动力、资本等产业要素。(6)社会层面。关注脑健康发展的社会环境,如人口老龄化及心理健康服务需求,通过高等教育加大卫生人力资源培养与供给,依托健康专家、专业卫生人员、社会科学专家等专业力量,利用健康护理/健康生活方式宣传、社会关怀、公共卫生资源供给等提升公众健康意识,促进脑健康社会发展。(7)伦理层面。从理论和实践层面关注脑科学研究、神经技术应用中的伦理风险问题监管。例如脑科学研究所需进行的伦理考虑、理应遵守的伦理道德和原则,对其成果应用可能带来的伦理风险和伦理安全进行监督审查和科学管理,形成涵盖人类研究伦理、动物研究伦理在内的神经伦理学体系。(8)合作层面。在脑科学基础研究领域构建科研创新共同体,搭建研究参与者、科研团队、研究同行等利益相关者合作平台,倡导开放科学,促进科学交流;协调研究基础设施、项目资助、最佳伦理实践、数据共享等方面的国际合作,促进全球行动计划、共同目标和国际统一标准制定。
3.2.2 中期发展趋势 (1)医疗层面。在神经系统病变引起的重大脑疾病及相关慢性病的预防、诊断、治疗及护理方面取得进步。例如重大脑疾病的有效早期预防手段,针对脑疾病的微创手术、仿生器官移植、干细胞疗法、新药研发等干预治疗方法的临床实验研究和转化应用,提供重大脑疾病护理服务。(2)科学层面。利用神经成像、神经编码等创新神经技术对神经退行性疾病发病机制和发展进程的认知将更加深入,利用脑成像、脑模型、神经刺激装置等研究方法进一步深化神经元、细胞、基因等不同尺度的脑功能、脑发育认知水平,推动脑科学研究成果在脑机接口、人工神经等脑机智能技术、计算神经科学等方面的转化应用。(3)技术层面。关注脑疾病干预治疗、类脑计算、脑机智能等领域技术突破。具体包括生物电子医学技术、磁共振成像技术、诊断工具、干细胞治疗、正电子发射断层显像术等重大脑疾病诊断治疗技术,人工智能、机器学习、神经计算、智能机器人系统等类脑计算技术,脑机接口、神经信号传输、人工神经等脑机智能技术。(4)政策层面。进行脑科学优先发展方向研究布局,加强脑疾病风险因素管控,创新科技成果转化机制。(5)经济层面。脑健康相关产业高质量快速发展,加强影响脑健康的消费品市场管理,提高国内研发支出总额在国内生产总值中的占比,增加对脑疾病干预治疗方法的研究投入。(6)社会层面。加强脑健康社会决定因素治理,通过公共教育、公众意识培养、社会公共卫生服务、营养研究、预防研究、健康护理培训、护理设施建设等多种方式,全方位营造脑健康社会环境。(7)伦理层面。严格治理神经科技应用于神经疾病治疗及其之外的伦理问题,如将神经科技应用于神经疾病治疗面临的患者隐私、意识引导、健康风险等伦理问题监督审查,应用于消费市场、社会营销等领域带来的歧视偏见、公平参与、社会不平等风险管控。完善神经科技应用层面的伦理监管机制,如制定国家级伦理认证、最佳伦理标准等。(8)合作层面。在脑疾病认知诊疗、风险干预、照护支持、社会关怀等方面寻求最广泛的合作。如通过科学基地、项目资助、知识共享、人才资源、同行支持、团队资助等方式开展国际合作;在人类营养研究、暴露环境治理、极端气候事件、烟酒控制等健康风险控制方面展开社会全面合作以提高预防卫生效果;通过医疗保险、社区参与、家庭互助、照护者支持等多元合作方式建成脑健康护理支持体系和多方参与的社会关怀体系。
3.2.3 远期发展趋势 (1)医疗层面。提高神经系统病变引起的脑疾病及慢性病的早期诊断、医疗护理、保健服务水平。例如提供依托家庭-疗养院-医疗机构等载体的多元化照护方式,提高脑疾病患者生活质量。(2)科学层面。突破神经退行性疾病、脑功能异常、神经系统紊乱等神经系统疾病诊疗和创伤性脑损伤修复。例如基于认知神经科学和神经技术研究,聚焦脑结构、脑组织、脑功能、神经网络、脑模拟等脑认知方向,推动神经生物科学、再生医学等领域基础研究和临床试验成果转化应用。(3)技术层面。支撑脑疾病研究、预防、治疗、护理等方面的智能技术发展相对成熟,能够满足覆盖全生命周期的脑健康风险识别评估、脑重大疾病早期诊断干预、新药研发与制药以及远程医疗护理需求,助力智慧医疗、个性化医疗水平提升。(4)政策层面。从社会公共服务、专业队伍建设、医疗保健系统和国家护理标准等方面出台促进护理产业发展的制度保障,依托国家健康计划,消除健康差异和治疗差距,促进全民脑健康发展。(5)经济层面。针对脑疾病社会照护的经济负担和社会需求,从税收、财政预算、医疗保险等方面加大对长期照护的支持力度,提升社会护理专业人员的平均工资和收入水平,促进专业护理人力资源发展,优化脑健康产业商业环境,拓展市场规模,降低照护成本,提供可负担、可持续的优质照护服务。(6)社会层面。关注脑疾病照护服务和公共卫生服务体系建设,例如提供长期照护、非正式照护、日间照护等多种类型照护服务,通过社会媒体、社区服务、公众参与等形式,促进脑健康社会环境形成,公众脑健康意识提升。(7)伦理层面。建设基于法律制度-伦理标准-道德规范的伦理治理体系。例如在脑科学研究与应用过程发挥研究伦理委员会、生物伦理审查机构的监督审查作用,重视脑科学领域主要利益相关者的神经伦理学教育培训,注重神经伦理学科建设和人才培养等。(8)合作层面。倡导开放科学,在研究重点难点、研究基础设施、证据基础、数据共享、最佳实践等方面展开国际合作;建立涵盖社区照护、疗养院照护、非正式照护等多方合作的长期照护体系,从社区建设、医疗保险服务、公共卫生、社会媒体、公众参与等多方面协同共建脑疾病友好型社会。
基于脑科学战略报告中2025—2030年、2031—2040年、2041—2050年3个时期有关发展机遇、挑战、驱动和阻碍的重点关键词,结合其所在句子信息从发展机遇、问题挑战、发展动力和发展阻力4个方面深入分析可能影响脑科学近期、中期、远期发展趋势的因素。
3.3.1 发展机遇 (1)2025—2030年。人脑研究、神经伦理学、基础神经科学、人类细胞生物学等脑科学相关研究领域,健康医疗大数据、机器学习、人工智能等数据科学技术,知识经济驱动的技术创新、劳动力发展等,都将迎来快速发展机遇,推动开放式科学研究、经济增长与就业发展以及痴呆症友好型社会发展。(2)2031—2040年。面对促进脑健康、延长寿命、改善人口营养健康状态等社会需求,在脑健康、生物医学研究、人类营养研究等领域蕴藏着科研发展机遇,政产学研等资金主体通过财政激励、风险资本、金融服务等方式加大对生命科学、生物材料、健康食品等领域投资,提供大量专业教育、培训、就业和商业机会。(3)2041—2050年。面对全民脑健康、长期照护等老龄化社会需求趋势,将推动更多研究资源投向脑疾病治疗方案、药物研究、健康研究及颠覆性创新方向,神经生物学、神经信息学、数字人文等交叉学科拥有广阔发展空间,新型神经技术、创意产业在全球市场特别是中等收入国家将拥有更多商业机会,也意味着专业卫生人才将拥有更多培训、教育和职业发展机会。
3.3.2 问题挑战 (1)2025—2030年。脑科学发展面临的挑战主要包括痴呆症护理与心理健康压力带来的社会挑战,动物模型、人脑研究、人工智能发展中的神经伦理学问题,健康大数据基础设施建设中的信息采集/管理/共享、患者人权、隐私保护等难题,受全球政治、经济、环境变化影响的国际合作、开放科学、持续性研究支持等挑战。(2)2031—2040年。脑科学发展面临的挑战主要包括脑研究与生物医学研究中的科研诚信与伦理挑战,心理健康压力、不健康生活方式、营养不足/营养过剩、传染性疾病、慢性病等脑健康威胁,人工智能、类脑智能等颠覆性技术研发、临床转化及商业化挑战,以及医疗保健服务、治疗水平差距、营养健康食品等健康公平问题。(3)2041—2050年。脑科学发展将要面对老龄化社会带来的各种挑战,例如神经退行性疾病患者的健康护理、长期照护、姑息治疗等需求增加,对患者管理、人力资源、基础设施、公共卫生系统、社会护理系统、公共卫生政策等都将构成挑战。
3.3.3 发展动力 (1)2025—2030年。促进脑科学发展的驱动因素主要有深度学习、高性能计算、信息和通信技术、数字化使能技术、医学成像技术等人工智能和医疗诊断技术的发展,支撑脑科学研究的基础设施和技术平台建设,推动脑科学发展的政策支持,开放科研创新环境,以及促进脑健康的高等教育和公众教育发展。(2)2031—2040年。促进脑科学发展的驱动因素主要有神经科学、饮食行为健康、营养研究等脑健康相关的科学研究发展,健康大数据、开放科学数据、移动健康管理系统、电子健康管理系统等支撑脑科学研究的基础设施与脑成像、人工智能技术、3D打印、使能技术、正电子发射断层显像术等创新技术发展,以及工作环境健康、健康饮食推广、预防保健、营养食品供应等促进脑健康的社会环境。(3)2041—2050年。促进脑科学发展的驱动因素主要有支撑脑科学发展的人工智能系统、健康信息平台等信息化、智能化基础设施建设,支持神经系统疾病的早期诊断、健康护理、最佳实践等脑科学国际研究合作与共享,促进健康公平的公共卫生服务框架、社会关怀、优先事项、指导原则等可持续发展卫生政策,以及医护人员收入、专业护理人员培训、公众脑健康认识等社会水平提升。
3.3.4 发展阻力 (1)2025—2030年。限制脑科学发展的阻力主要是数据保护政策、数据访问和利用限制等脑科学研究数据基础设施限制,技术成熟度、专利限制、转化成本等技术限制,以及神经伦理学原则、隐私保护、最高伦理标准、社会偏见等伦理考虑限制。(2)2031—2040年。制约脑科学发展的因素主要有食品安全、烟草制品销售、酒类促销、药物滥用等脑健康风险,财政预算、医疗费用、资源限制、技术应用成本等经济制约,基础设施、公共安全、卫生人力资源、地方医疗水平等社会公共服务差距。(3)2041—2050年。阻碍脑科学发展的因素主要是人口老龄化加剧带来的经济负担与照护压力,例如严重痴呆症、慢性病发病率提高带来的人力资源、照护压力、心理健康困扰、睡眠障碍等社会健康负担,经济增长极限带来商业竞争加剧和成本控制压力,以及临床应用、市场准入、政治/社会障碍、保护性因素等脑科学相关产业发展障碍。
研究构建基于战略报告文本挖掘的趋势预见方案,以脑科学领域为例进行实证研究,利用多种深度学习方法对全球已发布的脑科学相关战略报告进行全文本分析、解构和情报知识元分类,构建全球脑科学战略信息库,并从战略规划视角对脑科学未来发展趋势展开多维度前瞻预测研究。在中国脑计划正式启动、脑科学研究纳入国家战略发展之际,本研究结果有助于决策者把握全球脑科学长期发展趋势,并针对未来不同时期的潜在发展机遇与挑战、发展阻力与动力等可能影响脑科学发展的可变因素,制定有效应对计划和预案,从而保障中国脑科学发展计划顺利实施。
研究结果表明,本研究方案设计切实可行,多种深度学习算法的融入大幅提升了非结构化文本挖掘和信息提取的效率和自动化程度,减少了人工干预。本研究设计的趋势预见方案及实现方法体系具有一定普适性和扩展性,独立于领域知识,可根据不同需求适当调整分类体系应用于其他领域的战略情报获取、发展趋势预见等前瞻性研究。