李琳娜 刘志辉 陆泉
(1.中国科学技术信息研究所,北京,100038;2.富媒体数字出版内容组织与知识服务重点实验室,北京,100038;3.武汉大学信息管理学院,武汉,430072)
在国内国际双循环相互促进的新发展格局下,科技创新成为我国经济发展的新动能,对于推动我国经济结构转型升级和高质量发展至关重要,也为科技情报和知识服务发展提供了新的发展机遇。如何从浩如烟海的大量文献、资料和数据中自动地获取知识,有效地组织知识和高效地应用知识,服务国家重大科技研发需求,解决生产实践中的实际问题,是当前最重要的挑战之一。
2021年12月2日上午,第六届知识服务与情报工程学术交流会暨2021年中国科学技术情报学会知识组织专业委员会年会以线上、线下相结合的方式隆重开幕。本次会议主题是“数智赋能与知识服务”,由中国科学技术情报学会知识组织专业委员会主办,中国科学技术信息研究所、武汉大学联合承办,中国工程科技知识中心、上海市研发公共服务平台管理中心、湖北省科技信息研究院、武汉科技大学、山东出版数字融合产业研究院、富媒体数字出版内容组织与知识服务重点实验室、融合出版内容传播创新应用重点实验室及《情报工程》编辑部等联合协办。上午的开幕式由武汉大学信息管理学院陆伟院长主持,武汉大学研究生院陈传夫院长、中国科学技术信息研究所赵志耘所长、中国工程科技知识中心傅智杰主任致辞。陈传夫院长指出大数据正在成为信息时代的核心战略资源,大数据为知识工程积累了海量的数据资源,从而需要利用知识工程发挥大数据的价值,使数据应用于实践、造福于人类,实现对大数据的洞察,为决策提供支持,深度利用大数据实现知识服务。大数据理论与技术正在成为情报科学研究的重要支撑,情报研究成果又反过来推动大数据等相关学科领域的创新发展。知识服务与情报工程领域的技术突破和应用,必将对我国国民经济与社会发展做出新的贡献。赵志耘所长首先代表中国科学技术信息研究所感谢大家一直以来对中信所在知识服务和情报工程相关的研究领域和业务工作上的支持和帮助,随后指出无论从全社会对知识服务的渴求还是针对加快科技自立自强这一现实需求,对于知识服务和情报工程的学术交流都是恰逢其时。知识服务和情报工程是有理论发展潜力和业务需求的研究领域,需要大家共同去探讨、研究和开拓。傅智杰主任在致辞中介绍了中国工程科技知识中心的建设目标是融合不同领域的科学数据,实现数据资源的打通,为科研人员提供知识服务。
会议邀请三位专家做主旨报告,分别是军事科学院军事科学信息研究中心主任耿国桐研究员、中国科学院文献情报中心副主任张智雄研究员和北京大学未来技术学院咨询顾问孙卫高级工程师。中国科学技术信息研究所情报理论与方法研究中心主任刘志辉研究员担任主持人。
耿国桐研究员首先从当前情报研究所面对的环境,情报研究智能化的内涵、主要任务及途径等方面介绍了其对情报研究智能化的认识。大数据技术虽然极大地拓展了情报数据来源,但也使情报分析人员在一定程度上陷入到数据海洋中。2021年三月份美国人工智能国家安全委员会在一个报告中提出:“情报界应该尽可能地利用和集成人工智能”[1]。所以,对科技情报研究而言,智能化是出路也是生路。情报研究智能化主要包括三个方面:第一方面是智能化已经深入到情报研究的需求分析、数据挖掘、综合研判及服务反馈四个阶段中;第二个方面是情报研究范式要转向“数据+智能+专家”深度融合的新范式;第三个方面是大数据、人工智能技术重塑科技情报研究工作生态。情报研究智能化主要有动向报告、基本描述和预测评估三个方面的任务。情报研究智能化途径有:构建高质量情报数据空间、加强情报业务的流程化建模和搭建人机协同的情报生产线。
耿研究员随后介绍了其研究团队在情报研究智能化方面的实践探索,即国防科技情报研究工具箱的开发和运用。国防科技情报研究工具箱构建主要分为三个层次:第一个层次是在互联网信息、专业数据库等信息源的基础之上通过标签化、碎片化建立关联网络,形成大数据资源池;第二个层次是包含基本情况库、知识图谱和其他数据库的情报对象库;第三个层次是在情报对象库基础上通过嵌入和迭代优化实现基本情报分析业务的嵌入和情报智能分析技术的开发。
耿研究员最后谈到其对情报研究智能化的几点体会。第一,在理念上要从“让我用”向“我要用”转变,情报研究人员要积极拥抱大数据、智能化技术,主动识变、求变;第二,在定位上要从替代向嵌入转变,科技情报智能化绝不是用工具来替代人,而是将人从繁琐的低水平工作中解放出来,将智能化技术手段全面嵌入到科技情报业务流程中;第三,产学研多方协作共同推进情报研究智能化转变。
张智雄研究员主要从文献中的科研实体及其作用、通用科研实体类型及其模型、科研实体识别和基于科研实体识别将科学引文数据库转为领域画像库四个方面介绍了其研究团队在科技情报挖掘方面的研究成果[2-3]。
科技文献主要有句子层面的语步识别和词语层面的命名实体识别两种语义标注方式。语步识别可以很好地表述单篇文献的研究背景、研究目的等重要句子,但是无法直接应用于科技文献集的统计和计算,从而不能有效反映领域的研究情况。词语层面的命名实体识别直接得到可以统计和计算的短语,不仅能直接表述单篇文献的主要内容点,也可以通过共现统计等进一步对领域进行描述。
科技文献实体能够揭示文献的研究内容、研究过程和研究价值,实现科技文献的语义丰富化处理,进而促进基于科技文献挖掘的知识服务、情报分析研究等。科研实体主要包括研究问题、方法模型、数据资料、理论原理、仪器设备等。张研究员团队通过调研国内外科研实体的研究成果和数据集,发现这些研究存在实体类型与领域相关、类别体系不够完整两个问题,进而提出了通用科研实体的概念。一篇科技文献的通用科研实体主要包括研究问题、方法模型、度量指标、数据资料、科学家、理论原理、仪器设备、软件系统和研究地点九个类型。针对科研实体识别缺乏标注语料的问题,提出了基于半监督迭代学习方法构建语料,所提方法仅依赖于少量准确的标注语料进行初始训练,通过在大量无标注数据上预测得到伪标签,不断迭代扩充训练集,提升模型性能。张研究员团队利用研发的中文科研实体识别引擎在中国科学引文数据库中的二百五十多万条摘要数据上进行预测,得到了三千多万个科研实体,从而将中国科学引文数据库转为一个领域研究描述画像库,进而从科研实体的角度多维度、细粒度地对研究领域进行刻绘,辅助科研人员快速了解领域动态。
孙卫高级工程师首先回顾了科学研究范式的发展过程,随后就科技情报研究领域第四范式的背景及挑战做了详细报告。针对情报研究领域,传统的科技文献数字化、网络化已经实现,大部分科学数据共享也已经实现,但是这两者之间目前是孤立的,相互之间的关系是靠专家智慧去挖掘,传统软件未解决二者之间的互操作、互嵌入及融合的问题。第四范式需要解决科学数据与数字图书馆资源的检索、调用,又要融合、分析并产生新的研究结果。这就需要为科学家提供全新的工具,才能实现数据密集型的互操作、解决互相融合的边界问题。构建这些新的软件工具面临的主要挑战包括:需求模式的确定,数据的多模态、跨尺度问题,在保护隐私及规范下的科学数据的共享问题,算法和算力之间的平衡问题,算法的共享与授权问题,不同采集设备的影像融合可视化问题,大科学装置的长期运营及维护问题等。
会议共邀请十五位专家做专题报告,分别是复旦大学图书馆副馆长张计龙研究馆员,中国人民大学信息资源管理学院贾君枝教授,天津师范大学管理学院院长刘冰教授,湖北省科技信息研究院书记肖松研究员,武汉理工数据传播有限公司总经理白立华编审,北京万方软件股份有限公司总经理张正锋高级工程师,科大讯飞股份有限公司人工智能研究院副院长柳林老师,荷兰阿姆斯特丹自由大学人工智能系终身教授黄智生教授,国家海洋信息中心海洋信息化部主任姜晓轶研究员,国家工业信息安全发展研究中心数据资源所数据资源建设部主任张洁雪老师,中国工程院战略咨询中心郑文江副研究员,中国科学技术信息研究所李琳娜副研究员,北京大学信息管理系化柏林助理教授,武汉大学信息管理学院信息管理科学系主任陆泉教授和山西医学期刊社数字出版及知识服务中心主任武建才老师。武汉大学信息管理学院副院长王晓光教授,中国科学技术信息研究所韩红旗研究员,湖北省科技信息研究院副院长颜慧超研究员,中国科学院声学研究所张全研究员,中国农业科学院农业科技信息研究所主任鲜国建研究员,南京理工大学章成志教授和科学技术文献出版社社长胡红亮研究员分别担任专题报告主持人。
张计龙研究馆员介绍了其团队对当代中国社会生活资料数字化与数据分级方面的研究工作。张研究馆员首先介绍了社会生活资料的范围及项目缘起。社会生活资料是指由个人、家庭、企事业单位、政府基层单位所制作,但没有纳入正式档案系统而流入社会的文字、数据等资料。复旦大学图书馆于2011年成立“当代中国社会生活资料中心”,正式启动对当代中国社会生活资料的收集整理工作,最终于2018年成立复旦大学图书馆“当代中国社会生活资料馆”。张研究馆员随后分别介绍了资料的数字化及数据库建设过程、资料数据分级方案设计及资料的共建共享机制。复旦大学图书馆当前收集的社会生活资料有50万页,地域分布有河南、四川、贵州、江苏、上海、浙江、江西等地。数据库建设流程主要包括数据整理、组织、处理、发布及服务等环节。通过分析资料应用场景、数据分享安全性、隐私保护、机器自动处理需求等最终确定了数据的分级组织方式、设计每个层级相对应的元数据规范。数据分级引入哈佛大学Data Tags数据分级分类思路,最终形成了以实践为视角、适应大数据时代数据分级分类需求、可扩展、可调节的五级数据分级模型。分级的主要依据包括:是否包含高度敏感内容、是否是政法系统和组织部的资料、是否包含负面内容、是否包含个人信息、资料年代是否超过30年五个方面。数据库针对不同的用户类型提供不同的数据访问权限,例如非实名用户仅仅提供检索及查看简明记录功能、实名认证的用户根据不同的类型可访问不同等级的数据。2018年,复旦大学图书馆联合22家学术图书馆及研究机构共同发起成立“当代中国社会生活资料共建共享联盟”,旨在建立文献资源共建共享机制,促进社会生活专题资源的收集、整理、保护及利用,并以服务全球学术研究为目标。联盟通过组织一系列学术推广活动,如“当代中国社会生活资料共建共享联盟”国际学术研讨会、“慧源共享”上海高校开放数据创新研究大赛等,推动形成国内外合作的社会生活资料研究网络。
贾君枝教授分享了对数据网络中资源描述的词表重用的研究成果[4]。关联数据、知识图谱等语义网络技术的快速发展使得数据迅速地产生、聚合及传播,促进了开放、互联的数据网络生态环境的逐步形成。网络数据遵循实体关系模型原则,包含两种类型的信息,即模式信息和事实信息。模式信息为已经定义的类及属性以及基于域的概念化自上而下构建的类之间的关系;数据信息揭示事实信息,即保留有关特定域的信息。词表作为数据集添加语义的重要工具,提供了定义数据集及数据之间明确链接类型的术语集,成为数据网络形成的粘合剂。词表重用即从现有的词表中选择适合的类及属性来定义所描述对象的内外部特征,使用共享词表的术语定义表述信息的数据模型,以实现数据集的准确描述及形式化表示,提高数据集之间的互操作能力,避免表述的歧义及冲突。词表重用类型有概念层重用和词表层重用。概念层重用首先通过分析描述对象得到重要的概念及其关系,寻找能够包含这些概念及关系的词表,形成一系列可参考的词表集合,再基于词表的发布机构、流行度、类及属性等特性确定所选用的词表;词表层重用指从词表中直接选取与数据模型的类、属性相对应的术语进行表示。词表重用发生在数据网络的模式层,用于帮助构建描述对象的概念模型,主要由类、属性及一系列限制规范构成。在数据网络环境下,词表作为重要的知识组织工具,被赋予了新的功能需求――粘合剂作用,能够极大地推动数据网络的互操作性。
刘冰教授从现实社会层面和国家层面介绍了大数据治理的迫切需求。随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量聚集的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。2020年国家在发布的《中共中央国务院关于新时代加快完善社会主义市场经济体制的意见》中提出“加快培育发展数据要素市场,建立数据资源清单管理机制,完善数据权属界定、开放共享、交易流通等标准和措施,发挥社会数据资源价值。推进数字政府建设,加强数据有序共享,依法保护个人信息。”刘教授接着介绍了大数据治理涉及到的国家利益、企业利益和个人利益之间的矛盾。例如,国家安全与经济社会发展之间的矛盾、业务创新与个人信息隐私保护之间的矛盾等。刘教授认为大数据治理是大数据生态的治理,其内涵和本质包括:(1)大数据治理不是单一目标的治理,而是多目标的协同治理;(2)大数据治理不是单一主体的治理,而是多主体参与的共同治理;(3)大数据治理不是单纯数据本身的治理,而是多要素的统筹治理;(4)大数据治理不是静态僵化的治理,而是动态主动的积极治理;(5)大数据治理不是“一刀切”的单方面治理,而是“一揽子”综合治理。刘教授最后总结了大数据治理应该站在国家治理体系视角下,运用政治、经济、行政手段对大数据生态实施全面管理的一整套战略设计制度、机制、程序和方式。大数据治理要与国家治理现代化相向而行,不但要成为国家治理体系和治理能力现代化的重要构成,而且要将成为重要的基础支撑。
肖松研究员从新时期地方科技情报机构深化智库化转型的态势和战略路径两个角度介绍了其对情报研究与科技服务协同创新的思考。新一轮的科技革命和产业变革,特别是我国创新驱动发展进程带来的科技情报业态变革,从情报资源到情报挖掘到情报服务是多维度的,甚至是全景式的,科技情报研究服务战略需要将“大创新、大服务、大情报、大数据”这几个强关联的时代特征联系在一起思考,即大创新催生大服务,大服务面向大决策,大决策呼唤大情报,大情报需要大数据。从情报学范式变革的态势来看,基于大数据的情报研究与服务是地方情报机构重构情报资源、情报手段和情报组织与服务方式的数字化转型的过程。在大数据环境下,数据所蕴含的远远超出其工具性和依据性特征的信息价值、知识价值、情报价值能得到充分挖掘。大数据改变了情报研究的范式,赋予了情报研究与服务的新内涵。目前地方情报机构的工作存在定位与业务不协同、研究与服务不协同、战略与实施不协同、决策前中后研究服务不协同、共性和特色不协同的问题,提出建议包括:(1)研究驱动向需求驱动转型上强化协同;(2)立足“抓战略”“抓规划”“抓政策”“抓服务”,聚焦“四抓”上强化协同;(3)要在“五链融合”重构业务体系上强化协同,即构建支撑科技创新全价值链的决策支撑体系,实现“创新链”“服务链”“决策链”“情报链”和“数据链”的五链融合;(4)要在“数智赋能”上强化协同,形成“数据”赋能、“智能”赋能、“智慧”赋能融合的“大数智赋能”格局;(5)要在场景化落地上强化协同,通过场景把决策、服务、情报、数据等相关的要素集聚在一起,将五链各环节的供给与需求紧密结合起来。
白立华编审首先总结了出版业知识服务的背景。出版业做好知识服务具有战略层面和政策层面的双重优势,但是也面临供需脱节、产业低效、创新不足的困境。目前出版业实现知识服务主要有三个路径:第一个途径是自建融合平台,如中信出版社,该途径具有开发的知识服务能较好地贴合自身实际、实现出版社多渠道发展的优势,但存在投入大、成本高、盈利难、受自身技术条件限制的弊端。第二个途径是尝试与第三方平台合作,该途径具有投入少、技术成熟、渠道多元的优势,但存在大部分盈利及用户数据被第三方平台获取的缺点。第三个途径是尝试与技术公司合作,例如人民出版社与百分点公司合作“党员小书包”项目,该途径既能保证技术力量,又可以实现优质资源对接,但是会导致投入大、成本高、出版社受制于第三方等问题。白编审随后介绍了出版融合的创新服务模式,实现出版和科技融合有多个关键技术需要突破,如出版的大数据的融合赋能技术、大数据的融合分析技术、知识计算和可视化的交互引擎技术等。通过技术突破实现产业的融合、供需的融合和资源的融合,最终形成一种“知识+”的产业生态体系,构建一种大规模的定制化的知识服务方式。出版融合创新服务模式的实现需要从内容制作、编辑激励、读者服务等多个方面发力。白编审最后展示了出版融合创新服务模式在专业领域、教辅领域、期刊领域的实践案例。
张正锋高级工程师分享了基于大数据的科技咨询技术与服务方面的实践工作。张高工首先介绍了大数据等信息技术对科技咨询服务模式带来的改变,即构建科技咨询平台为科技咨询活动赋能。北京万方软件有限公司利用自身的资源和技术优势研发了科技咨询业务平台,平台自底向上依次为科技数据资源池、实现数据工具化的数据中台、服务不同业务场景的工具研发和面向不同用户的业务智能化。数据资源池主要聚焦于“五域四链”,即人才、技术、机构、经济、区域五大信息领域和投资链、技术链、供应链、人才链。对收集的数据资源进行关系抽取、事件抽取后构建知识图谱从而实现基于图数据库的存储。平台核心算法主要包括智能评估算法、创新度排名算法、大数据基准线对标算法、基于需求的技术成果推荐算法、技术合作人推荐算法及相似文本比对算法。张高工最后展示了平台的应用场景,如科技人才图谱、机构创新能力透视、产业链雷达、投研推荐、产学研合作发现及技术洞察。
柳林老师首先回顾了人工智能和语音识别技术的发展历程,从语音产生机理、人耳如何识别声音的角度解释了语音识别技术的原理。工程化应用的语音识别技术落地主要经历了四代,第一代语音识别技术主要采用混合高斯模型和隐马尔可夫模型,这时语音识别开始工程化应用;第二代语音识别技术主要采用神经网络模型和隐马尔可夫模型,即用神经网络去代替声学模型,减少了对声学信号处理的专家依赖,该阶段语音识别技术开始大规模工程化应用;第三代语音识别技术主要将声学模型和语言模型放在一起采用端到端的统一建模,识别性能更好、建模更加便捷,多语种推广应用更快;第四代语音识别技术主要采用语音预训练模型,实现更低资源的语音识别系统。柳老师随后总结了人工智能技术落地需满足三个标准:真实可见的实际应用案例、能规模化推广的对应产品和可用统计数据证明的应用成效。柳老师最后简要介绍了人工智能目前在机器翻译、对地目标观测、智慧教育等领域的应用情况,并认为在统一语义、语用空间下,人、机和环境共融的自主学习的人工智能是未来的发展方向。
黄智生教授首先以医学科技文献库为例,展示了大数据网络时代每天都产生大量的科技论文和科技信息。科技工作者面临没有足够时间追踪自己所关注的专题的最新进展、无法高效率融合新知识等挑战。黄教授团队所开发的科技信息采编机器人不但能够定向定题为科技工作者采集最新的科技信息,还能够将采集到的科技信息编辑成科技进展通报,以类似出版物的形式对外发布。科技信息采编机器人充分利用医学知识图谱为信息采集提供领域知识指导、根据主题对内容进行聚类、提供医学问题的循证分析等。黄教授最后展示了科技信息采编机器人生成的脓毒症、多发性骨髓瘤、川崎病等特定领域的进展通报。
姜晓轶研究员首先从海洋的数据类型、数据来源、数据规模及增长速度、国内外海洋科学数据服务现状介绍了海洋知识服务的背景[5]。海洋数据获取方式主要包括观测、监测、专项调查、统计核算、互联网爬取等,数据具有跨学科、多要素、多源、多维度、时空变化等特征,目前已经积累了PB级别,未来5-10年有望达到EB级。因此,从复杂的大规模数据中快速地获取有用的信息和知识,提供智能精准化的决策服务,已经成为海洋数据管理、挖掘、分析和服务领域的迫切需求。
姜研究员随后介绍了海洋专业知识服务系统的技术架构、海洋知识资源规划及整合管理、一站式知识检索和多元知识服务等[6]。该系统汇聚整合了8大类85小类海洋知识服务资源,基于面向主题的知识资源自动聚合技术,其研究团队构建了海洋多要素多专题产品体系,覆盖海洋环境信息产品、应用管理专题产品、军事保障产品和社会服务公益产品等。研制的21世纪海上丝绸之路、海平面上升、蓝色经济、海底地形地名等多个特色专题产品,提供了全面、深入、精准的专题知识聚合服务;研发的趋势分析、学者分析、机构分析等知识应用,为海洋热点难点研究提供了信息参考;基于领域跟踪、信息参考和数据分析相结合的智库信息服务模式,打造了“权威公报+公开报告+舆情分析”一体化海洋智库报告系列产品。团队目前正在围绕海洋知识图谱构建与管理支撑应用,集中开展技术攻关。
姜研究员最后介绍说,海洋专业知识服务系统的目标是努力打造海洋信息服务与知识应用的综合化平台,为国家高端智库建设、海洋科技创新、海洋科普和文化宣传提供有效支撑服务。
张洁雪老师首先介绍了国家工业信息安全发展研究中心的基本情况及业务体系,随后介绍了信息技术知识服务系统的发展过程、底层资源总体情况及平台的基础功能、特色知识应用和资源服务情况[7-8]。信息技术知识服务系统自2014年开始建设,数据资源逐年丰富、系统功能逐步增加。目前已经建设31类数据资源,总量约1,500万余条;建设《电子信息技术叙词表》,总收词量达27,752条;建设集成电路、人工智能等领域本体。系统功能从基础的资源统一检索、分类浏览、知识关联展示等,逐步扩展到特色知识应用服务,如热点聚集、元器件选型、信息经济产业运行、人工智能技术趋势等。张老师随后重点从编制原则、选词原则、词间关系等方面介绍了最新出版的《电子信息技术叙词表》的编制过程。张老师最后介绍了其团队所研发的多个知识服务产品,如人工智能产业图谱、大数据优秀案例分析、智能传感器产品及制造商数据库等。
郑文江副研究员首先界定了战略咨询的内涵及常用的研究方法。战略咨询研究主要对战略目标、战略方针、战略力量和战略措施等战略要素进行研究。研究方法主要基于信息论、系统论、控制论和现代社会科学的研究方法和手段。郑副研究员随后详细介绍了工程科技战略咨询智能支持系统的主要建设内容。在特色资源建设方面,结合知识中心论文、专利、经济、产业等数据资源,持续构建了未来技术库、咨询报告库、技术路线图和科研项目库等特色数据库;在应用工具构建方面,坚持“智能化”建设思路,重点围绕前沿识别和技术预见类战略咨询需求,构建以文献与专利分析为核心的特色产品,初步建成技术体系、态势分析、技术预见清单制定、技术路线图等产品;在通用产品建设方面,建成文献综述、专利分析、项目分析、语音助手等多个通用产品并为课题组提供多种维度的分析工具。目前,工程科技战略咨询智能支持系统已支撑了中国工程科技2035发展战略研究、面向2035的智能制造技术预见和路线图、高端制造装备重点领域技术路线图等多个课题的咨询研究工作。
李琳娜副研究员首先介绍了其项目组在中国工程科技知识组织体系的建设成果。中国工程科技知识组织体系主要包括工程科技词表和知识中心中文文献类资源导航分类体系。工程科技词表是核心集和扩展集的架构体系,核心集具有词条质量高、词间关系密集的特点;扩展集具有收词量大、覆盖面广、更新速度快的特点。李副研究员随后详细介绍了基于工程科技词表的主题标引,标引算法基于能捕捉词条语义信息的词向量技术,利用大规模语料统计构建主题词和普通词的映射关系,最终实现科技资源的主题快速标引;其接着介绍了知识组织体系对知识中心智库建设中个性化推荐的应用情况,一方面将知识中心分类体系用于推荐算法的召回,另一方面也将前述的主题标引方法用于召回及排序;最后对知识组织体系在知识服务中的应用问题进行了总结、对前景进行了展望。
化柏林助理教授首先介绍了科技政策文本包含的元数据信息及特点。科技政策文本挖掘包括统计计量分析和文本内容挖掘。统计计量分析主要包括发布时间分析、政策扩散分析和合作关系分析;内容挖掘包括主题内容挖掘、主题演化分析、实体关系抽取、政策比对分析和政策目标抽取[9]。政策文本挖掘可用于发现政策的主要目标、政策主题的演化、政策过程中的现有模式、政策影响及政策发展趋势。化柏林助理教授随后从自然语言处理、机器学习、深度学习的角度介绍了政策文本挖掘中常用的方法和技术,进一步展示了其研究团队在政策文本挖掘方面所取得的成果,最后对政策文本挖掘的研究体会进行了总结。
陆泉教授分析了数据驱动的健康知识发现中数据、样本与知识方面的问题及研究进展。针对数据不正确、数据不完整和数据难理解等数据问题,他介绍了采用元数据增强和扩展方法进行作者消歧,通过融合模糊知识表示与推理实现药物知识发现,利用扩展疾病本体对电子病历大数据进行知识组织等研究[10];针对缺乏样本、样本不均衡和高维稀疏等样本问题,介绍了利用结合注意力机制的迁移学习解决目标领域中缺乏样本问题,通过两阶段迁移学习解决多标签分类中样本不均衡问题,综合领域信息识别和聚类等方法解决微博热点话题挖掘中高维稀疏问题等研究[11];针对知识不系统、领域片面性和知识局限性等知识问题,介绍了细粒度医学知识图谱构建、跨领域本体构建和本体推理、颠覆性技术预测以及灵感情报等研究。
武建才老师首先简要介绍了山西医学期刊社有限责任公司的基本情况,随后从我国护理科研存在的问题以及行业、技术与政策的角度介绍了护理大数据平台建设的整体背景。护理大数据平台主要包括信息采集、信息分析、开放共享体系和知识服务四个主要建设任务。知识服务模式主要有基于语义关联的知识发现服务、基于深度融合的情报分析服务、面向特定需求的个性化定制服务和针对特定主题的专题知识服务。武老师最后详细介绍了对比式摘要、自动综述、人才评价、期刊评价等多种知识服务成果。
本次会议围绕情报分析、知识组织、知识服务、大数据治理等领域的研究与应用现状,探讨了新时代情报分析技术、知识服务创新、情报服务专业化的发展趋势与战略规划。会议加强了中国情报领域学界和业界的交流与合作,明确了情报工程在“十四五”阶段的发展方向,强调了基于数据智能的知识服务对科技创新的重要支撑作用。知识服务与情报工程学术交流会议将继续为知识服务、情报工程及相关领域研究人员提供学术研讨与合作交流的平台。
作者贡献说明
李琳娜:参与论文框架讨论,起草论文;
刘志辉,陆泉:论文框架确定,论文修订。