人工智能领域关键技术挖掘分析*

2019-08-13 03:26王燕鹏赵亚娟王思培
世界科技研究与发展 2019年4期
关键词:共性热点聚类

王燕鹏 韩 涛**, 赵亚娟 陈 芳 王思培,2

(1.中国科学院文献情报中心,北京100190;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京100190)

人工智能是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。这一概念自1956年被提出后,已历经半个多世纪的发展和演变。21世纪初,随着大数据、高性能计算和深度学习技术的快速迭代和进步,人工智能进入新一轮的发展热潮,其强大的赋能性对经济发展、社会进步、国际政治经济格局等具有重大且深远的影响,已成为引领新一轮科技革命和产业变革的重要驱动力量,是推动人类进入智能时代的核心和重要抓手[1]。

发展热潮之下,全球主要国家积极在人工智能领域深耕布局,国际竞争日益激烈。2017年7月,我国发布《新一代人工智能发展规划》,明确将人工智能作为国家未来重要发展战略,并确定中国人工智能发展“三步走”战略目标,到2030年实现人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心;2018年3月,法国总统宣布启动15亿欧元的人工智能计划[2],将在法国建设一个国际级的研发中心,完善数据领域政策,培养法国在人工智能领域的人才,并对技术革新的伦理和规制问题进行反思,以推动法国跻身人工智能领域的领军者行列;2018年4月,欧盟委员会计划2018—2020年在人工智能领域投资240亿美元[3];2018年11月,德国联邦内阁通过人工智能国家战略,计划2025年前在联邦层面投入30亿欧元,旨在人工智能领域新增100名教授席位并资助扩建人工智能研发中心[4];2019年2月,美国总统特朗普签署行政令,启动“美国人工智能倡议”[5],该倡议提出研发、资源调配、政策、人力资源培养和准备、国际合作五项发展重点领域,以维护美国人工智能领导力。

与此同时,人工智能产业蓬勃发展,全球产业界纷纷调整发展战略,人工智能创新创业如火如荼。2017年,谷歌和微软陆续将企业发展战略和愿景转向人工智能;百度也于2017年将公司使命更改为“用科技让复杂的世界更简单”,希望百度从全球最大的中文搜索引擎彻底转型人工智能科技公司;自2013年以来,全球和中国人工智能行业投融资规模都呈上涨趋势,2017年全球投融资总规模达395亿美元[6]。

人工智能作为一门综合和高度复杂的技术科学,其发展离不开底层多类型关键技术的研发突破和支撑。厘清人工智能领域的关键技术,把握技术现状和发展趋势,将为国家前瞻性战略布局、企业研发重心调整、科研机构和研究人员合理选题提供重要情报参考。2019年3月,李克强总理在政府工作报告中再次提及人工智能产业的发展,提出要“深化大数据、人工智能等研发应用”。相较于2017年的“加快人工智能等技术研发和转化”和2018年的“加强新一代人工智能研发应用”,“深化”一词不仅反映出我国人工智能发展呈现层层递进和逐步深入的良好态势,也体现了热潮之后我国政府对人工智能的持续重视和未来发展展望。我们应牢牢把握人工智能关键技术和发展方向,明确中国人工智能发展的短板领域和技术,切实响应国家需求,推进人工智能各项战略规划的快速稳健实施,加快人工智能专业型人才和通用型人才培养,构建体系化队伍,加大对人工智能学术及产业力量的扶持力度,培育并打造人工智能发展的中流砥柱,以期人工智能强大的赋能性为经济社会发展注入新的动能。因此,本文以人工智能领域高水平会议论文为分析对象,采用无监督聚类方法、复杂网络结构洞理论和突发词检测算法开展深度挖掘分析,梳理人工智能领域的热点技术、共性技术和新兴技术,以期全面了解人工智能领域整体技术结构,洞悉关键技术分布和研发态势,明确人工智能领域代表性国家与机构。

1 数据来源与研究方法

1.1 数据来源

科技论文记载了科学研究和技术研发活动的大量高价值信息,反映了科技成果诞生的初始状态,是关键技术挖掘的重要数据资源。而在计算机领域,高质量会议论文在学界有着较高的关注度和认可度,同时,相对于期刊论文,会议论文的时效性更好,一定程度上代表着该领域最新、最热的研究内容,本文综合专家咨询意见及数据的可获得性,以中国计算机协会推荐的人工智能领域高水平国际学术会议(A类和B类,共19种)[7]为基础数据源(表1),利用Scopus数据库检索并下载题录数据,包括发表年、标题、关键词、摘要等,时间跨度为2015—2018年,检索时间为2019年1月22日,共18956篇论文,作为人工智能领域关键技术分析挖掘的数据基础。

1.2 研究方法

1.2.1 关键技术概念界定

对科技论文内容进行深度挖掘,旨在梳理发现人工智能领域的关键技术,具体包括热点技术、共性技术和新兴技术三类。本文对三类关键技术的概念界定如下:

表1 人工智能高水平国际会议(共19种)Tab.1 High-level international conference in artificial intelligence(19 in total)

1)热点技术:某学科领域内,近年来受到科研人员广泛关注并已产出相应研究成果的主要研究方向和技术主题,反映了学科领域的研发现状和技术结构全貌;

2)共性技术:对学科领域内其他研究方向和技术主题产生广泛影响、其研究成果可供参考借鉴和分享使用的一类技术,反映了学科领域的重要研发基础和技术前沿,是学科领域内的“思想源泉”或“集大成者”;

3)新兴技术:某学科领域内,最新出现且短时间内受到广泛关注的研究方向和技术主题,反映了学科领域内具有重要潜在影响的新近研究热点。

1.2.2 研究思路与方法

本文采用无监督聚类方法、复杂网络结构洞理论以及突发检测算法开展人工智能领域关键技术挖掘分析,研究思路如图1所示。

具体研究过程及方法包括:

1)基于K-means++聚类的热点技术挖掘分析

本文基于python语言,利用NLTK包对会议论文文本数据(标题、摘要和关键词)进行预处理,包括分词、词性标注、词干提取、词性还原、停用词过滤等,利用TF-IDF方法对文本进行向量化表示,采用K-means++算法对数据进行聚类,对各个聚类簇进行解读和调研,形成人工智能领域的热点技术。

2)基于复杂网络结构洞理论的共性技术挖掘分析

结构洞理论形容非冗余的联系,指在社会网络中的某个或某些个体与部分个体发生直接联系,但与其他个体不发生直接联系的现象,从网络整体看好像网络结构中出现了洞穴[8](图2)。结构洞能够为其占据者获取“信息利益”和“控制利益”提供机会,Raider[9]的实证研究表明:结构洞占据者的位置对信息控制、识别以及交易起着重要的作用。近年来,已有相关学者利用结构洞理论开展共性技术或基础技术的识别,如江娴[10]、叶春蕾[11]、王海龙[12]等。结构洞反映了节点对网络资源的控制能力,占据结构洞的节点能够获取来自多方面的非重复性信息,反映在学科领域研究上,占据结构洞的研究方向更有可能是“思想源泉”或“集大成者”,即领域共性技术,可对学科领域内其他研究方向产生广泛影响。

图1 研究思路示意图Fig.1 Schematic diagram of research ideas

本文以K-means++聚类得到的热点技术聚类簇为节点,计算聚类簇质心向量间的相似性,以此作为节点间连接和权重的依据,构建网络。基于复杂网络结构洞理论,计算网络中各节点的限制度指标,以此反映节点在网络中运用结构洞的能力。节点的限制度指标值越小,代表节点拥有的结构洞越多,运用结构洞的能力越强,所占据的“信息利益”和“控制利益”越大,以此识别人工智能领域的共性技术。

图2 有结构洞的信息流动网 &关系闭合的信息流动网Fig.2 Network of information flow with structural holes&network of information flow without structural holes

3)基于Burst Detection算法的新兴技术挖掘分析

本文以清洗后的会议论文关键词为分析数据,采用 Sci2 tool工具[13]的 Burst Detection算法探测最新出现且短时间内受到广泛关注的新兴技术。

2 人工智能领域关键技术分析

2.1 人工智能热点技术

人工智能领域的热点技术代表近年来的主要研究方向和技术主题,反映出人工智能领域的技术结构全貌。结合轮廓系数的计算结果,确定聚类簇数量K=140时,具有较好的聚类效果。经人工判读,140个聚类簇中共有132个有效类和8个混杂类。以132个有效类作为节点构建网络,并进行可视化和模块划分,最终形成14项技术大类(图3及表2)。中国和美国在14项技术大类下发文量的全球排名,以及各技术大类的Top5优势机构列举如表3。

表2 人工智能领域热点技术详表Tab.2 Details of hotspot technologies in artificial intelligence

表3 人工智能领域各热点技术大类发文量全球排名及Top5机构Tab.3 Global ranking and Top5 institutions of hotspot technologies in artificial intelligence

图3 人工智能领域热点技术分布网络Fig.3 Hotspot technologies network in artificial intelligence

机器学习子领域的技术大类包含机器学习算法及应用、强化学习算法、近似及优化算法和规划问题共4项。其中,热点技术主要包括回归、聚类、分类、近似、估计和优化等基础算法的改进研究;迁移学习、多核学习和多视图学习等新型学习方法;策略网络和时间差分学习等强化学习基本方法;机器人及多代理系统计划、路径规划等问题研究;机器学习算法在事件检测、位置识别和社交网络分析中的应用以及强化学习在智能决策中的应用研究。在上述4项技术大类中,美国发文量均居全球首位,中国在机器学习算法及应用、近似及优化算法和规划问题研究方面仅次于美国,但强化学习研究发文量居全球第5位,相对靠后。国内机构在机器学习算法及应用、规划问题研究方面表现较为突出,中国科学院、清华大学和北京大学的发文量位居全球前列。

自然语言处理子领域的技术大类包含自然语言处理技术和自动问答技术共2项。其中,热点技术主要包括特征提取、语义分类、词嵌入、主题模型、关系抽取与分类、知识图谱、注意力模型和长短期记忆模型等基础技术研究,还包括智能自动问答、机器翻译、情感分析、推荐系统等应用研究。在上述2项技术大类中,美国发文量均居全球首位,中国紧随其后。中国科学院在这2项技术大类的发文量均居全球前列,清华大学和北京大学也表现不俗。

计算机视觉子领域的技术大类包含图像处理技术、视频处理技术、图像匹配技术、视觉跟踪技术和对象检测技术共5项。其中,热点技术主要包括视频图像分割、对齐、检测、识别及跟踪所涉及的核心技术研究;三维重建、光度立体视觉、相机校准、行人再识别、人脸对齐与关键点检测等应用研究。在上述5项技术大类中,也都是美国发文量居全球首位,中国紧随其后。中国科学院在图像匹配和视觉跟踪技术上的发文量均居全球首位,在图像处理和视频处理技术上也位居全球前列,此外,浙江大学、大连理工大学和清华大学也表现不俗。

机器人子领域的热点技术主要包括机械手、抓握、行走、感知和驱动等智能控制技术研究,同时还包括外骨骼机器人、服务机器人和机器人传感器等硬件基础和软件优化研究。此外,人工智能领域的热点技术还包括智能多代理系统,以及众包、拍卖、市场定价、能源管理和隐私保护等相关问题的研究。在上述技术大类中,美国发文量均居全球首位,中国在机器人和智能多代理系统研究方面发文量居全球第7位,相对靠后。同时,国内机构在上述技术大类下的发文量均未能进入全球Top5。

2.2 人工智能共性技术

人工智能领域的共性技术可对其他研究方向和技术主题产生广泛影响,反映出人工智能领域的重要研发基础和技术前沿。以人工智能领域热点技术分布网络(图3)为对象,计算网络中各节点的限制度指标并升序排列,取Top20的热点技术作为人工智能领域的共性技术(表4)。

机器学习子领域占据15项共性技术,包括推理、特征选择与特征学习、图论、分类、搜索、回归等基础算法研究,以及约束优化、网络优化、最优化理论、损失函数及优化等机器学习算法优化方法探索,还包括序列学习、树学习、长短期记忆模型、多示例学习等新型学习方法实践,此外,也涉及到机器学习算法在生存预测、人机关系推断、药物不良反应预测方面的应用研究。由此可见,机器学习方法强大的赋能性推动了人工智能技术和应用的发展升级,各类机器学习共性技术为其他子领域研究实践奠定了坚实的方法和算法基础。

计算机视觉子领域占据3项共性技术,包括位置识别和图像对齐所涉及的核心技术研究,此外,还包括多标签对象识别、人脸识别、纹理识别、零次动作识别等机器视觉识别技术的研究和应用实践。机器人子领域中,传感器技术及应用作为一种共性技术,对于机器人的智能控制起到非常重要的作用,使其拥有类人的感知功能和反应能力,其中,分布式传感器网络、多传感器融合以及嵌入式微流体应变传感器等新型传感器是 当下的技术研发前沿。

表4 人工智能领域共性技术详表Tab.4 Details of generic technologies in artificial intelligence

2.3 人工智能新兴技术

人工智能领域的新兴技术代表最新出现且短时间内受到广泛关注的研究方向和技术主题,反映出人工智能领域内具有重要潜在影响的新近研究热点。以会议论文关键词为分析数据,采用Sci2 tool工具的Burst Detection算法计算各个关键词的突发指标,根据突发权重和突发等级降序排列,选取最高突发等级且尚未进入突发稳定状态的Top15关键词作为人工智能领域的新兴技术(表5)。

在人工智能领域的新兴技术中,深度学习技术出现频率最高,包括深度神经网络、对抗网络、对抗学习、注意力机制、深度卷积神经网络、长短期记忆网络等。其中,生成对抗网络和注意力机制近年来的研究热度快速上升,已成为深度学习非常重要的模型和工具,前者可用于真实数据的建模与生成,如图像、视频、自然语言和音乐等,后者则在图像处理、语音识别和自然语言处理方面有广泛应用。此外,强化学习、案例推理和演化算法等机器学习方法,图像增强、信号编码等计算机视觉技术,以及自主代理和多代理系统等均为人工智能领域的新兴技术。

3 结论

基于人工智能高水平会议论文数据,利用无监督聚类、复杂网络结构洞理论和突发检测算法,从热点技术、共性技术和新兴技术三个方面挖掘分析人工智能领域的关键技术。根据上述分析结果可知:

表5 人工智能领域新兴技术详表Tab.5 Details of emerging technologies in artificial intelligence

人工智能领域共包含14个大类、132项热点技术,其中,机器学习子领域的热点技术主要包括基础算法的优化改进和实践应用,以及迁移学习、强化学习、多核学习和多视图学习等新型学习方法的研究探索等;自然语言处理子领域的热点技术主要包括特征提取、语义分类、词嵌入等基础技术和模型研究,以及智能自动问答、机器翻译等应用研究;计算机视觉子领域的热点技术主要包括视频图像分割、对齐、检测等所涉及的核心技术研究,以及三维重建、光度立体视觉、行人再识别等应用研究;机器人子领域的热点技术主要包括机械手、抓握、行走、感知和驱动等智能控制技术研究,以及外骨骼机器人和机器人传感器等硬件基础和软件优化研究。

人工智能领域的共性技术主要分布在机器学习、计算机视觉和机器人子领域,其中,机器学习方法强大的赋能性推动了人工智能技术和应用的发展升级,各类机器学习共性技术为其他领域研究实践奠定了坚实的方法和算法基础。

人工智能领域的新兴技术主要集中在深度学习方面,生成对抗网络和注意力机制是其中的典型代表,此外,新兴技术还包括强化学习、自主代理和多代理系统等。

人工智能作为一门基础研发和实践应用并重的技术科学,其热点技术既包含机器学习基础算法的改进优化,也涵盖自然语言处理、计算机视觉和机器人等通讯、感知和行动层面的应用研究。而通过热点技术遴选得到的共性技术则赋能了人工智能基础研发和实践应用进步,机器学习基础算法在不断进化的同时,也为相关研究方向提供了新思路、新方法和新手段,同样,机器视觉核心技术和传感器技术在也分别在计算机视觉和机器人领域起到至关重要的作用。热点技术和共性技术旨在揭示人工智能领域的技术全貌及核心技术方向,而新兴技术则从关键词层面细粒度揭示突发的技术研究内容,深度学习中的生成对抗网络和注意力机制作为人工智能新兴技术的典型代表,具有广泛的实践应用场景,对人工智能发展具有重要的潜在影响。

人工智能已成为全球重点关注的研究和发展领域,国际竞争日益激烈。美国在人工智能领域各热点技术大类下的发文量均位居全球首位,且遥遥领先于其他国家。中国在机器学习、自然语言处理、计算机视觉等多个技术大类下的发文量仅次于美国,但在强化学习、机器人、智能多代理系统研究方面发文量排名相对靠后,与美国、德国、法国、日本和英国等国家存在一定差距。此外,中国科学院在多个技术大类下的发文量均位居全球前列,清华大学、北京大学、浙江大学和大连理工大学也表现不俗,但与卡内基梅隆大学、微软研究院、麻省理工学院等美国著名高校和企业存在不小差距。

猜你喜欢
共性热点聚类
热点
基于K-means聚类的车-地无线通信场强研究
共性
热点
结合热点做演讲
“数控一代”示范工程引领和推动共性使能技术在中小企业推广应用
基于高斯混合聚类的阵列干涉SAR三维成像
雷锋精神与辽宁精神的共性研究
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法